在中國,93.4%的上網者都是網絡視頻、短視頻的受眾。隨著寬帶提速,5G 普及,用戶對網絡視頻播放速度和清晰度需求水漲船高。AI 技術讓音視頻有了更多玩法,例如用戶對視頻的美化與互動,商家借助智能化視頻推廣,另外,AI 技術也被用在視頻領域修復電影資料等。不過從技術層面來看,AI 視頻開發和應用的新場景,讓視頻開發者面臨著新的智能化視頻技術挑戰。
具體來說,與以往的視頻開發鏈路有所不同,在智能音視頻開發鏈路里,包含了例如人臉識別、圖像分割等 AI 相關的新技術;通過 AI、CV 逐幀處理視頻,比普通視頻處理所需資源開銷更大,對移動端性能要求也更高;而資源需求也會引起移動端硬件功耗增加,手機發熱,更損傷用戶的使用體驗。面對新的視頻應用趨勢,開發者需要熟練地運用 AI 新技術、優化資源和性能的更多矛盾、硬件功耗,每一件都是一個專業視頻開發者要耗費大量時間和精力才能搞定的難點。
業界目前將 AI 用于視頻處理,大多是從服務器側實現。隨著移動設備不斷刷新硬件高配置,以及網絡條件的改善,端側的智能化視頻其實蘊藏了更多的潛力有待挖掘。
針對智能化視頻開發的這些痛點,華為在2021 年 7 月推出了面向移動端開發者的多媒體開放能力體系——多媒體管線服務AV Pipeline Kit(以下簡稱為AV Pipeline)。近日,CSDN專訪了 AV Pipeline 開發團隊的多位技術研發負責人,深度揭秘和解析了 AV Pipeline 的架構設計,以及最核心的兩項特性:視頻超分與聲音事件檢測的核心技術。
輕量級開發框架,“拼樂高”式的插件化
音視頻開發
據介紹,AV Pipeline 里包含輕量級多媒體開發框架和多種高性能的音視頻處理插件。多媒體開發框架負責解析配置文件并將多個插件按照配置文件中的編排關系連接組成一個流水線,實現特定的媒體業務,如播放、錄制、編輯等。音視頻處理插件負責完成特定的任務,例如解封裝、解碼、濾波等。
AV Pipeline 框架旨在降低媒體應用的開發難度,讓開發者們可以通過 AV Pipeline 自定義流水線編排,將原本需要幾千行代碼才能實現的 AI 視頻功能,只通過幾十行代碼,將多種高性能插件快速集成到應用中,輕松實現更加豐富的多媒體功能。
詳細來說,通過定義插件的標準接口和數據流在插件之間的流轉方式,開發者只需要按照標準接口完成插件開發,就可以迅速構建出新型的媒體場景。視頻開發者如果需要在(端側)視頻采集、播放、編輯等場景中加入 AI 和計算機視覺、音頻等算法,采用 AV Pipeline 框架即可。
AV Pipeline 已預置可應用在播放場景的 Pipeline,如視頻播放、視頻超分、聲音事件檢測,提供 Java 接口,同時支持開發者通過 C++接口直接調用單個預置插件。開發者可以如樂高積木式搭建,將不同 Pipeline 插件按不同的連接關系串聯起來形成新的業務場景。另外,若預置插件或預置Pipeline 不滿足使用要求,開發者可以開發自定義插件與 Pipeline。
AV Pipeline 已支持的多種插件
揭秘視頻超分與聲音事件檢測,以深度學習實現“升體驗、降成本”
端側最高 3 倍超分背后,采用深度學習與 NPU 方案
手機和移動設備可以隨時隨處播放視頻,不過網絡質量會因為地點條件各有不同。為了降低網絡差異對觀眾觀看體驗的影響,視頻 App 一般會針對網絡調整降低視頻碼率,減少播放卡頓。另外,用戶對畫質要求水漲船高,視頻App 需在服務器端存儲高清視頻,大大增加了視頻網站服務器端的成本開支。
這種情況下,AV Pipeline 用端側超分技術,提升畫質和觀看體驗,同時降低運營成本,堪稱一舉兩得。而這背后,是AV Pipeline 采用 AI 深度學習對超分功能進行了設計和應用。
智能化視頻集成開發神器來了,AV Pipeline Kit 架構解析
根據技術專家介紹,首先在模型方面 ,AV Pipeline 利用卷積神經網絡的非線性擬合能力,去近似自然場景中高分辨率圖像到低分辨率圖像的復雜的退化過程,實現更為真實的超分效果。其次,在數據工程上,除超分素材里龐雜的真實采集的數據外,AV Pipeline 也會構造接近真實場景的合成數據,用于模型的優化過程。最后也是非常重要的一點,為了突破手機端側的性能瓶頸,AV Pipeline 采用了多種模型小型化的方案,包括剪枝、量化、蒸餾、神經架構搜索等。
AV Pipeline 有 GPU 超分方案和NPU 超分兩種方案。GPU 超分方案具有較高的并行效率以及較好的通用性,對于 270P 及以下的視頻,可以實現最高 2 倍超分。而 NPU 超分方案則具有更好的超分體驗,可以提供 3 倍的超分能力,但是需要專有硬件的支持。這是因為 NPU 提供了直接支持視頻格式的接口,可以實現端到端的視頻轉化,減少了調用開銷。
另外,AV Pipeline 針對視頻超分提出特有的融合機制,對計算流水進行重排,可以降低超分對內存帶寬的需求,提高了推理性能,降低內存讀寫的功耗。
現在,AV Pipeline 視頻超分支持 270P-720P 等多種分辨率,最高可以實現 3 倍效果。根據視頻分辨率的不同,AV Pipeline 視頻超分插件會靈活采用不同的增強策略,以達到效果和時延功耗的平衡。
聲音事件檢測:98%識別準確率背后的四大設計亮點
AV Pipeline 另一個重要的插件是聲音事件檢測,聲音事件檢測采用主流的深度學習 NN 網絡算法模型,重點關注準確率和誤闖問題。在設計中,首先,根據聲音事件長短不同,AV Pipeline 采用并行計算多個不同卷積,以分析更豐富的特征。
第二,在頻譜中很難區分的易混淆聲音事件,AV Pipeline 采用注意力機制,對不同聲音特征計算貢獻度,以區分易混淆的聲音類別,并且可用于對誤闖聲音的抑制。第三,分類后的聲音事件,在時間維度(時域上),也使用注意力機制,為貢獻度打分。第四,AV Pipeline 設計了融合判決池,得分較高聲音事件直接判決,得分較低但不想遺漏的聲音事件,采用融合判決池做平滑處理。
AV Pipeline 聲音事件檢測現在可支持日常使用的 13 種聲音,可以用于無障礙功能、健康檢測、輔助安全駕駛、安全防盜、事故報警防剮蹭、停車啟動安全等更豐富的場景。研發團隊針對預置聲音類別進行了深度優化、組合驗證,當前識別準確率平均在 98% 以上。
最后,AV Pipeline 技術專家透露,AV Pipeline 已經在和視頻 App 大廠合作超分商用方案,目前灰度測試階段。同時,AV Pipeline 也可用于視頻編輯軟件和直播類應用。接下來,AV Pipeline 會繼續完善框架和插件,例如預置視頻錄制、編輯等業務的 Pipeline,還會新增與人像拍攝美化相關的插件能力。
從 AV Pipeline 在視頻領域新的玩法和探索,可以看到華為在持續投入大量核心技術,簡化底層開發繁瑣流程和難點,用以降低智能化音視頻開發的門檻,這是贏得開發者的最好契機。AV Pipeline 的設計與進展,也讓業界看到,華為正在探索核心場景和痛點的技術方案,持續加碼技術生態實力,未來可期。