金山云亮相LiveVideoStackCon2019 解析智能音視頻算法背后的技術實踐

責任編輯：cres |來源：企業網D1Net 2019-08-26 16:51:35 本文摘自：北國網

不管是高清直播互動的興起，還是超高清視頻、VR視頻的爆發，人們對于更清晰畫質的追求、更優良觀看體驗的探索，始終在不停演進。據預測，到 2022 年，超高清占視頻直播 IP 流量的百分比將高達 35%，這將會帶來帶寬成本的飛速飆漲，那么究竟如何在高畫質、低成本之間尋找一種平衡?

　　在近日舉辦的多媒體技術峰會LiveVideoStackCon2019上，金山云技術總監蔡媛發表了《集智高清-以低帶寬成本獲取高清畫質體驗》的主題分享，為這一問題帶來了解決方案，能夠以低帶寬成本獲取高清畫質體驗的云轉碼服務——集智高清。在演講中，蔡媛深刻詮釋了金山云集智高清在碼率節省上的重大突破，并分享了多種視覺AI及編碼技術，同時深入剖析集智高清的AI算法架構，包括如何使用全局去噪網絡及局部去噪網絡等深度學習算法修復并增強視頻畫質，并通過引出客觀評測視頻畫質評測平臺KQoE，為與會者帶來了一場干貨滿滿的技術專題分享。

　　金山云技術總監蔡媛在LiveVideoStackCon 2019發表演講

　　5G序幕開啟，AI加持構建極致云轉碼解決方案

　　近年來，隨著互聯網技術的飛速演進，4K高清、VR視頻、直播互動等更加多元化的音視頻形態，對于網絡帶寬傳輸效率提出了更高挑戰。從1994年第一代視頻編碼標準MPEG-2推出，到2013年第三代標準HEVC/H.265 AVS2的升級，雖然壓縮效率每10年增長約一倍，然而帶寬的增長永遠趕不上業務的需要，更加高效的音視頻傳輸效率，始終是擺在音視頻行業技術從業者們面前的難題。

　　“金山云基于對用戶需求的深刻洞察，推出了能夠以低帶寬成本獲取高清畫質體驗的云轉碼服務——集智高清，通過自研算法，整合AI、編碼、圖像處理等多種技術，融合深度神經網絡對視頻畫面內容進行感知，優化主觀體驗和智能調節編碼，對視頻進行畫質增強，提升視覺效果，適配更高清屏幕，帶來更好視覺感受的同時，還可幫助客戶節省50%視頻傳輸帶寬，廣泛適用于絕大部分視頻場景，”蔡媛介紹到，“通過對視頻進行內容分類、質量對比和內容分割，匹配視頻處理工具包，滿足用戶對超清視頻畫質和流暢播放體驗的追求，同時大幅降低視頻運營商的帶寬成本壓力。”

　　金山云集智高清云轉碼服務架構示意圖

　　在內容分類方面，通過識別網絡對視頻場景和復雜度進行兩層分類，適配更佳的畫質提升和壓縮效果，目前已廣泛支持包括綜藝、游戲、秀場、影視、體育等視頻場景;在質量對比方面，從色彩飽和度、對比度、噪聲、清晰度等角度，對輸入視頻的客觀質量進行實時監測和分析，并輸出質量得分，作為視頻處理工具參數調節的參考;在內容分割方面，通過ROI區域檢測，先將每幀的視頻內容分層，再將視頻畫面的主體和背景根據人眼視覺特性做差異化處理，使得主體更加突出，背景更加純凈，將視頻內容畫質增強處理的更加精細化。最后，匹配金山云提供的AI深度學習視頻處理工具包，該工具包由超分辨率、去噪、去模糊、銳化、對比度增強等多個算法模塊組成，各處理工具可靈活組合，適用多種視頻損失，有效進行視頻畫質增強。

　　為了更加直觀地展現圖像、視頻轉碼前后的效果，金山云推出了KQoE平臺，旨在為有圖像、視頻效果評測需求的客戶提供高效易用的評測平臺，以更專業的評測平臺能力提升圖像/視頻評測效率。

　　創新算法框架，助推服務端編碼技術優化

　　為了滿足多樣化的視頻種類處理需求，集智高清的算法框架，主要由視頻分析器(Video Analyzer)以及圖像處理器(Image Processor)兩個模塊組成，在處理流程上，視頻分析器以視頻種類、視頻質量、ROI區域進行計算，視頻處理器則會根據分析結果以及輸入的處理策略進行視頻預處理，然后再送入編碼器進行編碼，完成整個編碼過程。云轉碼的優勢在于場景中有著足夠多的算力，相對于端上編碼，能夠很好地應對對處理性能的需求。

　　云轉碼方案中，編碼目標函數的優化是其中的關鍵。“對于云轉碼來說，場景和采集端不同，其目標函數需要進行優化。初級優化即試圖利用網絡對失真圖像進行處理，嘗試恢復出原始圖像，但是這樣做往往容易造成過平滑，因此需要進一步對L2 loss進行優化，”蔡媛介紹到，“對此，我們改進目標函數的思路是，除了L2 loss外，需要加入Perceptual loss和GAN中的判別器loss，通過調整?來達到真實業務需求的最優效果。”

　　編碼目標函數效果示意圖

　　接下來，蔡媛重點介紹了圖像處理模塊中的去噪模塊，分別從針對背景大塊區域的全局去噪網絡和針對人臉區域的局部(人臉)去噪網絡兩方面展開進行了解讀。“全局去噪網絡需要保證網絡足夠輕量級，甚至達到1080p@25實時處理，考慮要讓模型適應不同類型、不同強度噪聲，我們最終基于Memory Network的理念設計了網絡模型的主干網絡，”蔡媛講到，“人臉在視頻中關注度很高，由于人臉的像素數遠小于整個視頻的分辨率，因此局部(人臉)去噪網絡的設計不需要為算法復雜度所限制。另外由于人臉存在很強的先驗知識，因此需要采用更加特殊的設計才能更完整的挖掘這些先驗知識。我們訓練了帶多尺度判別器的GAN版本，經測試驗證，在修復人臉的基礎上，它能對繼續對人臉進行細節增強，進一步提升處理后的主觀效果。”

　　全維度能力升級，構建面向未來的智能視頻云平臺

　　金山云集智高清致力于提供專業的云轉碼服務，以低帶寬成本獲取高清畫質體驗，方案在易用性、可靠性和可擴展性方面具備獨特優勢。通過提供易用的轉碼控制臺以及豐富的客戶端SDK、服務可用性不低于99.9%、可快速為用戶定制優化場景等服務能力，幫助客戶極大降低成本，提升用戶觀看體驗。

　　圍繞人眼結構特性，金山云的集智高清產品正試圖將編碼、圖像處理和AI整合，基于深度神經網絡的畫質增強技術，對視頻內容進行感知，明顯提升了主觀效果和客觀指標，帶來更好的視覺感受。