金山云高級技術總監韓博在大會發表主題演講
AI內容服務隨5G同行
5G網絡是信息基礎設施又一次全面升級,能為跨領域、全方位、多層次的產業深度融合提供堅實支撐。韓博表示,5G將促進數字內容制作、分發、呈現的全產業鏈升級。AI內容服務作為貫穿視頻內容生產全過程的重要“參與者”,已做好了迎接5G時代到來的準備。
以金山云金睛為例,它基于金山云強大的云計算基礎資源能力和海量數據積累,專注于圖像識別、語音識別、多模態視頻分析、文本識別、人臉識別、行人車輛識別等人工智能領域的研究,提供跨行業、多場景的AI解決方案。在AI內容服務方面,已覆蓋內容生產、內容風控、內容分發全環節。
“我們的生活不僅是一系列的靜態快照,而是隨著時間變化在現實世界動態發生事件,視頻內容更是如此。內容趨勢的變遷,同時也會推動人工智能技術的演進。基于此,金山云金睛在單模態識別的基礎上,升級為多模態融合理解,以應對5G時代低延時、高速率、龐大體量的AI內容服務需求。”韓博介紹道。
多模態融合理解帶來認知升級
多模態,簡單來說是相對于單一的視覺、語音、OCR識別等,將多個模態的信息結合起來,也就是視頻中的音視圖文內容進行綜合判定、理解。相比傳統單一的交互模式,多模態融合技術。表達效率和表達的信息完整度更高,是智能交互的發展趨勢。
韓博介紹,多模態融合理解技術可以對視頻內容進行精準的場景識別、對象跟蹤、行為理解、圖文聯想等。比如基于單模態的圖像識別很難判斷出直播過程中,主播是在抽煙,還是在吃棒棒糖。但是基于多模態的視頻理解,我們可以通過將連貫主播的行為動作進行分析,判斷是否有點煙行為,是否有吐煙行為,從而準確的判斷主播是否在抽煙。
除此之外,在視頻內容的生產過程中,多模態融合理解技術優勢明顯。例如自動進行語音轉寫,并且放到指定位置;實現智能BGM功能,根據視頻內容自動推薦背景音樂;支持視頻特效功能,對應視頻場景或者動作,給出視頻特效等。
相對于 AI 目前所展示出在圖像和語音領域的單一感知能力,視頻理解更加復雜,也更加困難,這體現在理解視頻是二者的疊加,實現多模態融合理解的背后,需要技術的突破。韓博在現場重點介紹了金山云金睛在多模態理解技術上的突破——AI算法團隊通過訓練超千萬個高質量的短視頻,得到的具有很強的泛化能力的內容理解模型和金山云金睛專利時序算法。
多模態融合理解必須全面捕捉視頻內容中的時序信息。金山云內容理解模型通過三維時空卷積(3D conv)和三維時空卷積長短時注意力循環神經網絡(LSTM and Attention)來精細捕捉視頻單幀圖片的局部與整體時空信息。受人腦注意力機制的啟發,引入“時空注意力機制”,使得模型可以聚焦關鍵幀、關鍵位置的信息,降低無關幀對模型性能的影響。整個模型不需要任何人工干預,輸入原始視頻,就可以得到最終的預測結果,整個模型精度高、速度快。
金山云金睛內容識別已經全面運用多模態視頻識別技術進行視頻內容處理,可以更加精準的理解視頻內容,幫助內容平臺快速、精準審核視頻內容,以及對視頻進行精準的標簽分類和特征提取,用于內容推薦和分發。為平臺優質內容產出、打通作者和用戶間壁壘,實現平臺差異化布局夯實了技術基礎。