由英特爾與企業網D1Net聯合主辦的2023英特爾智能邊緣行業應用巡展 • 智慧協同站于2023年7月18日在北京北辰洲際酒店圓滿結束。本次活動以“邊緣創新 數智向實”為主題,來自英特爾、MAXHUB、海信商顯、億聯網絡的企業代表與眾多大型企業CIO、信息主管等嘉賓,共同探討了智慧協同與音視頻會議的相關場景、痛點、需求、方案、落地實踐以及發展趨勢等熱門話題,助力企業通過數字化的智慧協同解決方案提速增效,以應對未來發展中的不確定性。
億聯網絡產品中心總經理 廖昀
億聯網絡IP&SIP話機的市場占有率連續5年全球第一,視頻會議系統出貨量位居全球前五。億聯網絡產品中心總經理廖昀以《AI技術在遠程會議中的應用》為主題,分享了億聯網絡將AI技術運用于視頻會議領域的探索與實踐。
人工智能正在重新定義未來工作,由AI驅動的現代工具有望提高個人、團隊和組織層面的生產力,并從根本上改變人們的工作方式。近年來億聯網絡提前布局AI,堅持在產品智能化領域進行投入創新,并提前搭建了包括算法研發、工程應用、測試調優在內的完整的AI技術團隊。2020年以來,從以人像識別和語音追蹤為代表的第三代視訊終端,到用AI技術重寫3A音頻算法,實現12米穩定拾音、AI消噪、AI去混響,重構會議音頻體驗,億聯網絡一直在進行前瞻性的AI布局。接下來,億聯將運用AI技術還原面對面會議效果,構建沉浸式的會議體驗。
據悉,億聯網絡與微軟正在聯合研發SmartVision 60終端新品,該產品搭載了Intel Movidius芯片,通過更強大的AI能力實現更沉浸、更智能的會議體驗。廖昀表示:伴隨AI技術在平臺側實現深度應用,以及智能終端邊緣AI能力的持續提升,人工智能技術正在重塑未來遠程溝通協作的體驗。
以下是現場速記。
廖昀:大家好,我是來自廈門億聯網絡的廖昀,我分享一下我們在細分行業里的應用和體會。最近幾個月大家知道AI技術的發展很快,已經在我們的生活和工作中,滲透到了方方面面。在業務層面感知到的東西比較少,但是后臺真正起到了對企業效率的提升,起到了很大的促進技術。
人工智能技術以前是空中樓閣,現在已經逐漸落實到現實的應用當中了。在開始今天的分享之前,我想通過一個視頻來讓大家直觀的感受一下接下來我們的視頻會議會發展到什么程度。
(視頻)
這是微軟前兩年做的demo視頻,還沒商用,希望在2023年,這是在2020年左右推出來的產品概念,現在已經落地了,這些體驗都可以實驗,當時還沒有,只是一個demo。這是我們過去兩年跟微軟共同想追求打造的一種體驗,下一代視頻會議的體驗,馬上要都入大家會議室內的。
我們和微軟進行了產品技術的聯合開發,其中包括今天的主場嘉賓英特爾在里面提供了非常多的底層運算能力的支撐,里面包括我們用到的MimiPC、X86服務器,VPU服務器,在具體產品里我會介紹到,還有大容量、高并發、高清視頻帶來的編解碼、GPU卡等等,英特爾在里面發揮了非常重要的支撐的作用,非常感謝英特爾的支持。
算力的支撐非常重要,以往想做,但是受限于整個行業的發展,很多效果都達不到。但是由于英特爾在技術上,在芯片上算力的提升,給我們創造了很大的想象空間,目前還有很大的局限性,這里面期待著摩爾定律能夠再運行十幾年,我相信整個體驗會更上一個新臺階。
這是我們從2015年與微軟合作至今,在Teams上先后在云通信上做的產品,這個已經是過去時了,雖然現在相關的產品還在銷售,但是它的體驗是偏傳統會議的體驗,像右邊的MTR產品,英特爾提供的算力支撐。
這是我們即將發布的一個重磅產品,叫SmartVision 60,為了實現剛才demo視頻中演示的場景開發的產品,耗費了很大的精力在這上面,看上去只是攝像頭平平無奇,這里所面臨的視頻、音頻上整個處理后的,跟原來傳統的視頻會議設備已經完全不一樣了。
為了實現剛才視頻會議里面的體驗,做了什么?接下來想詳細分享一下。這里面包括了英特爾的支撐,最大的區別有兩個特點,首先這是360度的攝像頭,達到了10K,30幀的分辨率,有13個麥克風,分成了兩組,6+1智能語言識別麥克風加上6個會議的麥克風,這兩套音頻是分別處理的,還有智能人像的分割。
第二個特點,這是一款專為承載AI應用而做的會議產品,搭載了英特爾收購的一家公司里面的VPU芯片,總的算力達到了17T,相當于半臺特斯拉了,大家知道特斯拉上面非常多的攝像頭,它里面有17個T的算力在里面,主要是為了處理10K,30幀的影像,實現包括自然人像分割、人像識別、說話人的識別、智能語音、實時轉寫、語音助手這些應用,承擔了非常多的應用功能。
畫面上我們看到的是運用SmartVision 60實景開會的情況,推出一段時間了,真正發布會在這個月底,8月初。在畫面中我們看到每個與會者的畫面都同樣清晰的呈現在上面,并且自動跟蹤,不需要導播,全是AI自動導播,并且自然的做人像的分割裁切,會議中的每個發言者會根據嘴巴的動作,聲音識別到,誰在講,快速切換,給他特寫的畫面。
遠端入會者可以更準確的分辨當前誰在說話,有什么表情,尤其在一個會議室里有很多人的時候,傳統視頻會像監控一樣,搞不清楚是哪邊來的,這里就像智能導播一樣,從人臉到檢測、跟蹤、識別還有其他動作分析等等,AI攝像頭就帶來了這種體驗上非常明顯的提升。
在會議場景下AI衍生出了很多行業里的應用名詞,還有真實人像加上虛擬場景的應用。這些都是在AI算法跟新技術的加持下才能做的,以往的視頻會議終端完全不具備這個能力。遠程會議中人與人之間的溝通就會變得更加自然,這就是剛才講的虛擬場景下加上真實的人像,從概念上來說也是一種AI視頻會議體驗的落地。
我們大部分人可能都用過PC視頻會議軟件,也有替換背景的功能,但是其實替換的是單個人像加固定背景,在這里要把同一個會議室的多個人像放在不同位置上,這個算力上的支持要求更大,是呈幾何級倍數的上升。
目前還在解決的一個挑戰,不同人看起來大小不一樣,不太自然,沒有真正融合在場景里,這是我們現在要解決的一個問題。技術路徑其實已經有了,無非是再加一道,把人像摳出來再做一次處理,但是算力不夠,17T哪天能變成170T的時候就可以做這個事情了。剛才英特爾謝總提到了最終都是算力的問題,只要算力足夠,可以有非常大的想象空間,我們終端上也可以實現更加智能的體驗。
內置了很多場景,也有圓桌的,圓桌最大的挑戰就是方向性的,因為坐在一個會議桌前有人朝這兒,有人朝那兒,我們想取不同方向上,確保他看起來一直朝著前面,因為我們開會的時候可能會有一些開小差的時候,如果能把這些提取出來,生成一個虛擬的人像,其實也不是虛擬的,只是記錄下來,訓練了,替代你這個過程,甚至你打個哈欠也不擔心被遠端看到,幫你過濾掉這些你不想傳遞出去的畫面,這都有賴于算力的提升,我想過一兩年,在會議中的這些功能應該都可以實現。
遠程會議中對視頻圖像的實時性要求很高,很多行業里的應用里對實時性沒有特別多的要求,但是在會議中就面臨著很大的挑戰,不光是超高清,到4K、8K,對實時性要求越來越高。這就帶來了海量數據的運算,尤其在大會議室中,在視頻行業里沒有哪個行業說做到4K,30幀,并且幾百方會議,這里還存在網絡傳輸、運算上巨大的困難。
在智能終端上進行邊緣計算就是一個很好的技術路徑,因為服務端跟傳輸上非常難以承載這么大的數據量。我是非常支持英特爾剛才提到的邊緣計算今天這個主題的,這個技術路徑對我們構建整套解決方案,再往前推進一步是非常有利的,我們在終端上越來越多的投入資源實現更多的東西,結合服務端的應用,盡量減輕服務端的應用。
視頻會議的邊緣計算除了剛才所介紹的視頻圖像方面的應用,其實在音頻方面也起到了非常重要的作用,在以往的視頻會議中我們覺得音頻很簡單,把聲音做一些降噪就可以了,但是實際上在整個會議過程中它是最大的瓶頸,圖像方面還好說,有清晰的技術發展路徑,但是在音頻上遇到很大的挑戰,因為人的耳朵從剛才泰康的高總說到,分享過相關的在聽覺上面,在生物學上,在醫學上還沒搞清楚人的聽覺為什么這么靈敏,可以在很嘈雜的菜市場里兩個人無障礙的交流,如果放在視頻會議里這么炒,遠端沒法聽,人耳有非常強的消噪的能力,我們也想追求在會議視頻的設備商怎么達到人耳降噪的體驗,增強人聲清晰度的體驗,所以在這里也非常有賴于AI技術的應用,雖然看起來都是全向的麥克風,定向的麥克風,現在AI技術已經逐漸在音頻上發揮作用了。
這其中就包括剛才介紹的SmartVision 60這個產品里,我們為什么要用到13個麥克風也是這個原因,通過陣列麥克風加上AI算法,我們盡量模擬人聽覺神經的特點,識別出噪音跟人聲音的特點,做訓練,把會議中遇到的非人聲,比如說咳嗽聲音、椅子聲音、鍵盤聲音等等濾除掉,并且把混響的聲音特點做還原增強,減輕混響的影響,有效的增強含有有效信息的人聲。
在前端采集了以后,通過AI技術處理增強有效的人聲之后,就為下一步AI的語音處理,我們所見到的實時ASR語音轉寫,多語言翻譯,聲紋識別,這都是在前端語音增強之后后端能做好的應用,相信有一些大的企業已經用實時字幕功能了,發現經常會識別錯亂,準確率不高,并不是因為ASR服務器算法不高,其實準確已經挺高了,像國內的科大訊飛、微軟做的產品,包括阿里云做的產品,應該都達到95%以上的準確性了,但是可能因為前端采集的效果不好,信噪比很低,語音增強的不夠好,準確率就降到百分之七八十了,在前端設備上做AI語音是非常有意義的。
從個人角度來講我非常喜歡演講者追蹤這個功能,就是結合了精準語音的定位,通過多個麥克風陣列做DOA識別、唇動識別,無論你走到哪里都可以實時追蹤到,讓發言人始終處于C位。這個就是視頻終端在音頻+視頻AI處理方面,結合起來的小功能。
除了以上介紹的終端側AI技術應用,在服務端也存在著巨大的AI應用價值,幫助我們提升關于會議內容方面的工作效率。最典型的莫過于今年2月初微軟宣布把ChatGPT給集成到Teams里面,還發布了高級版的Teams應用,相當于是一個高級的智能秘書了。ChatGPT發布了以后更加智能了,之前只是轉寫。它可以幫助發起會議,邀請聯系人,還有會議中自動跟進與會人員的情況去做會議的控制,自動生成會議紀要,多語言翻譯,最典型的會議中的痛點是幫幾十多個人開會的時候,有人沒有關麥克風很吵,智能秘書在的話就發現那邊的噪音干擾了會議,自動給它靜音到,這是一個后臺,我們看不見的智能秘書。
更進一步的,在一個企業或者組織內,我們通常會沉淀很多文檔、音視頻數據、郵件等等資料,在會議中討論到內容的時候,如果能關聯到那些資料,能夠實時調取出來,這是非常有幫助的,這項功能,ChatGPT這些大模型在服務端能把數據喂給它進行訓練,以后開個部門例會,回顧某個客戶提到的某個需求,可以自動的將公司內幾十上百TB的數據,幾秒鐘內快速的給你找出來,告訴你有這些參考資料。想象一下,這個對我們經常開會的人來說非常有幫助,尤其當團隊內有新人加入的時候,如果有這種體驗,對新人熟悉業務,融入團隊非常有幫助。
今天時間有限,在這方面平臺側的AI應用就不展開深入探討了,總的來說隨著AI技術的發展,平臺AI技術側的應用,加上智能終端的邊緣AI能力提升,人工智能技術正在重塑我們未來遠程溝通協作的體驗,再過兩三年就會在大家的日常會議中得到感受和普及,當前還在性價比的一個問題,包括剛才做的SmartVision 60,這么強大的算力和功能很美好,但是真的很貴,但是這都不是問題,隨著技術的發展,我覺得價格這方面會越來越親民的。
最后也打個廣告,向大家簡要介紹一下億聯網絡,億聯網絡以前95%以上業務都是海外,國內市場基本上沒投什么市場和人力資源,但是隨著近幾年國內市場的發展,我們也組建了國內營銷團隊,產品方案上也針對國內市場國產化、信創,包括億聯也是信創委員會單位之一,加大國內市場的投入,目前在國內市場也在逐漸發展起來。國內的市場整個產品跟生態,跟海外差別很大,隨著2017年億聯上市,開始在組織上、資源上有足夠的支撐,國內也開始重視起來了。
先從幾個數字開始了解億聯吧,億聯是專注于統一通信,2001年成立,已經做了22年,一直在做通信相關的產品,從最早的IP電話語音解決方案,到現在視頻會議的產品,融合通信的平臺產品。億聯是微軟Teams研究會很重要的合作伙伴,IP電話傳統的產品線已經保持了很多年了,五六年了全球市場占有率第一,視頻會議的觸發量在去年達到了全球第五,國內億聯和華為進入了Top5。第三個產品是云辦公產品,隨著云視訊的發展我們啟動了第三個產品線,三個增長曲線,主要是一些外設終端的產品。
億聯網絡是一家提供完整音視頻協作解決方案的廠商,不僅是單純的終端,幫助客戶提升溝通協作的效率。具體的產品解決方案會包括視頻會議、語音通信、會議協作、智慧辦公,剛才幾位友商也分享過在智慧會議室場景方面,億聯也是這樣的理念,從終端到平臺和整個辦公空間的管理,整體的解決方案。
同時通過過硬的產品技術以及在海外市場取得的市場地位,讓億聯也成為了國內第一家跟微軟建立了全球戰略合作的企業。核心是在音視頻方面設備上,微軟提供Teams平臺的能力,億聯提供全場景的各種終端。除此以外我們也與英特爾、Zoom、騰訊云、釘釘等頭部企業開展了深度合作,為各行各業提供視頻會議的創新產品。
億聯的產品技術方案是整體概述在這張圖上的,我們稱為智慧辦公的全能力,其中包括平臺和各種場景下終端的全套解決方案,其中平臺包括公有云的平臺還有純私有化的平臺,包括把公有云和私有化平臺打通融合云的產品。還有混合云的產品,在私有化或者在云上下沉或者上浮它的節點。除了這些產品,終端方面還有今天分享的,剛才所展示的視頻會議終端,延伸覆蓋了會議室場景的各種設備,比如說會議室門牌,傳感器,辦公空間IoT管理,以及配套的信息發布和IoT管理平臺。整體上我們的目標是為客戶提供溝通協作的全場景方案,除了通信系統還為會議室空間、企業辦公空間提供會前、會中、會后,包括知識管理的整套產品。
明天到Infocomm期間我們也在C館CC4—01展位有最新的產品解決方案展示出來,歡迎大家明天過去體驗,謝謝大家。