RTE2021，實時互動技術的進化與蝶變

責任編輯：yang |來源：企業網D1Net 2021-11-01 10:50:26 本文摘自：CSDN

10 月 22—23 日，由聲網 Agora 主辦的 RTE2021 實時互聯網大會在北京圓滿落幕。大會以“萬象頻道”為主題，帶來了 20 余場實時互聯網全生態線下論壇及活動、近百場的精彩演講分享，覆蓋技術開發、行業觀察、創業投資、趨勢洞察等多維度話題。同時，在大會現場還設置了 demo 豐富的聲網展臺、酷炫的 Metaverse 展臺以及豐富的周邊活動，為參會觀眾展示了實時互動技術帶來的全新體驗。

從 2015 到 2021，今年已經是實時互聯網大會跨過的第七個年頭，本屆大會吸引了 150+ 全球極具前瞻性與實踐力的技術領袖、近千名實時互聯網領域的從業者與數千名行業開發者的關注與參與。大會圍繞實時互動行業一年來的行業變遷、趨勢展望，從場景、技術、產品、生態等多個維度進行了深度探討與分享。

RTE 萬象圖譜重磅發布

全球首個全自動多場景模擬聲學實驗室落成

10 月 22 日 RTE2021 大會的主論壇上，聲網 Agora 創始人&CEO 趙斌發表了主題為《萬象紛呈，實時進化》的演講。隨著線上模式被越來越多的行業所接受，RTE 技術正在不斷解鎖著全新的應用場景。從遠程辦公的興起到 LiveAudioCast 場景的爆發，2021 年每一個人都親眼見證了實時互動、實時音視頻能力在媒體行業改造工業、引爆新的媒體形態、改造社會的交流形式的潛力。

聲網 Agora 創始人、CEO 趙斌

趙斌在演講中談到了他總結的對于未來實時互動領域未來發展趨勢的關鍵詞：孿生與融合。

從趨勢上來看，數字化的普及是大勢所趨。但從娛樂場景來看，從影視到文藝、從直播到展會，越來越多的娛樂場景完成了由線上到線下的華麗轉身。當真正的數字化普及完成并實際發揮效用后，互動就成為了其中不可或缺的重要環節。這是針對現有場景而言，而當數字化技術與實時互動技術發生碰撞，還會有更多的應用場景誕生。數字化與互動技術的孿生，正是目前 RTE 領域使用量增加、應用滲透率提高，同時應用場景也在爆發的根本原因。

當深入數字化場景，其實不難發現線上線下體驗的相互融合，其本質便是一種技術上深刻的進化。在虛擬與現實交融的場景中，數據的實時同步和共通帶來了數據的虛實融合。不論是技術的進化，亦或是環境的變化，都會給各種可能性釋放更多的空間。同理，實時互動的邊界也在不斷進化，傳統意義上的實時通訊向實時互動場景化的人的共同存在，這樣的交互也有可能創造價值的擴張。

在演講過程中，趙斌發布了基于實時互動場景的“ RTE 萬象圖譜”，共覆蓋教育、泛娛樂、IoT、金融、醫療、企業協作、數字政府、智慧城市等 20+ 行業賽道，200+ 場景。趙斌表示：疫情的影響助推動萬象圖譜中的場景加速豐富和成熟，例如教育、社交、直播、會議等領域已初步形成成熟場景，并且他們未來將長期存在。

在萬象圖譜所包含的 200+ 場景中，不僅有許多已經經過實際應用考驗的成熟場景，還有數量遠超成熟場景的新萌芽場景。在萬象圖譜中，聲網 Agore 依托自身龐大的行業經驗與市場分析能力，對全球處在萌芽階段的應用場景進行了全面的梳理。開發者和創業者能夠通過萬象圖譜中的場景梳理，找尋全新的靈感與視角，并同聲網一起對這些萌芽場景進行打磨，探索其中真正的價值與創新點。

除了萬象圖譜，趙斌還在演講中宣布另一個重磅消息：聲網 Agora 打造了全球第一個全自動的多場景模擬聲學實驗室。他表示：它的出現代表著 RTE 行業在多場景的實時互動下第一個專業的測試設施和測試環境的建設已經成功投產，將為未來多場景下的音頻和音效的研究、測試、評估帶來新的高度和便利。

下一代實時互聯網，路向何方？

聲網 Agora 首席科學家鐘聲博士分享了《實時互動與智能互聯網》的主題演講：

隨著線上線下的加速融合，在當下無論是視頻通話、在線課堂、VR/AR、直播秀場都已經成為我們習以為常的生活體驗。實時互動技術，毫無疑問它的出現極大地強化了人們在線上世界中的社交體驗，同時也提升了線上應用場景中的用戶粘性。

想要在線上世界中重現線下人們“歡聚一堂”的體驗，對于通信網絡低延時的需求是十分嚴苛的。針對實時互動中的低延時需求，在面對海量的非結構化數據要被處理、要被理解、要被還原的需求上，做到感知通信計算一體化的技術支持是非常必要的。

聲網 Agora 首席科學家鐘聲博士

在未來的實時互動場景里，從體驗上來講是敘事的延展，從過去單純的感官體驗到沉浸式的互動敘事感受，在未來的實時互動場景中人們將獲得更加豐富的體驗。在線上世界中，我們需要構建基于自身的虛擬角色去演繹效果，其中虛擬角色與現實中真實存在的“我”，二者之間的聯系是需要數字孿生以及人體的數字孿生技術作為紐帶的。未來的實時互動中必須要有的是一種強大的交付、表達以及共情的能力，這其中包含了對表情情感的識別，以及環境的感知、觸覺的感知以及基于 AI 的 3D 建模，這些技術共同構成了數字孿生。

在談到影響未來實時互聯網發展的關鍵技術時，鐘聲介紹到：聲網專注在做低延遲+邊+云的加速，實時構筑在 PaaS 系統里，API 提供靈活應用業務構建的內容，以及先進的云/邊計算，未來這些肯定是非常重要的技術發展方向。通信領域除了帶寬、寬口的延時、可靠率、多設備連接繼續演進之外，像太赫茲、毫米波、超大規模 MIMO 都是底層的關鍵技術。同時，為了呈現更加貼近現實的視頻圖像效果，超高分辨率的視頻技術也是不可避免的。

同時，針對AI技術在實時互聯網中的應用，鐘聲也給出了自己的思路：如何能夠做到通過一個小數據就能把所有的信息檢索出來，恢復出來？這看似不能完成，但實際上可以通過 AI 的算法泛化大數據轉化為小數據，以小數據驅動大數據。從發送端提取關鍵點，在接收端根據關鍵點重新生成視頻。

針對現如今通信與計算融合后，現有的運維、技術架構已經無法應對當今實時互動的業務和體驗要求。聲網 Agora 首席科學家鐘聲在演講中表示，下一代的實時互聯網，需要全網協同及網絡感知能力，并做好全域帶寬實時調度、全域資源實時調度，發展支持靈活的動態分布式計算云原生軟件架構，充分利用 AI算法來泛化智能，小數據驅動大數據，并持續提升端/邊/芯片等硬件能力，才能滿足當今實時互動場景提出的技術、業務和體驗要求。

AI、深度學習不斷滲透 RTE 的方方面面

除了鐘聲博士的前瞻性研究，在 RTE2021 大會上我們能看到的另一個重要現象，是 AI、深度學習正在不斷滲透到實時音視頻的方方面面。音頻、視頻、網絡各領域的算法工程師們都在實踐，以 AI 去優化與提升自身領域的性能表現。

谷歌工程師在 RTE2021 大會上分享了最新的低比特率語音編解碼器 Lyra，Lyra 以少量數據壓縮重構語音，實現 20kpbs 以下的順暢視頻通話。谷歌工程師們對單個最大矩陣進行稀疏化，即門控循環單元（GRU）內的矩陣，而這些塊矩陣可以實現為小而密集的矩陣，從而讓深度學習訓練速度提高了兩倍。

聲網的 Silver 語音編解碼器則是通過深度學習探索碼率、算力和效果的平衡。聲網的音頻算法團隊使用 AI-NS 降噪算法提升語音信噪比，解決噪聲問題，以減少低碼率帶來的 artifact；

編碼基于傳統算法的分頻帶特征提取（基頻、子帶頻譜包絡、能量等），以及 RVQ、距離編碼等方法實現特征編碼節省碼率；解碼采用自回歸模型和帶寬擴展（BWE）的 WaveRNN 模型實現模型算力的精簡。基于自研的多平臺 AI 推理引擎實現模型的非對稱量化、混合精度推理、計算壓縮解碼耗時，最終保證移動端部署的實時性。

另外，還有 NVIDIA 深度學習資深解決方案架構師在大會上分享了英偉達從提升算力、結構化稀疏減少算力損耗、模型量化尋找最優算力的深度學習“一增兩減”思路。聲網 Agora SD-RTNTM 網絡傳輸質量工程師分享，探索聲網如何將運維操作的 API 化、平臺化，將 AI 和 OPS 拆解成算法-決策-執行，以實現 7*24H 無間斷、運維執行的質量和效率。

視頻標準與專利發展迅速，期待 AV2 的到來

除了 AI 的深入實踐，國內廠商在實時音視頻領域另一個重要的戰場，標準制定上，也在投入大量精力。RTE2021 大會上，參與了高清、4K 等視頻國際標準制定的葉琰博士，分享了關于 MPEG、ITU 發展歷程，VVC 性能演進詳細指標數據，以及視頻標準商用落地的最新個人觀點。

MPEG 發展路徑

她很坦率地提出了，已經占據互聯網 80% 流量的視頻，壓縮技術日趨被重視，也將帶來專利技術之爭，以及專利授權的復雜場景。另外，MPEG 視頻相關工作將在 VVC 下一代標準技術研發、AI 視頻編碼（包含傳統框架下提供更高壓縮性能、神經網絡進行視頻壓縮兩個方向），以及浸入式視頻方向發力。

除了視頻標準，RTE2021大會上，谷歌工程師也帶來了最新的 AV2 編解碼器的設計和性能優化成果。上一代 AV1 僅僅在引入實際場景落地的進程中，谷歌的工程師們已經在繼續向前，以 0.4~1.5% 的性能提升，探索編解碼效率的極限。所以，與 AV2 相關的場景和標準，也將是業界重點關注的工作。

WebRTC 開源與標準之上，聲網如何打破“黑盒子”

今年，WebRTC 正式成為 W3C 與 IETF 的官方標準，看起來塵埃落定。不過，WebRTC 開源社區 Committer、聲網 Agora WebRTC 負責人毛玉杰在大會上分享了，各組織在 WebRTC Codecs 存在著開源與標準之爭的現狀問題，以及聲網在 WebRTC 標準之上，如何設計 Web 端到端音視頻傳輸架構，降低開發者對實時音視頻的使用門檻。

他總結了 WebRTC 的六個現有問題：設備與外設缺乏適配、各類瀏覽器兼容性、移動端支持不佳、音視頻模塊不可定制、性能問題、統計數據缺失，目前瀏覽器廠商并不能全部解決以上問題。聲網結合 ORTC、WebRTC Extenions、WebRTC-SVC、Web Transport、Raw-Socket……等多個技術標準，形成了現在聲網的 Web 端到端音視頻傳輸架構。

聲網 Web 端到端音視頻傳輸架構

從 AgoraAI 實時 AI 加速引擎的推出，到在千元機上開啟各類 AI 玩法；從 WebRTC 的標準化，到在探索在 Web 端達到 native 端同等的能力；從 RTC 與 IM 融合基礎上提供的 aPaaS 到 RTE 萬象圖譜的發布。過去一年是聲網 Agora 技術進化的一年，也是實時互聯網邁向全新技術階段的重要變革點，RTE 領域的未來值得我們期待！

關鍵字：進化技術互動實時