10月24日,由聲網和RTE開發者社區聯合主辦的RTE2023第九屆實時互聯網大會在北京舉辦,聲網與眾多RTE領域技術專家、產品精英、創業者、開發者一起,共同開啟了以“智能·高清”為主題的全新探討。本屆RTE大會將持續2天,開展1場主論壇及20+專場活動,包括RTE領域技術開發、趨勢洞見、行業觀察、創業投資等多維度內容分享,覆蓋了AIGC、出海、數字化轉型等時下最熱門的話題。
在24日主論壇上,聲網創始人兼CEO趙斌、聲網合伙人兼客戶成功副總裁孫雨潤帶來了《智能·高清 開啟實時互動體驗新時代》的主旨演講。Founders Space創始人兼CEO 史蒂夫?霍夫曼 (Steve Hoffman)從國際投資人視角,洞察了AI賦能RTE未來的諸多可能性。聲網首席科學家、CTO鐘聲聚焦AI時代實時互動的趨勢,帶來了最前沿的技術觀點和解讀。聯合國人口基金(UNFPA)駐華代表處副代表兼負責人歐雯姍(Ira Ovesen)則從“科技無國界”的角度,介紹了實時互動技術為世界帶來的改變。
此外,聲網首席運營官劉斌、喜馬拉雅首席科學家盧恒、Soul APP技術副總裁張高政、小紅書音視頻架構負責人陳靖、商湯科技商務總監數字文娛事業部副總裁李星冶,還以”AI如何賦能實時互動體驗改善及場景升級“為主題進行了圓桌討論。
智能·高清 開啟實時互動體驗新時代
回顧2023年,AIGC大模型驅動著各行業迎來新業務機會,AR、VR、XR等技術能力的迭代為實時互動在各個領域的應用提供了更多可能。在直播社交領域,彈幕玩法成為直播新風口,這些變化都影響著RTE行業的進化。
智能和高清正在推動實時互動體驗進入全新時代,在大會開場演講中,趙斌宣布:“聲網在RTE行業首次實現廣播級4K超高清實時互動體驗。”他指出, “4K不僅僅只有分辨率一個緯度,光亮強度的動態范圍、色彩的真實度、飽和度,以及色彩漸變的細膩程度,都是真正超高清體驗里不可或缺的一環。”廣播級超高清可以帶來更加逼真的視覺效果,高對比度和豐富的色彩表現可以使影像更加生動,細節更加清晰,并以此提升觀影體驗。
趙斌認為,虛擬人+AIGC所創造的情感和情緒價值或將在未來解決社交供需不平衡的現狀,并引領交互對象發生變化。另一層面,隨著AIGC能力的進一步加強,越來越多的應用型開發將被AIGC替代,API+AI的形式將大幅提高應用開發效率。
大模型在快速發展,但交互界面仍局限于文字聊天互動方式。趙斌提到,通過過去一年的投入和打磨,聲網推出行業首創AIGC-RTC能力模塊,可支持與任何大模型平臺結合,實現更低延時、更自然、更沉浸的實時語音對話,為企業協作、社交 、直播、游戲等多種場景提供新玩法、新機會。
在AI等核心技術驅動下,實時互動QoE體驗的變化對于用戶留存和使用行為的影響日益增強。孫雨潤介紹,“根據聲網某東南亞頭部泛娛樂客戶數據顯示,當視頻從標清升級高清,停留超過30秒觀眾數提升19%,觀眾人均觀看時長提升30%,同時觀眾打賞率大幅提升。某國內知名社交出海App,從CDN 升級聲網極速直播,送禮率增長 12.3%。”
AI如何賦能RTE未來
AIGC被認為是當前的技術革命,它與RTE的深度結合,又將帶來什么改變呢?Founders Space創始人兼CEO 史蒂夫?霍夫曼在分享中指出:“人工智能將對許多領域產生影響,在AI賦能的RTE未來,我們將看到每個人都會擁有更加個性化的體驗,更加動態的程序將隨著圖形、音頻、視頻的實時變化而變化,AI將為我們帶來前所未有的連接方式。在更深層次上,AI還將為人類增加更多的生產力水平,帶來動態的虛擬世界等等,讓我們感受到更多的沉浸體驗。”
史蒂夫?霍夫曼表示:“在AI和RTE技術的加持下,新的穿戴設備可能會進入市場,比如新的皮膚電子設備、感官增強設備等,它可以讓我們聽到人類聽力范圍之外的頻率。此外,腦機接口也將讀取我們的腦電波,從而幫助我們實現冥想或對其他設備的控制。”在工業RTE場景應用下,人們可以聚在一起,實時通過虛擬或真實工廠觀看流水線運作、產品生產等。在AI陪伴場景中,人工智能伴侶這一概念將成為人們社交生活、娛樂、事業的一部分。
綜上,未來可能會有各種類型的伴侶應用以及新的實時接口方式出現,甚至會出現一套為RTE開發的全新硬件,這些都將極大改變RTE領域的發展前景。
AI時代 實時互動何去何從
AI時代已經來臨,實時互動該何去何從?聲網首席科學家、CTO鐘聲為我們帶來了技術視角的深度分享。鐘聲指出,回溯過去五年,最典型的事件就是大模型的突破,從2017年的Transformer,到如今的ChatGPT-4,人工智能的發展,讓信息傳播和消費智能化的趨勢越來越明顯,萬事歸于中心化AGI接管的趨勢和威脅也越來越明顯。大模型在帶來發展機遇的同時,也帶來了計算需求快速增長、算力受能源供給力限制、大模型數據資源不夠、存儲需求增長過快等問題。未來,我們除了要做負責任的AI之外,在端上和邊緣上的分布式實時智能將成為價值公平分配的重要技術手段,也是減緩中心化AGI對人類威脅的有效途徑,這也注定會成為一個新的技術發展趨勢。
鐘聲認為,AGI將走進實時互動,實現人人可分身,幫助在應用場景中復制名師、網紅,甚至普通人也將通過AI分身豐富體驗、緩解時間稀缺的瓶頸。此外,他預測,具備端邊實時智能的高清實時互動能力將成新趨勢和競爭焦點。
鐘聲介紹到,實時高清需要許多端上實時AI,在Low Level Vision and Audio這一需求層面,聲網的SDK 4.1.x, 4.2.x版本已經可以支持1080P/4K視頻的例如超分、虛擬背景、感知編碼、降噪、去回聲等底層計算機視覺處理和高音質的計算機聽覺處理能力。在High Level Vision and Audio層面,聲網已經部分實現對物體、聲音、場景的理解和重構能力,包括面捕、動捕、情感計算,物體識別和場景重建等,可以大力改善多種應用場景下的用戶體驗。
科技賦能:共筑數字包容未來
在一個科技無國界的世界里,人工智能、實時互動技術、生物技術、材料科學等技術創新力量構建了一個“數字包容”的世界。過去一年,聯合國人口基金與聲網通過實時互動技術,為中國偏遠地區的一萬多名青少年提供了適齡的健康教育。聯合國人口基金(UNFPA)駐華代表處副代表兼負責人歐雯姍表示,“人工智能和實時互動技術為那些仍在使用型號較老的多媒體設備的學校提供了量身定制的解決方案。它不僅優化了直播流的分辨率,還增強了在教學和學習過程中的音視頻質量。學生和直播教師可以實現像傳統課堂那樣身臨其境的教學質量和速度。”
同時,歐雯姍宣布,聯合國人口基金駐華代表處與聲網及其他合作伙伴聯合發起了“智享銀齡”科技助老青年創新挑戰賽。她表示,“我們希望激發青年人,特別是大學生和年輕畢業生,為代際數字包容貢獻想法并做出積極行動。”
圓桌:AI如何賦能實時互動體驗改善及場景升級?
AI技術的發展為各行各業帶來了用戶體驗改善和場景玩法創新。針對這一話題,喜馬拉雅首席科學家盧恒、Soul APP技術副總裁張高政、小紅書音視頻架構負責人陳靖、商湯科技商務總監 數字文娛事業部副總裁李星冶、聲網首席運營官劉斌進行了圓桌討論。
談到AI技術對業務發展的影響時,盧恒表示,作為全國最大的有聲內容平臺,喜馬拉雅從文本處理到音頻內容生成的過程中都使用了大量的AI技術,目前,AIGC生成的音頻內容日均播放量已超過250萬小時。張高政則表示,大模型的理解能力對于UGC平臺及用戶來說都非常有利,它不僅可以快速提升內容生產效率,還能降低內容生產門檻。
AI大模型的發展是機遇與挑戰并存的。陳靖指出,對于很多公司而言,說清楚一些AI大模型項目的必要性是一個巨大挑戰,很多項目并不像利用AI去做體驗增強那樣,能夠跟用戶留存及轉化的一些指標建立關聯。李星冶則表示,他所看到的挑戰有兩點。其一,在為許多C端流量產品提供服務時,算力、帶寬、智力相關的彈性儲備是一個很現實的挑戰,其二,大模型開發廠商如何平衡投入以及預期收入之間的關系,也是一個挑戰。各位嘉賓還分享了AI大模型在實時互動領域的一些玩法創新,其中陳靖提到,提高主播觀看率的美顏美體功能可能是過去AI為實時互動領域貢獻最大價值的場景,希望今后會看到更多新的嘗試。
如劉斌所總結的,無論未來是挑戰還是機遇,我們都應該在各自行業里去努力嘗試。我們也期待,在大模型新的范式發展下,看到越來越多的場景落地及業務價值。