機器同傳
音色也能同步翻譯
在演講現場,屏幕上除了顯示由機器語音識別的中文內容外,還有其同步翻譯的英文內容,實現演講內容的雙語滾動字幕——隨著搜狗機器同傳的推出,這樣的場景已成為現實。
據悉,搜狗同傳應用了搜狗自研的語音識別技術與機器翻譯技術,能夠將會議演講者的語音實時轉錄成文字,并且同步完成翻譯,準確率已接近人類同傳翻譯結果。
除了中英實時同步翻譯外,搜狗機器同傳還可以根據說話人的聲音進行數據訓練,然后將其音色附加到翻譯內容中,并輸出與說話人原語音音色相同的譯文語音,達到真正“音意同步”的同傳效果。
語音合成
機器也能當“朗讀者”
觀眾說一段話,再選擇一首喜歡的歌曲,機器便能分析該觀眾的語音數據,與歌曲結合,實現以說話者音色演唱這首歌曲。
“語音合成又稱文語轉換技術,能將任意文字轉化為清晰自然、富有表現力的語音朗讀出來,相當于給機器裝上了人工嘴巴。”搜狗相關負責人介紹,該技術涉及聲學、語言學、數字信號處理、計算機科學等多個學科技術,是信息處理領域的一項前沿技術,受到了國內外各大科技公司的爭相研究,被廣泛應用在智能客服、新聞播報、語音導航等眾多場景之中。
人臉遷移
人人都可有張“明星臉”
想要成為喜歡的明星的模樣,只要選中明星的照片,面對大屏幕,屏幕就可以將該明星的臉與體驗者的臉進行融合,面部還能實現各種動態變化——智博會上,觀眾們還能在現場體驗搜狗的人臉遷移技術,有張“明星臉”。
據悉,搜狗AI人臉遷移技術,結合了人臉識別、三維人臉擬合、表情控制等多項前沿技術,只需單張人物圖像,就能瞬間完成換臉體驗,還可實現面部實時動態變化效果。
目前,該項技術已運用在直播、視頻互動、影視制作以及教育等場景中,未來則將更多地運用到智能生活中。
虛擬主播
音容面貌都可被“復制”
人工智能模仿你的聲音和說話方式,“復制”你的容貌和面部表情,并生成一個“你”,然后再以“你”的形態對文本進行播報,而這個“你”是以音視頻的方式出現。
智博會上,只需上傳一張自己的照片、說幾句話,搜狗虛擬主播還能讓觀眾看到一個“復制”的自己。
據介紹,搜狗虛擬主播結合了人臉識別、人臉建模、語音合成以及深度學習等多項前沿技術,能將任意文本轉化為相應的唇語,為用戶提供多模態的交互體驗。
作為具備視頻內容生產能力的一項技術,虛擬主播技術可以應用于媒體、教育、醫療、客服等多個行業,節約大量的人力成本,還可以應用于各種具備交互能力的智能軟硬件。
未來,該技術還將和語音交互進行結合,生成虛擬個人助理的形象,以提升人機交互體驗等。