国产91视频免费,欧美精品一区二区三区在线播放,亚洲国产欧美另类

智能語音交互大戰已開打!多模態融合將是關鍵

責任編輯：editor004

作者：高靖宇

2017-10-31 10:54:00

摘自：CCTIME飛象網

人機之間的自然交互一直是人工智能領域的一個美好愿景，而語音是人機交互中最重要的手段之一。3、交互形式單一，現在無非是屏幕或TTS（從文本到語音），怎么把視覺、聽覺、觸覺、嗅覺等多種交互方式融合到人機交互中還沒有突破。

人機之間的自然交互一直是人工智能領域的一個美好愿景，而語音是人機交互中最重要的手段之一。為了能夠在這個即將到來的人工智能生態中搶占制高地，各大科技巨頭越來越重視語音技術發展，Google有Assistant，亞馬遜有Alexa，微軟有Cortana，Facebook有ParlAI，無不在加大語音識別的研發力度。

作為國內BAT三巨頭之一，阿里在今年的云棲大會上宣布千億元成立“達摩院”，研究領域包括：量子計算、人工智能、機器學習、視覺計算、自然語言處理、下一代人機交互等。近日，阿里iDST智能語音交互團隊總監鄢志杰博士在接受記者采訪時表示，達摩院要做的是面向未來10年、20年后的下一代的人機交互，人機交互會越來越自然，而實現這一突破的關鍵在于多模態和主動交互兩大技術的融合。

要做下一代的人機交互

PC時代，人們與機器通過鍵盤和鼠標交流，與機器“溝通”需要學會打字、按鍵操作；移動互聯網時代，人們與智能手機通過觸摸屏幕交流，只需滑一滑手指即可完成任務；未來智能時代，機器將更像人類的一員，與它之間的交互方式將更趨同于人之間的交互。而要做到像“人”一樣交流，機器就必須具備多模態的融合技術。

“相比傳統單一的交互模式，多模態的主動交互技術主要基于傳感器技術，融合了視覺、聽覺、觸覺、嗅覺等多種交互方式，機器可以更象人，表達效率和表達的信息完整度更高，是智能交互的發展趨勢。”

鄢志杰博士舉了一個例子，通過傳感器技術可以感知我們所處環境的溫度，比如天氣熱時室內溫度比較高，機器就會幫我們把空調打開，而現在的智能家居，還只能被動的接受指令。

這樣的應用場景看似簡單，但實現起來還是有諸多技術難點需要解決的。鄢志杰博士表示，要做到下一代的人機交互體驗，還需要解決三大問題：

1、怎么把傳感器采集到的信號進行融合，從而產生融合以后的交互體驗，這個是有距離的。因為現在傳感器收集的信息是割裂的，比如攝像頭在做人臉識別，麥克風在做語音設別，真正融合的還沒看到。

2、傳感器采集的信息還處于感知層面，相對還是比較淺層的，真正認知層面還是有距離的。

3、交互形式單一，現在無非是屏幕或TTS（從文本到語音），怎么把視覺、聽覺、觸覺、嗅覺等多種交互方式融合到人機交互中還沒有突破。

鄢志杰博士表示，人機交互其實就是用戶獲取服務的過程，而阿里智能語音交互扮演的是中間橋梁的作用，它通過語音連接多端，跟互聯網上廣泛的服務對接，為用戶提供所需的服務。

智能家居需要“統一語言”來交流

近兩年，亞馬遜Echo的出現引爆了智能音箱市場。據統計，亞馬遜Echo在2016年銷售量超過650萬臺，預計2017年超過1000萬臺，繼亞馬遜之后，谷歌發布Google Home智能音箱，蘋果也發布了HomePod智能音箱。與此同時，阿里、京東、聯想、喜馬拉雅等也紛紛入局。

巨頭們的殺入以及中小廠商的蜂擁而上，一度提升了智能音箱市場成為風口的可能性。對此，鄢志杰博士表示，智能音箱的火爆是因為在美國市場Echo取得了優異的成績傳導到國內市場的結果，我們也希望在國內市場能智能音箱行業能盡快取得爆發式增長，目前各大巨頭都已經布局該領域，我們不排斥競爭，這個市場需要大伙一起來培養和教育。

除了智能音箱，鄢志杰博士認為“傳統設備的語音交互升級也是個巨大的市場。比如我們在云棲大會前夕發布的智能語音跑步機，就是基于Link Voice平臺快速完成傳統跑步機智能語音化的一個典型案例，在市場上就取得非常好的反饋。在今年的雙十一，智能語音跑步機也參加了阿里智能會場的預售活動。”

但是，智能語音也面臨一些挑戰。目前智能家居平臺各自為戰，擁有各自的通訊協議，用戶購買不同平臺的設備就要安裝各自新的App，很難集合各家平臺到統一的控制中心。阿里云IoT擁有國內最大的智能家居平臺，并主導成立ICA互聯互通聯盟，目前已經有100余家廠商加入該聯盟，越來越多的設備正在采用統一的“語言”來交流，這為語音控制家居打下了非常好的基礎。

多模態智能家居交互方式