人機之間的自然交互一直是人工智能領域的一個美好愿景,而語音是人機交互中最重要的手段之一。為了能夠在這個即將到來的人工智能生態中搶占制高地,各大科技巨頭越來越重視語音技術發展,Google有Assistant,亞馬遜有Alexa,微軟有Cortana,Facebook有ParlAI,無不在加大語音識別的研發力度。
作為國內BAT三巨頭之一,阿里在今年的云棲大會上宣布千億元成立“達摩院”,研究領域包括:量子計算、人工智能、機器學習、視覺計算、自然語言處理、下一代人機交互等。近日,阿里iDST智能語音交互團隊總監鄢志杰博士在接受記者采訪時表示,達摩院要做的是面向未來10年、20年后的下一代的人機交互,人機交互會越來越自然,而實現這一突破的關鍵在于多模態和主動交互兩大技術的融合。
要做下一代的人機交互
PC時代,人們與機器通過鍵盤和鼠標交流,與機器“溝通”需要學會打字、按鍵操作;移動互聯網時代,人們與智能手機通過觸摸屏幕交流,只需滑一滑手指即可完成任務;未來智能時代,機器將更像人類的一員,與它之間的交互方式將更趨同于人之間的交互。而要做到像“人”一樣交流,機器就必須具備多模態的融合技術。
“相比傳統單一的交互模式,多模態的主動交互技術主要基于傳感器技術,融合了視覺、聽覺、觸覺、嗅覺等多種交互方式,機器可以更象人,表達效率和表達的信息完整度更高,是智能交互的發展趨勢。”
鄢志杰博士舉了一個例子,通過傳感器技術可以感知我們所處環境的溫度,比如天氣熱時室內溫度比較高,機器就會幫我們把空調打開,而現在的智能家居,還只能被動的接受指令。
這樣的應用場景看似簡單,但實現起來還是有諸多技術難點需要解決的。鄢志杰博士表示,要做到下一代的人機交互體驗,還需要解決三大問題:
1、怎么把傳感器采集到的信號進行融合,從而產生融合以后的交互體驗,這個是有距離的。因為現在傳感器收集的信息是割裂的,比如攝像頭在做人臉識別,麥克風在做語音設別,真正融合的還沒看到。
2、傳感器采集的信息還處于感知層面,相對還是比較淺層的,真正認知層面還是有距離的。
3、交互形式單一,現在無非是屏幕或TTS(從文本到語音),怎么把視覺、聽覺、觸覺、嗅覺等多種交互方式融合到人機交互中還沒有突破。
鄢志杰博士表示,人機交互其實就是用戶獲取服務的過程,而阿里智能語音交互扮演的是中間橋梁的作用,它通過語音連接多端,跟互聯網上廣泛的服務對接,為用戶提供所需的服務。
智能家居需要“統一語言”來交流
近兩年,亞馬遜Echo的出現引爆了智能音箱市場。據統計,亞馬遜Echo在2016年銷售量超過650萬臺,預計2017年超過1000萬臺,繼亞馬遜之后,谷歌發布Google Home智能音箱,蘋果也發布了HomePod智能音箱。與此同時,阿里、京東、聯想、喜馬拉雅等也紛紛入局。
巨頭們的殺入以及中小廠商的蜂擁而上,一度提升了智能音箱市場成為風口的可能性。對此,鄢志杰博士表示,智能音箱的火爆是因為在美國市場Echo取得了優異的成績傳導到國內市場的結果,我們也希望在國內市場能智能音箱行業能盡快取得爆發式增長,目前各大巨頭都已經布局該領域,我們不排斥競爭,這個市場需要大伙一起來培養和教育。
除了智能音箱,鄢志杰博士認為“傳統設備的語音交互升級也是個巨大的市場。比如我們在云棲大會前夕發布的智能語音跑步機,就是基于Link Voice平臺快速完成傳統跑步機智能語音化的一個典型案例,在市場上就取得非常好的反饋。在今年的雙十一,智能語音跑步機也參加了阿里智能會場的預售活動。”
但是,智能語音也面臨一些挑戰。目前智能家居平臺各自為戰,擁有各自的通訊協議,用戶購買不同平臺的設備就要安裝各自新的App,很難集合各家平臺到統一的控制中心。阿里云IoT擁有國內最大的智能家居平臺,并主導成立ICA互聯互通聯盟,目前已經有100余家廠商加入該聯盟,越來越多的設備正在采用統一的“語言”來交流,這為語音控制家居打下了非常好的基礎。