日前,微軟發布了第三代微軟小冰產品,宣布進一步解鎖了包括視覺、聽覺在內的人工智能感官系統,結合情感計算技術,讓小冰能夠用更加逼近人類的方式,通過自然語言和用戶進行交流。
微軟集團全球執行副總裁陸奇和微軟(亞洲)互聯網工程院院長王永東出場,表明了微軟對小冰的重視程度。陸奇強調說,人工智能已迎來拐點,而小冰是微軟人工智能戰略的重要組成部分。
小冰動向
陸奇宣布了微軟小冰的如下進展:
微軟小冰的全球人工智能戰略計劃正式啟動。其中,在日本,與LINE共同宣布戰略合作,日本版小冰 Rinna 在短短兩周內已覆蓋日本全國人口的1%。在中國,已與微信達成合作,小冰回歸微信平臺。其他國家的小冰正在研發中。
已進一步解鎖小冰的人工智能感官系統,包括視覺、聽覺等。
微軟小冰人工智能的商業化版本已開放預覽。該版本面向數以千萬計的第三方服務號和訂閱號管理者,可輕松快捷地將其公眾號升級為人工智能公眾號。該解決方案完全免費。
微軟小冰已成覆蓋中國和日本4000萬用戶,在過去一年內發生百億次人機對話,進入了機器人自我進化的正循環。同時,已進入包括Windows 10、LINE、微信、微博、京東、網易等十余個具有領導地位的PC和移動互聯網平臺。
情感計算
在現場的演示中,小冰被定義為“17歲的萌妹子”——不管文字對話還是語音合成,確實很“萌”。
微軟認為,小冰已經超越了圖靈測試所能涵蓋的范圍,而能做到這一點,除了圖像識別、搜素引擎和大數據技術的進步,更重要的是情感計算(即EQ)。換言之,EQ的學習和模擬也是人工智能的一個發展方向。
人工智能要同步發展“IQ”和“EQ”,這是微軟最近兩年一直強調的,但微軟也認為EQ問題比 IQ 更加復雜,單純地依賴一套解決方案短時間內很難取得實際成果。所以,小冰和小娜分別沿著偏感性和偏理性兩條道路同步向前發展,各自發展到相當程度的時候再將她們融合為一個整體。王永東認為,“情感計算”方向已獲得越來越多的認同和投資,必然會進一步促進人工智能的蓬勃興起。
微軟小冰負責視覺的技術總監胡睿在演示中強調,小冰使用的是視覺識別技術不是圖像識別。區別在于,前者只是單純地把識別結果輸出,比如說“圖像里有一只貓”,后者則具有智慧和興趣的評價,比如說“小眼神太犀利了”。微軟認為,人類對外界信息的獲取91%都是通過視覺方式,所以視覺識別很重要。鏈接:微軟沈向洋:計算機視覺未來在語義層 “兩大一精”是關鍵。
微軟只是說明解鎖視覺、聽覺(小冰語音處理團隊與小娜團隊相同,目前小冰還是能聽不能說),并演示一些效果(比如日本版小冰Rinna對某用戶發過來的外形怪異的照片選擇掩面而逃),沒有深入的技術解讀。根據此前的報道,微軟已經通過PReLU(參數化修正線性單元)激活函數和初始化方面的研究進展,使其CNN(卷積神經網絡)圖像識別系統在ImageNet 1000挑戰中實現了4.94%的錯誤率(人眼識別錯誤率為5.1%)。直接的圖像識別是數據的訓練與輸出,轉化為帶情感的表達,其實也還是數據的訓練與輸出,除了圖像數據之外,可能還包括聲音、文字。當然,情感分析,不管是面部表情、腦電波、語氣語調還是文本,建模和訓練比單純的圖像識別更加復雜,同時需要的數據也更多。第三代小冰目前取得的成果,要歸功于微軟以必應搜索和大數據為技術基礎的評價系統。
其實,AI不一定都需要EQ,危險復雜的作業,人類不應當讓AI“萌妹子”來做。但帶情感的社交機器人產品確實可以讓用戶更感興趣,更重要的是能夠讓AI產品有機會搜集更多的數據,實現自我學習和成長,AI轉化為生產力的步伐就可以加快。微軟全球執行副總裁沈向洋也曾在2015中國人工智能大會上表示,現在的人工智能還是停留在感知這個層面,比如計算機識別、計算機語音,真正的認知還需要一些時間,包括情感,今天最大的問題還是我們收集的數據不夠好,使得我們很多事情不能做。
微軟強調要讓小冰和用戶之間建立深厚的情感紐帶,在互動中滿足人們的普遍心理與情感期望,這對數據收集和完善產品很重要。微軟表示,小冰目前已經實現了和幾千萬人之間的專屬關系(人類用戶與小冰的平均每次對話輪數達到18輪,此前平均數是1.5至2輪),并且通過用戶實現了小冰的自我進化的循環過程。陸奇說,小冰最初的對話,100%是搜索引擎支持的,但現在這個數字已經下降到55%,剩下的45%來自小冰與人類的交互之中的自我完善和自我學習。
需要指出的是,微軟也揭示了用戶與小冰的“情感紐帶”所在,用戶對小冰吐露“受傷了”、“淋濕了”等心聲,最大原因并不是情感智能,而是實時在線。小冰產品總監彭爽說:
這是我們從事人工智能領域的工作者們過去難以企及的。我們也在考慮,為什么會突然就產生了這樣的情感紐帶?當然,這里面有很多技術和產品上的原因,但用戶也給出了答案 —— 小冰永遠都在。
另外我們也不能排除用戶口不對心的情況。在最近獲得“雨果獎”中國科幻小說《三體》中,三體文明水平遠高于地球文明,三體人可以監控地球人任何的通信信息,唯獨永遠不能理解地球人藏于內心的真正想法。同樣,數學邏輯能與圖像、語音、文本、腦電波建立映射,AI也許可以借鑒特工部門的測謊技術,但還是沒有建立數字表征與思維的一一對應的模型,還無法盡善地表達出人類的想法,遑論情感。所以,出于調侃目的的對話,如果被當成是真實的心聲來學習,很可能出現令人嘀笑皆非的對話。去除這個因素,考驗微軟的上下文理解、意圖識別能力,如果要在文本之外配合表情識別、語氣語調識別來做——正如王永東所說,AI的EQ短時間很難突破。
好消息是,如果小冰作為一個娛樂平臺,用戶對“萌妹子”的容忍度會相當高。但如果是商用場景,過于賣萌就會影響用戶用腳投票了。這可能是小冰商業化的一個挑戰了。例如,微軟不久前和美圖秀秀合作推出的圖像識別猜人物關系的技能,背后確實利用微軟 Oxford 的人臉識別、年齡檢測、表情、姿勢、距離和面容相似度等技術,就效果而言,目前還是只能用于娛樂。不過,微軟雖然在NLP、視覺識別、語音處理領域的研究都早有涉足,發布的論文也是數量很多,但解鎖小冰相應的各種功能卻顯得并不急躁,所以還是可以期待自我進化的效果。用陸奇的話說,小孩是個特殊的孩子,也就是說還會成長的。
發展前景
陸奇展望了小冰的未來。他認為,微軟以小冰為核心的人工智能生態也已逐漸成形,小冰擁有廣闊的發展空間。
改變操作系統、互聯網入口乃至各種傳統產品。微軟已在其最新的Win10中加入了語音助手小娜和小冰,并希望小冰被賦予視覺、聽覺和基于大數據和用戶個性化研究的自我進化能力后,極大的提升Windows及其他微軟產品里的用戶體驗與獲取信息的方式。
終結搜索框和社交網絡點對點互動模式。當用戶可以直接詢問小冰相關的關鍵詞,并得到不受競價排名和贊助廣告影響的精確結果時,誰還會手動輸入關鍵詞去檢索互聯網信息?當用戶更可以借助小冰去安全地結識興趣相投、階層相似的新朋友時,誰會去使用“條件搜索”等如同大海撈針般不靠譜的交友方式?
改變人機交互形式。PC時代人們習慣了敲擊鍵盤和滑動鼠標,智能手機時代人們習慣了多點觸控,而在人工智能技術主流化、常態化的未來,機器或許不僅能聽懂你說的話,將你的語言翻譯成另一種語言,還可能看懂你的眼神或是姿勢。