阿里巴巴人工智能首席科學家聶再清：語音助手是下一代人機交互入口

責任編輯：zsheng |來源：企業網D1Net 2018-12-17 18:50:55 本文摘自：鈦媒體

在12月15日的2018 T-EDGE 全球創新大會上，阿里巴巴人工智能實驗室語音助手首席科學家聶再清發表了主題演講。圍繞語音交互的下一代發展，聶再清從阿里巴巴對語音、語義、人機交互的理解與落地場景進行了闡述。

在聶再清看來，AI 新技術正在打造下一代人機交互方式，這也是人把物理世界數字化的人機交互過程，而語音助手則成為當下AI 落地的一個熱門場景。

這也解釋了當下智能音箱的風靡。不論是訂外賣、拉窗簾、聽音樂，語音交互技術已經進入消費的日常生活，據了解，由阿里巴巴推出的智能音箱“天貓精靈”，自面世不到一年(從2017年8月8日正式開售到2018年7月5日)，銷售量就突破了500萬臺，今年雙十一期間更是成為了消費電子行業(天貓平臺)單品銷量冠軍。

談及人工智能領域自然語言理解技術的挑戰，聶再清表示，挑戰主要來自自然語言理解的多樣性和歧義性。

因此，阿里巴巴正在根據公開大數據自動生成語料來解決冷啟動語料缺乏問題，利用融合知識圖譜和用戶畫像的深度學習算法打造強大的語義理解能力，以及通過深度強化學習方法在與用戶的聊天中自動學習最佳人機對話策略。

“語音助手已經進入大家的日常生活，需要各個開發者參與其中，我們希望搭建簡單易用的AI平臺，把我們積累的人工智能技術和創新賦能給開發者。”聶再清表示。

以下為聶再清在2018 T-EDGE 全球創新大會上的演講實錄，經鈦媒體編輯后發布：

大家好，我是阿里巴巴人工智能實驗室的聶再清，今天給大家分享的題目是“語音助手，下一代人機交互入口”，阿里巴巴人工智能實驗室的一個重要使命就是用AI的新技術打造下一代的人機交互方式。

什么是我們認為的人機交互方式?就是人類把物理世界數字化時跟機器的交互過程，在座的可能有一些人經歷了剛開始只有用鍵盤和計算機交互的時代，用dos系統一行一行的輸入，人跟機器交互需要學習培訓，一般人不會用計算機，慢慢我們有了圖形界面，我們用鼠標點一下就可以，更多人不經過培訓就可以使用了。

現在大家正在用手機進行物理世界的數字化。所有人，包括老年人，包括幾歲的小孩都可以用手機觸達數字世界，并不斷數字化物理世界的很多信息。你通過微信或釘釘確認一個好友邀請，就是把物理世界的好友關系數字化，你看到帳號上的信息，就是看到你銀行的數字世界的信息。這種通過手機的觸屏交互方式越來越自然，學習成本非常底，幾乎人人都參與進來了，也極大地豐富了我們云端的數字世界的內容。

但這也有一個壞處，很多人都在長時間地低頭玩手機，甚至有一個新詞“低頭族”來描述這一現象，描繪的就是大量的人把大量時間放在通過手機和數字世界的交互上，這種生活方式不是非常健康的，我們希望一個更健康更自然的交互方式，這個方式就是我們認為的語音助手。

剛開始，智能音箱和語音助手在美國很受歡迎，而現在我們知道中國用戶更喜歡這樣的方式。用數據說一下，去年雙十一，我們只用九個小時就賣了一百萬臺智能音箱，從一年前天貓精靈面世開始不到一年就賣了五百萬臺。今年，我們已經成為電子消費行業在天貓平臺上雙十一的銷量冠軍，智能音箱在雙十一期間也超過了手機這個品類的銷量。天貓精靈已經成為最受歡迎的中文語音助手(智能音箱)，在全球智能音箱市場也是第三(在Amazon和Google之后)。

語音助手已經在進入每個人的日常生活，有很多場景都可以使用語音助手，比如早上起床后開燈開窗簾;收聽天氣預報以及新聞;中午可以訂外賣，到了晚上睡覺前可以聽著最喜歡的輕音樂入睡……在一天24小時里，很多的場景都可以幫助到。

如果把語音助手變成大家的第一個交互入口的話，我們需要各行各業的開發者都加入進來，把他們的內容、服務、基礎設施都連上我們的助手。甚至我們在北京的一家養老院都安裝了天貓精靈，幫助行動不便的老人用語音控制家電。老人們都非常喜歡，因為能幫助他們做很多事情。

為了讓每個開發者都能參與打造我們的語音助手，我們希望搭建簡單易用的AI平臺，把我們積累的人工智能技術和創新賦能給開發者。我們推出了AliGenie這個語音助手平臺。這個平臺涵蓋了一個又全又準的知識圖譜，不僅僅是百科的知識，還有優酷的知識，有蝦米音頻的知識。

我們把通用的百科知識和這些Vertical的知識結合起來，把物理世界的人和物一一對應到我們的知識圖譜上去。基于這個圖譜，AliGenie提供四種基本AI能力：語音識別能力、自然語言處理能力、語音合成的能力、還有用戶畫像和個性化推薦的能力。

任何一個開發者就可以使用到這四種基本的能力，這四個基本能力之上，我們還提供四種類型的對話：

第一種，業務完成，比如說打開燈和窗簾這種任務，天貓精靈可以幫你通過對話形式解決;

第二種，知識問答，就是你有一個問題，天貓精靈能夠把你的每個問題都回答好。

第三種，智能聊天，是我自己提出來的，這個聊天和我們的閑聊有很大的區別，待會兒我還會重點介紹;

最后一種，閑聊，是能夠接住用戶的任何一句輸入的聊天服務。

由于時間關系，今天我主要介紹一下自然語言理解和智能聊天。

什么是語音助手里的自然語言理解?舉例來說，你問天貓精靈明天天氣怎么樣，它需要了解用戶意圖是要了解天氣預報，這個工作就是意圖識別(intent detection);天貓精靈還需要從用戶請求里獲得兩個參數：一個是時間一個是地點，我們要把“明天”、“北京”這個時間和地點作為參數輸入給API，這個工作就是槽填充(slot filling);知道了意圖和槽值(以及上下文)，讓天貓精靈決定下一步要做什么，是對話管理(dialog management);所以自然語言理解在智能助手里面做三件事：意圖識別、槽填充、對話管理。

講講這三件事的挑戰，以及我們怎么解決的。

大家都知道，自然語言理解是人工智能里面最難的范疇，它的挑戰主要來自于哪里?來自于自然語言的多樣性和歧義性。

“明天天氣怎么樣”有幾十萬種說法，如果我們沒有足夠的訓練數據的話，你的智能助手沒有理解對，用戶會認為是智障，大家對它的期待很高，所以我們怎么能讓不是機器學習專家的開發者的人也能夠開發這類應用，這是我們平臺要做的事情。

現在我們主要的解決方案是按照公開大數據自動生成的語料讓開發人員標注，用一個基于規則的方法自動解決冷啟動是語料缺乏的問題，利用融合知識圖譜和用戶畫像的深度學習算法打造強大的語義理解能力，以及通過深度強化學習方法在與用戶的聊天中自動學習最佳人機對話策略。

下面我介紹一下我們在研發的智能聊天能力。

作為對比，先看看什么是閑聊。閑聊是一種基于人類曾經發生過的對話庫來回答用戶請求服務。在閑聊技術體系里，機器并不需要真正理解用戶的請求。閑聊有幾個特點，一般都是單輪或者很少的輪數，它的好處是任何話題都能接住。閑聊的用處在于接住用戶的每一句請求，不讓用戶因為天貓精靈聽不懂他/她的某一句話就不和天貓精靈玩了。

但我不希望跟用戶進行太長時間的閑聊，因為如果用戶跟天貓精靈聊一百輪閑聊，用戶還是記不住什么東西，這是在浪費用戶的時間。這是不符合我們的價值觀，我們希望人能夠通過我們聊天能夠學到知識，或者變得更加快樂。

再來看看智能聊天。

智能聊天需要要理解用戶請求，同時用強大的知識圖譜制作聊天的知識點，通過跟用戶對話，把我們知識圖譜里面的知識灌輸給用戶。我們希望跟用戶聊的越多越好，他會學到很多知識，我們希望用戶聊完以后學到知識并慢慢變成我們的朋友。

智能聊天是能用深度強化學習來學習對話策略的，因為就算天貓精靈聊錯一點，沒有多大的關系，用戶只是會對這個回復不太高興(不像任務完成時需要100%準確完成主人的任務)。通過深度強化學習，下次天貓精靈就可能更好地知道到底應該怎么和這類用戶聊天。我認為深度強化學習能夠應用在智能聊天的對話策略學習這個領域。

總結一下，語音助手已經進入大家的日常生活，需要各個開發者參與其中，我們希望搭建簡單易用的AI平臺，把我們積累的人工智能技術和創新賦能給開發者。以上就是我全部的演講內容，謝謝大家。

關鍵字：下一代交互科學家智能