近日,借著各大電商平臺促銷之際,筆者打算購入一款個人數字助理終端嘗鮮,可沒想到的是,在購買評論中各種吐槽占據半壁江山:“必須用標準的播音腔,一點口音它都聽不懂”“雞同鴨講,累覺不愛”“什么人工智能,簡直人工智障”……作為人工智能領域起步較早且貼近最終用戶的應用之一,個人數字助理怎樣才能實現真正的智能化?
語音交互是個人數字助理的智囊
人工智能很多重要應用都需要各方面能力的支持,很多專家都提出,個人數字助理是其中一個重要的“落地”領域。實時性,是個人數字助理的一個重要特征,正因如此,從能效的角度看,個人數字助理對模型的高效性有著非常高的要求。同時,如何在聽覺、意圖和行為的層面提供個性化的服務;如何不斷了解個人行為、調整模型,并進行學習和訓練也是其面臨的挑戰。此外,從系統架構來看,情景感知是個人數字助理的重要特性,而推動傳感器多模態學習和多模態融合,是其未來能力體現的重要角度。
在個人助理所涉及的諸多技術領域中,語音交互是關鍵。有專家指出,語音是最終用戶一直期待的、具有變革性的人機交互界面。尤其是在用戶無法用手去觸及終端的應用場景中,語音界面的存在感和價值便凸顯出來。放眼全球,無論是運營商、互聯網巨頭還是制造企業都對語音交互寄予厚望。蘋果推出了Siri、亞馬遜有Alexa和Echo、微軟有“小娜”,Orange和Telefonica等運營商也將借助智能音箱進軍個人語音助手領域。在國內,中國移動和科大訊飛打造了靈犀,百度推出度秘,阿里擁有天貓精靈等。
正因如此,從某種程度來看,語音交互的智能程度,決定了個人數字助手的智能程度。從技術的發展趨勢看,語音交互功能正從云端向終端側快速遷移。現在,從商用面來看,語音交互還更多是一個以云端為中心的架構,即便如此,出于對低功耗、實時性的考慮,語音交互所需的一些功能如語音降噪和語音激活都已經在終端側進行處理。但是,我們也必須認識到,從云端到終端側的遷移是一個漸進的過程,包括語音識別、自然語言理解以及文字轉語音在內的更多功能,會逐步演進到以終端為中心。在這個過程中,由機器學習驅動的端到端解決方案將推動這場遷移。
那么,終端側處理語音交互有什么優勢?首先是隱私保護。出于私密性考慮,很多用戶并不希望自己的數據被上傳到云端進行處理。其次是即時響應。在終端側進行語音處理,不僅能及時響應,還能無中斷地進行處理。此外,還有始終開啟以及情境感知等優勢。比如在終端側,個人數字助手就能感知當時語音處理的背景、知道用戶在與誰交流、了解用戶當時語言表達的情緒,從而及時調整自己的交流方式。
當然,這并不意味著云端處理已經被淘汰。專家指出,未來語音交互長遠的發展方向是云端跟終端緊密結合。比如一些復雜的語音在終端無法完全處理的情況下,需要回落至云端。此外,模型訓練、模型更新、知識庫應用等一些更寬泛的服務,通過“端云互補”的方式,可以更好地對信息進行處理。
最終目標是“終端里數字化的我”
如何才能打造出低功耗、個性化、智能化的語音解決方案?
首先要做到語音降噪,這樣才能更好地處理語音信號。當語音信號被采集后,可以用二維圖像的形式呈現出來,也就是聲譜圖。針對圖形分類,不少企業和研究機構已經有了比較完整的模型,他們正考慮把針對圖像的處理方法用在語音解決方案上,讓語音降噪在某種程度上變成圖像處理。再通過深度學習的模型進行降噪處理,為下一步提供條件。
其次是語音激活,即語音交互界面需要知道什么時候與人進行交互。語音激活需要始終在線,以判斷什么時候準備進入交流環節。
完成上述步驟后,就進入人機交流階段了。這個階段可以分為三步:第一步將聲學特征提取出來;第二步通過深度學習的模型,將聲學特征轉化為語言單元;第三步通過語言模型和自然語言理解,把語言單位表達為最終的用戶意圖。這整個過程就是終端側自動語音識別,在此過程中,語音助手一方面要有很好的識別能力,另一方面還需要通過適應用戶的口音、環境、偏好,來進一步提升用戶體驗。
在這樣的語音交流基礎上,就能建立真正智能的個人數字助理。專家指出,真正的個人數字助理可以簡要概括為“住在終端里的一個數字化的我”。個人數字助理的關鍵功能除了強調具備情境感知能力,還要能根據情境感知獲取的信息,為用戶提供個性化的服務和推薦。
具體到技術層面,第一步也是最重要的一步,是實現終端側的語音交互。第二步需要考慮如何將對話系統升級,使它能夠持續學習用戶的個人信息,和用戶進行自然交互。最后一步是以情境感知的方式支持在聽覺、意圖和行為層面實現個性化,這是推動人工智能發展的最關鍵的方向。情境化不僅需要利用虛擬世界的數據,也需要利用物理世界的數據,如何把二者融合到一起,是情境化在未來一個重要的技術演進方向。