自從淼叔把有聞咖啡館定位為記者之家之后,因為記者常來常往,不少公司也漸漸地把自己的新產品送過來展示,或者一些新服務放在有聞落地,目的也簡單,占一條觸達記者的捷徑。
5月初,京東智能送來了他們的智能音箱DingDong。一開始倒也沒多想,咖啡館嘛總是需要音樂的,而有聞的結構是三間獨立的小咖啡廳,所以音響系統也相對獨立,把DingDong放在我的辦公空間也不影響別的人。聯網聽歌的功能不新鮮,語音控制效果不錯,但考慮到它的另一半血統來自于科大訊飛,也并不意外。
直到某一天,在控制音箱的App某個深層菜單里,看到了“智能家居”這一項,點進去又發現了“微聯智能生活館”,才把這臺音箱與亞馬遜推出的“Echo”聯系在了一起,雙方具有類似的野心,不過京東智能選擇了更具中國特色的路徑。
語音離入口僅有2秒距離
在這個微聯智能生活館中,列出了形形色色的家用電器,小到插頭,大到冰箱洗衣機。這些電器的共同特點是支持基于京東微聯的Joylink協議(微聯是國內第一個自主研發的跨品牌、跨品類的智能家居互聯互通平臺。JoyLink則是第三方硬件接入微聯的底層通訊協議)。2016年,京東智能聯合行業伙伴向業界提供Joylink的全面開放服務,基于這樣一個共同基礎,所有電器都可以用一個App來操控。在前不久的CESA上,京東智能副總裁劉子豪博士也介紹過,京東微聯可以讓用戶自己定義個性化的生活場景,截止到2015年底,微聯中已經覆蓋40+品類、100+一線品牌、1000+商品的智能產品,它正在成為各種智能場景的聯接平臺和操控入口。
京東智能副總裁劉子豪博士
然而在使用終端上,京東還開辟了一個更便捷自然的交互形式——語音,DingDong音箱就是重要的代表。其實智能家居的入口這件事已經被提及過多次,這個位置被微軟覬覦過,用Xbox;被小米覬覦過,用手機;騰訊覬覦過,用微信;鋼鐵俠在電影里實現過,用虛擬屏幕。京東來趟這趟混水,有戲么?
喬布斯之后最偉大的商業天才貝索斯認為,這事有戲。當他的秘密研發部隊Lab126(相當于Goole X之于Google)告訴他Echo智能音箱的研發計劃時,他只提了一個要求:“Echo的語音反應速度要達到一秒”。當時的普遍指標是2.5到3秒。如果你說一句話話音落定之后三秒對方才有反映,正常人都會認為跟自己對話的不是人類。
Lab126克服各種技術難關把這一指標提高到1.5秒,Echo上市后果然大獲成功,在兩周內預訂量即超過100萬臺——第一代iPhone達到這一速度用了70天;它還成為“黑色星期五”時亞馬遜網站上售價100美元以上商品的銷量冠軍。貝索斯迅速將之優先級調高至戰略級別,其征兆就是在“美國春晚”超級碗廣告中,亞馬遜把黃金般的位置給了Echo。
無論Echo還是DingDong都已經證明,相比于手機、盒子、屏幕,語音是更為流暢自然的交互方式,“動嘴不動手”一直是懶人的最高境界。更無心插柳的是,智能音箱的語音交互習慣培養門檻非常低,它最高頻的應用——點歌——默認就是這種交互方式。如果人們一開始并不習慣對家電發號施令,點一首歌會讓他們自然得多,也更容易接納智能音箱作為對話對象。
語音控制的兩個門檻
不過,到了中國市場,做成這件事需要的不僅僅是一款產品。在技術端,京東云已經積累了大量消費者和產品數據,接下來就是用場景活化這些數據;在渠道端,京東是最大的家電銷售平臺,對支持Joylink協議的產品略加傾斜即可發揮巨大的影響力;在用戶端,微聯計劃解決了家電產品“非互聯網化”的痼疾,使銷售不再是生意的最后一步,而是用戶數據采集的開始,也是用戶價值拓展到整個產品生命周期的關鍵一環。而通過這三端的運營,京東也希望能超脫流量商人這個漸漸失去吸引力的價值模式,將自己升級為擁有云計算和智能家庭兩大金礦的科技企業形象。
當然現在就對以DingDong音箱為代表的語音控制產品的前景做判斷為時尚早,畢竟它還有兩個關鍵問題仍是懸疑待解:首先,能否跨越貝索斯劃下的那條線?讓語音交互的過程真正地像“與人交互”而不是“與機器交互”,這是決定其自然交互體驗的一個門檻,也是該產品能否“人性化”的核心問題;其次,Joylink協議內置到家電之中,其成本控制和性能穩定性乃至安全性保障,還有待市場的檢驗。
關于第二個疑問,此前它已經讓大批智能家居行業的先行者折戟于紅海;而在第一個疑問方面,京東前不久在第二屆亞洲消費電子展(CES Asia 2016)發布了新一代語音交互系統AIUI(人工智能時代的人機交互界面),并推出首次搭載該技術的DingDong智能音箱新品DingDong靈動版。
AIUI的核心是智能化的多輪對話管理和上下文理解,“全雙工”的交互模式可以讓人機對話時隨時打斷進行信息補充或者糾錯,更接近人與人的溝通。 可以說,AIUI采用了另一種方式來解決“貝索斯要求”,它并沒有在語音響應時間上強行突破,而是在“多輪對話”上下了工夫。此前,人類跟機器對話的層級基本都停留在一級深度,也就是說,每次對話都是一個完整的問題。例如問SIRI:離我最近的飯館在哪里?SIRI說500米外的眉州東坡;下一個問題仍然要完整表述:去眉州東坡怎么走?而在多輪對話技術下,這個問題可以直接簡化為“怎么走?”還可以一直對話下去,例如問路況如何、幫助打車等等。能夠進行多輪對話而非一級深度對話,同樣是AI之所以像人的一個重要表現。
京東CTO張晨告訴淼叔,將在8月份推出從AIUI到微聯、Joylink協議整體的一個升級服務包,這其中的語音AI除了科大訊飛之外,還引入了微軟的深層對話技術(即上文所說的多輪對話)。如此也可以看出,京東正在加強與技術方的合作,努力將互聯互通和自然交互技術落實到具體應用中,在融入到用戶的場景化使用里。
畢竟,會下棋的人工智能對大多數人來說只是談資;真正能上手或者“動嘴”嘗試,才能讓人工智能走下神壇,成為惠及民眾生活的新動力。當“對話”這種最為溫和自然的方式成為智能家庭溝通的主旋律,順服的,不僅僅是那些電器吧。