從CES(國際消費類電子產品展覽會 International Consumer Electronics Show)的進展來看,Google現在確實在把語音交互這事兒搞砸,而越來越變成一家很能折騰但不太能干成事的公司。Google在公有云上不太可能超過Amazon了,自動駕駛上折騰了好多年但看起來掛的可能性非常大,而在語音交互上Google很可能會再一次敗給Amazon。
語音助手上的大PK
今年CES上最有意思的事情是語音交互型產品泛濫,從英偉達到聯想,各大巨頭對此達成了共識,紛紛殺入。這里面比較核心的兩家分別是Amazon和Google,前者的代表產品是Echo和內置的語音助手Alexa,后者則是Google Home和內置的語音助手Google Assistant。
正常來講不管從那個維度來看都是Google具有足夠的優勢,有技術、有資源、有積累,但具體看下來Google實際上落后甚遠,甚至可能難以挽回。
要想看懂語音交互這方向的走勢,那么需要深度理解與之相關的產品和技術的本質特征。
Echo這類產品的核心特征是多層技術高度融合(聲學、語音識別、語義、搜索、內容)。其中聲學是軟硬件的分割點,向下關聯產品ID以及內部結構,向上影響語音識別。而語義之后的部分則是純軟件與內容。
對于Amazon和Google這樣的公司,它們先天把自己定義為做生態和平臺的公司,所以其核心一定不是Echo這個硬件產品本身,而是背后的語音助手比如Alexa,因為只有Alexa才代表一種新的生態。
Alexa這種語音助手很多人覺得是像Android一樣的操作系統,但實際上看成是一個操作系統+超級App更為合適。
要把Alexa這樣的語音助手安裝到各種硬件里事實上有兩種途徑:
一種是純軟的方式。我就把語音助手做好,不管誰要用裝進去就可以了。這種模式下在技術層次上最多需要下探到語音識別,核心則是語義和對話。這模式最明顯的參照是搜索引擎。
一種則是軟硬融合的方式。我做一個標桿型的硬件產品,然后再把硬件產品中的助手開放出去。這模式最明顯的參照是Android這樣的操作系統。
純互聯網公司會傾向于第一種方式,因為這種模式最輕,而后一種模式要組織生產和銷售,還要下探到聲學這樣的層次,無疑重很多。
但模式一的核心問題有兩個:
語音交互很難在現有平臺上啟動(手機、平板、電腦),而直接把近場上的語音交互遷移到遠場上效果會很差,誰來解決落地過程中各種坑坑洼洼的問題?
不知道硬件上的需求,如何設計出與各種硬件適配的API,如何知道怎么提供對于硬件廠商最為便利的方案?把這種苦活累活完全下放給各個硬件廠商去自己摸索嗎?
Google開放ASR和NLP的API其實已經許久了,但從CES的結果來看,顯然Alexa這種系統整合型的方案更受歡迎,它即解決了與下層硬件的適配問題,也解決了后端內容整合問題。
拔高一層來看整件事情,我們可以講做語音助手這事,事實上有這樣幾個關鍵控制點:
做標桿型的硬件產品,但不與已有用戶習慣對沖。直接講就是新品類必須避開手機和PAD,否則一定會被覆蓋掉。
豐富后端內容,對于語音助手而言,硬件、音樂甚至打電話都是內容。內容需要從頭部開始逐漸填充長尾內容。引申開來就是要把Alexa和Echo這個產品分割開來,讓它后面的東西盡可能的多。
樹立技術優勢,在這里技術既包含深度學習這樣的純算法也包含聲學等與物理緊密相連的領域。當內容沒多到一定程度的時候,前端技術(聲學和語音識別)要比語義更重要。因為它們更影響速度和精度。
亞馬遜做對了什么?
在上一節提到的幾個點上亞馬遜幾乎每個都做對了。
第一亞馬遜沒回避硬件的煩難,花了四五年打造了Echo,這樣一來亞馬遜就掌握了一個很難被超越的制高點。
這看著很詭異,但事實就會這樣,否則的話Google直接把Google Assistant開放出來就行了,根本不需要自己打造什么Google Home。但實際上硬件和背后Assistant的耦合程度遠高于搜索和瀏覽器,搜索和瀏覽器的耦合程度事實上是便利不便利,但Alexa和前端的硬件的耦合程度則牽涉好不好用的問題。而Google則是迫于Echo的壓力才開始做Google Home。
第二亞馬遜在Echo獲得初步成功后迅速開始分離Echo和Alexa,具體動作就包括完SDK(ASK&AVS)的文檔和案例,成立Alexa Fund,積極尋找戰略合作伙伴等。最終結果之一就是所謂的7000項技能。7000個技能是非常可怕的事情,完全足以覆蓋技術和某些內容上的劣勢。這就好比淘寶上商家數一旦超過某個閾值,QQ流量再大也搞不定了。
那現在Google有幾個第三方伙伴呢,它只有1個。而且Google似乎還在神游,它作為后來者本應該上來就把這一系列東西都做了,這樣才體現后發優勢,但它并沒有。
第三是用用穩妥的方案打造更優異的體驗。穩妥的方案是說前端至少要和亞馬遜持平,后端再體現語義和內容連接上的優勢,這樣就可以在整體上反超。但Google很有意思的選了個兩麥克的方案,直接導致交互效果很差。這實在是大昏招,從便宜的角度解釋是合理的,但你在做的是個標桿型產品,便宜與否真的那么關鍵嗎?
引申一下這意味著什么?
這意味著Google可能很難追上Amazon了。
Google和Amazon相比無疑的在技術層面上會有優勢,但是如果對技術進行分解我們會發現實際上Google真正可能具有優勢只是NLP和搜索部分。這就非常可怕,因為NLP部分不存在質的差異,你并不能在這個點上單憑算法明顯拉開體驗,而在內容沒多到一定程度的時候,搜索的優勢根本體現不出來。而一旦技術突破,亞馬遜則在這部分累積了足夠多的數據。請注意這里的數據是完全和場景匹配的數據,而不是匹配度低的網頁公開數據,其中還包含了用戶的各種偏好。
這時候沒人會和Google扮演陪練的角色,一起從頭玩一遍。
Google好像又把事搞砸了
在過去漫長的時間里,Google這個公司有點被神話了,讓人潛意識的覺得它無所不能,但Google實在不是一個做產品的公司,我們也許可以把它定義為做算法的公司或者對算法癡迷的公司。如果Google真的在語音交互這事上玩大條了,那核心原因很可能就在這里。
做算法的時候技術是第一維度,但做產品的時候體驗是第一維度,你并不能掉過來玩:我這項技術很NB,所以我要把它放產品里,所以用戶要為此買單。而是要反過來思考,比如延時、響應率和對答準確率在這類產品上影響用戶體驗,所以我要在現有技術上把這體驗做到極致。
從表現出來的行為來看,Google正好屬于前一種。
上面說到的選擇兩麥克風方案來實現Google Home,從這個角度來解釋也是合理的。比如說如果想在云端用深度學習等處理前端信號問題,并堅信能做好,那這么選擇前端方案就完全沒問題,后端持續改善算法就行了。
但這樣一來產品體驗上打折扣就非常厲害。如果Google是第一個發布這種產品,時間窗口很大,那也問題不大,關鍵它不是,它需要這樣一款產品來和亞馬遜的Echo競爭,這就可怕了。你是后發,那怕做到一樣的水平也沒啥優勢何況你還差一截。挑戰新技術這事在工程師思維下是合理的,但在產品思維下就錯的離譜。
這類的問題點還有很多,比如你喚醒詞叫什么不好非叫”OK Google”,做智能助理顯然Alexa更適合這種擬人一點的情景。
Google Home出來后本應該使勁推廣Google Assistant到各大廠商,而不是趟在既有的優勢上睡大覺(Google在技術、不同設備關聯、內容上是有優勢的,畢竟它有Youtube等),但從CES上來看,Google并沒有忙著干這事,至少到現在為止我們還看不到Google版的Alexa Service Kit和Alexa Voice Service。
這樣看來Google和亞馬遜之間差了至少一年的差異。對打造產品的用戶來講選擇依賴于那家甚至是個不用考慮的問題,一邊是有開放API很多第三方客戶,一邊是沒有開放API只有一個第三方客戶。換你你也會這么選擇!(把軟硬打通,API封裝到這個程度還是很費勁的,如果你不信看看這里的文檔吧。
小結
Google的業務最依賴于云,但事實上在云服務上敗于亞馬遜,Google自動駕駛啟動最早但看架勢似乎會起個大早趕個晚集,Google人工智能投入最多但從現在的進展來看,很可能會再次敗給亞馬遜。
如果說前兩次失敗不動搖根本,那這次很不一樣,因為在AI這里交互既是搜索,它其實輸不起,輸了就會變成另一個微軟。