回退到五年前,可能并不會有人想到給Google造成最大麻煩的會是亞馬遜,Alexa的成功事實上正在對Google造成根本性威脅。現在再回頭看亞馬遜一路采取的行動,你會發現它幾乎每步都做對了:
從收購三家語音公司打造Echo;
再到花4~5年打造一款產品的體驗而不是草草拼湊一款好像能用的產品;
然后確定一個柱狀的ID而不是擬人態的機器人來降低用戶預期;
銷量一旦站到百萬以上則開放后端Alexa Skills Kit以及Amazon Voice Service;
再到最近的開放七麥克風陣列。幾乎每一步都高度務實和正確,與之相比有些國內公司就顯的太想抄近路了。
從麥克風陣列說起
麥克風陣列是把多個麥克風組合在一起來對聲場的空間特性進行采樣并處理的系統,形狀不局限于環形,而可以有線性、十字等。(更詳細的介紹,請參見聲智科技的陳孝良博士的文章,如:聊一聊麥克風陣列技術:語音交互應該選用怎樣的方案?|深度)。
亞馬遜Echo這產品雖然用到了很多技術,也連接了很多內容,但最為核心的部分正是麥克風陣列。因為在柱型ID下面,人們的預期已經被大幅收窄,這樣內容外的核心的體驗點就只有速度和精度。而在遠場語音交互中由于真實場景中各種干擾聲源的存在,精度的瓶頸就變成了聲學,而不是已經相對成熟的深度學習等。聲學技術中對最終體驗比較關鍵的正是這次亞馬遜授權給第三方的:麥克風陣列,喚醒、回聲抵消、降噪、去混響等算法,當然還有一部分是融合到AVS中的已經開放出來的遠場語音識別。
亞馬遜開放自己的 7-Mic 陣列的本質含義在于亞馬遜正式把Alexa的優先級放在 Echo 這個產品之上。基于亞馬遜的 7-Mic 陣列以及配套技術,理論上講少數其它公司是可以打造出交互體驗與 Echo 一樣的產品的,而顯然的用亞馬遜陣列其背后必須集成的是亞馬遜的 Alexa。
這很符合一個互聯網公司的本質定位,Echo 再怎么賣下去也很難讓亞馬遜變成蘋果,但 Alexa 如果成功則可以大幅侵蝕Google的市場份額。簡單來講是這樣:Alexa 占據搜索多少份額,Google 就失去多少。這點上正好可以突出一個產品公司和互聯網公司的差別,蘋果嘗試過授權自己的操作系統,但很快放棄了,這在產品公司的商業邏輯上是合理的;亞馬遜開放自己的核心技術,并授權給第三方,這在互聯網公司的商業邏輯下也是合理的。
亞馬遜的這次行動可以平息掉行業里面一些很莫名其妙的爭論,比如兩個麥克風就夠了等等。既然亞馬遜認識到了對多麥克風陣列的需求,并且NXP等也愿意跟進,那無疑的可以說明多麥克風陣列是市場必須的環節。這反過來可以襯托Google Home上的決策失誤,Google拿什么來覆蓋多麥克風陣列的市場?
正在形成的新行業
顯然的大家也會比較關注亞馬遜這樣的行動會對國內市場以及創業公司有什么樣的影響?
直接的影響其實不大,因為國內語音交互的啟動速度眼下看比國外要慢個2~3年。但間接的影響其實并不小,因為亞馬遜的一系列行為本質上是在開啟一個新的分工鏈條,這個分工鏈條里很可能出現很多個百億市值的公司(想象下iPhone的產業鏈拉動了多少百億市值的公司)。
很多人可能以為亞馬遜自己的授權行為會導致第三方技術提供商生存空間被壓縮,但其實正相反,在這個新開啟的行業中會涌現出新的有實力的技術提供商。
因為亞馬遜的這種行動本質含義在于加速激活語音交互這個市場。假設我們前面的判斷正確,亞馬遜確實認為Alexa遠比Echo重要,那無疑的亞馬遜的核心使命是盡快為Alexa獲取客戶,這樣一來只用自己的麥克風陣列(以及背后一系列技術)來為Alexa獲取用戶顯然是極不明智的。那樣的話,Alexa用戶的增長速度會與自己麥克風陣列技術的銷售速度等同。
同時做過聲學前端的人會知道,聲學前端事實上是一種只能適度標準化的技術,也就是說即使有80%的工作在一個產品上重用,但一旦遷移到第二個產品上還有至少20%的工作要調整,這和芯片有本質差異。所以如果不能拉動整個鏈條,只依賴于自己一個公司,那語音交互推開的速度會極慢。所以如果亞馬遜足夠名字那一定會積極尋找第三方技術提供商,培育生態,只有前端的生態鏈條足夠成熟并且有足夠的動力支持亞馬遜,那么Alexa才可能真的加速普及。
國內有的很多人被互聯網模式荼毒過深,會想當然的覺得一切會免費,但可能并沒有意識到NXP這類大公司如果沒有合適的邊際利潤,那就根本沒和亞馬遜做下去的動力。我們假設說亞馬遜做成了Alexa,那亞馬遜可以得到Alexa整個生態,那這時候NXP可以得到什么?也就是說除非亞馬遜只是自己玩這游戲,否則如果想創建生態鏈條,那就需要為生態鏈條上的各個玩家留下利潤空間。
這件事情上一個典型的反例是Google的Chrome Book,Chrome Book從體驗上其實已經基本滿足了用戶對筆記本的各種需求,甚至可能更加方便。但展開上核心的一個問題是Google并沒為第三方廠商留下足夠的利潤空間,比如聯想使勁推這產品,但最終發現自己無法從中盈利,這時候即使有銷量,聯想這類公司顯然也動力也不足。從過往戰略的明智程度上來看,亞馬遜不是Google,所以估計不會犯Google的錯誤。
在這樣的大背景下,遠場語音交互的新鏈條上,最有機會的反倒正是對前端有深刻理解的公司,這些公司幾乎每個都不可能通吃整個市場,但考慮市場規模,只要占據20%的市場份額已經足夠支撐起10億美元上估值的公司。在PC、手機上國內公司參與這個分工鏈條比較晚,所以這個部分幾乎全是海外公司,但眼下聲智科技這樣的創業公司正在嘗試在其中搶占合適的位置。
亞馬遜開放7-Mic陣列授權后,Google、微軟等預計會采取相應行動,因為亞馬遜的授權顯然不會允許支持Google Assistant與Cortana。
國內語音交互的發展
國內其實是缺一款能和Echo媲美的標桿性產品,沒有這樣一款產品,大家就沒法相信語音交互是普遍可用的。聲智科技等公司可以提供與亞馬遜水平相當的遠場語音交互技術,但顯然的把這種技術轉化為產品體驗仍然需要合適的人與足夠的投入進行打磨。
沒有這樣一種標桿性產品,那就只會有各種簡單嘗試,但這種簡單嘗試基本上都只會得到體驗較差的產品,無法擔負起激活市場的重任(想想iPhone和Echo)。這很像用火柴燒水的那個比喻:只要還是單根火柴,那不管你用多少根事實上都無法燒開一壺水,只有把足夠多的火柴放在一起,一起點燃,那才能最終把水燒開。
顯然的突破語音交互只有兩個瓶頸:
一個是技術上的這就包括了交互的速度和精度,這只能依賴技術提供商來突破;
一個是用戶習慣上的,這需要硬指標與內容同步突破。
這兩者的突破都需要沉淀和打磨。而國內的很多嘗試更像是重復:迅速點燃火柴,嘗試迅速的燒開水,然后發現水沒開這樣一個過程。
這點上其實需要大公司扮演更多的角色,因為其投入和產出都會比較大。打造一個平庸的產品可能只需要100萬,但打造一個足夠有說服力的產品可能需要5000萬以上,這對創業公司挑戰確實會比較大。但收益顯然也是巨大的,假設說騰訊花了1億RMB打造了一款像Echo一樣的產品,那其它人即使打造了完全一樣的產品,很多人也會更傾向于活在騰訊的生態下(這正是Google尷尬的地方)。反過來講,這意味著誰第一個在國內打造出了一個成功的產品,誰更有可能扮演亞馬遜的角色,去挑戰既有搜索市場的格局。
小結
亞馬遜發功越來越有穩準狠的勢頭,但不管怎樣,我估計它那產品進不來中國。