智能音箱需要生態(tài)鏈打磨,功夫決定體驗(yàn),不能忽視任何細(xì)節(jié)。很多時(shí)候我們給予大數(shù)據(jù)和深度學(xué)習(xí)過高的贊譽(yù),反而讓眾多的研究人員犯了懶,這個(gè)世界從來不是搞搞數(shù)據(jù)就能明白的,對(duì)物理世界的探索,對(duì)人類哲理的思考,才是推動(dòng)社會(huì)進(jìn)步的力量。
隨著Google Home的發(fā)布,智能音箱鼻祖Amazon Echo再次成為關(guān)注焦點(diǎn),這款產(chǎn)品儼然成為了新時(shí)代智能硬件的代表。當(dāng)然,Amazon Echo確實(shí)也不負(fù)眾望,不僅銷量攀升到千萬級(jí)別,而且研發(fā)力量也超過了千人,前幾日又開放了400人規(guī)模的職位招聘。
一般來說,國外成功的模式或者產(chǎn)品,最多一年左右時(shí)間,國內(nèi)就會(huì)成功復(fù)制甚至快速趕超。但是Amazon Echo卻是個(gè)例外,自從2014年發(fā)布以來,國外只有谷歌花了近兩年的時(shí)間才推出Home這樣的競(jìng)品,由于剛剛發(fā)售,具體銷售情況我們還要拭目以待。但是國內(nèi)情況怎樣呢?國內(nèi)花了兩年多時(shí)間也仿制出了幾款產(chǎn)品,然而都沒有復(fù)制出Amazon Echo這種能被大眾普遍接受的產(chǎn)品。
這也是國內(nèi)很多廠商百思不得其解的問題,為何同樣花了很多功夫,但做出來的產(chǎn)品就是得不到用戶的認(rèn)同呢?國內(nèi)同類產(chǎn)品慘淡的銷量,也讓很多國內(nèi)互聯(lián)網(wǎng)巨頭始終無法下定決心投入研發(fā)類似Amazon Echo的這樣的智能音箱產(chǎn)品。這到底是為什么呢?
| 智能音箱需要生態(tài)鏈打磨,功夫決定體驗(yàn),不能忽視任何細(xì)節(jié)
智能音箱,作為語音智能助手的家庭入口,遠(yuǎn)遠(yuǎn)超出了音箱定義的范疇,這是硬件?軟件?還是平臺(tái)?很難界定,智能音箱涉及了語音交互的完整生態(tài)鏈。如果不把這款產(chǎn)品作為戰(zhàn)略產(chǎn)品來投入研發(fā),估計(jì)做出的產(chǎn)品難免差強(qiáng)人意。雖然國內(nèi)很多廠商都自認(rèn)為投入巨大,但是相比Amazon Echo來說,這就有點(diǎn)小巫見大巫了。Amazon不僅投入上千人研發(fā),還可以把Echo廣告做進(jìn)超級(jí)碗。這和手機(jī)之間的競(jìng)爭(zhēng)非常類似,國產(chǎn)有些品牌手機(jī)也自認(rèn)為不錯(cuò),但是用戶拿到手中,心中自然就會(huì)有個(gè)衡量區(qū)分。事實(shí)上,公司之間競(jìng)爭(zhēng),不在于投入20%實(shí)現(xiàn)的80%,而在于投入80%才換來的20%。大多時(shí)候,往往就是這20%決定了公司競(jìng)爭(zhēng)的成敗。但是國內(nèi)愿意投入這80%的畢竟還是少數(shù),特別是面向新興市場(chǎng)的產(chǎn)品,若不能做到精致的用戶體驗(yàn),傾注足夠的心血,得不到用戶認(rèn)同也就在情理之中。
事實(shí)上,Amazon Echo的誕生也不是一帆風(fēng)順的。
承擔(dān)Amazon Echo研發(fā)任務(wù)的是Amazon 126,這個(gè)公司成立于2004年,主要擔(dān)負(fù)Amazon硬件產(chǎn)品的研發(fā)任務(wù)。Amazon 126曾經(jīng)同時(shí)研發(fā)了四款產(chǎn)品,Echo是處于Kindle、Fire Phone和AR之后的D類研發(fā)任務(wù),甚至其研發(fā)成員主要也是AR項(xiàng)目組分出來的,2010年末啟動(dòng)的時(shí)候想必沒人會(huì)看好這個(gè)音箱。Amazon Echo也不是最初的名字,而是Amazon Flash,甚至2014年發(fā)貨前夕還是這個(gè)名字。Echo也是幸運(yùn)的,由于Fire Phone的失敗,AR項(xiàng)目被停止,這讓Echo直接受益,短暫的內(nèi)部調(diào)整后大大增強(qiáng)了研發(fā)力量,但是即便這樣,內(nèi)部還是存在不少爭(zhēng)議,這讓剛剛面世的Echo不敢公開銷售,轉(zhuǎn)而采取邀請(qǐng)購買的方式試水市場(chǎng)。
Amazon Echo雖然研發(fā)多年,對(duì)于技術(shù)的追求也是一種極致,但這并沒有挽回Echo在2014年發(fā)布時(shí)候的尷尬,當(dāng)時(shí)的用戶體驗(yàn)也就是一個(gè)演示模型而已,從算法到內(nèi)容,都存在不少問題。當(dāng)然,隨著用戶規(guī)模的不斷擴(kuò)大,以及研發(fā)力量的持續(xù)增加,Echo也有了長(zhǎng)足的改善,其內(nèi)容聚合也因?yàn)槠溟_放策略而迅速發(fā)展,這也為后來Echo屢次拿到100美元以上產(chǎn)品銷量冠軍打下了基礎(chǔ)。
Amazon Echo的本質(zhì)屬性仍然是個(gè)音箱,雖然Echo的音質(zhì)差強(qiáng)人意,但是在當(dāng)前HiFi音箱衰落,藍(lán)牙音箱當(dāng)?shù)赖臅r(shí)代,音質(zhì)對(duì)于大部分消費(fèi)者來說已經(jīng)不是第一要素。使用簡(jiǎn)單、外觀漂亮才是用戶購買無線音箱的主要?jiǎng)恿?。雖然Echo的造型設(shè)計(jì)中規(guī)中矩,但是Echo卻是聲學(xué)和智能相配的結(jié)合,智能僅是Echo的擴(kuò)展屬性,而刻意去掉的顯示屏更凸顯了Amazon對(duì)于語音交互的信心與執(zhí)著。這種戰(zhàn)略意識(shí)國內(nèi)還是普遍缺乏的,過分聚焦于Echo的功能差異確實(shí)很難復(fù)制Echo的成功,更何況國內(nèi)產(chǎn)品設(shè)計(jì)和策劃方面確實(shí)還不如Echo精致。
這里說的精致,真的是需要用心體驗(yàn)的。
舉一個(gè)例子,語音喚醒,國內(nèi)總喜歡標(biāo)榜超過了Alexa,然而,如果真拿指標(biāo)這件事情說事,國內(nèi)的產(chǎn)品虛警率飄高,莫名其妙的就誤喚醒,這蠻討厭,突然間一個(gè)音箱說話回應(yīng)你一個(gè)莫須有的問題,這種事情偶爾發(fā)生也是受不了的。至于工藝設(shè)計(jì)方面,每個(gè)人都有一個(gè)審美標(biāo)準(zhǔn),很難評(píng)判Echo和Home為何看著舒服,但是至少要比垃圾桶的音箱造型好看一些。
精心打磨一個(gè)生態(tài)鏈產(chǎn)品,除了需要考慮多方面的細(xì)節(jié),還需要集中自家的優(yōu)勢(shì)資源。比如說語音交互,國外巨頭不斷收購相關(guān)公司壯大實(shí)力,而國內(nèi)公司總是喜歡自家組建小團(tuán)隊(duì)搞定一切,試問精力如此分散如何才能超過國外的巨頭?何況語音交互壓根也不是搞搞深度學(xué)習(xí)就能解決的,這本身就需要對(duì)聲學(xué)和智能都有深刻的理解和長(zhǎng)期的積累才能做好。
|語音交互的現(xiàn)場(chǎng)感和即時(shí)性是關(guān)鍵因素,但是目前還是欠點(diǎn)火候
語音交互毋庸置疑是繼鍵盤、鼠標(biāo)和觸摸屏之后的主流交互方式,但是距離真正走入千家萬戶還總是差那么一點(diǎn)。
這里面有很多因素,比如說廠商總覺得語音交互根本沒有智能,事實(shí)確實(shí)也是如此。世界上還沒有任何一家公司能讓語音交互做到不傻,語音智能的水平仍舊停留在關(guān)鍵詞的內(nèi)容識(shí)別和上下文分析,所謂的語法和語感學(xué)術(shù)界都還沒有清晰的思路。這需要長(zhǎng)久的研究突破,不僅限于當(dāng)前火熱的機(jī)器學(xué)習(xí)和大數(shù)據(jù),更需要考慮物理世界的概念和模型,最起碼也要明白嬰兒學(xué)習(xí)語言的過程。從這個(gè)思路來看,現(xiàn)在的人工智能距離實(shí)現(xiàn)真正的智能語音交互還差著十萬八千里。
很多時(shí)候我們給予大數(shù)據(jù)和深度學(xué)習(xí)過高的贊譽(yù),反而讓眾多的研究人員犯了懶,這個(gè)世界從來不是搞搞數(shù)據(jù)就能明白的,對(duì)物理世界的探索,對(duì)人類哲理的思考,才是推動(dòng)社會(huì)進(jìn)步的力量。
上述或許只是個(gè)共性,Amazon Echo其實(shí)也面臨同樣的困境,甚至還有很多人批評(píng)Echo的語音合成也不夠好,因?yàn)槿祟惪傁M约旱脑捳Z能得到類似的回應(yīng)。不能說Amazon不重視這個(gè)問題,事實(shí)上Amazon強(qiáng)化了另一層面,不是語音合成的自然程度,而是語音回答的反應(yīng)速度。語音合成當(dāng)前確實(shí)很難做到如同人類一樣自然,但是距離這個(gè)目標(biāo)也不太遙遠(yuǎn)。上個(gè)月Google發(fā)布WaveNet引起語音合成領(lǐng)域的震動(dòng),這是一個(gè)新的思路。在此之前,語音合成已經(jīng)很長(zhǎng)時(shí)間沒有任何實(shí)質(zhì)性的進(jìn)步,無非就是參數(shù)化和拼接式兩種方法。這幾種方法筆者在《如何評(píng)價(jià)谷歌的語音合成WaveNet和微軟的語音識(shí)別“里程碑”?》做了對(duì)比分析,不過,事實(shí)上這不是現(xiàn)階段用戶關(guān)心的重點(diǎn)。
事實(shí)證明,Amazon Echo的押注選擇是正確的,用戶更為關(guān)心的是人機(jī)對(duì)話的現(xiàn)場(chǎng)感,從指標(biāo)上來分析,其中一個(gè)重要參數(shù)就是機(jī)器的響應(yīng)速度,Echo剛開始是5秒,后來壓到1.5秒,再后來就是1秒以內(nèi),注意這是平均響應(yīng)時(shí)間,而不是國內(nèi)的峰值指標(biāo)。
人機(jī)對(duì)話的現(xiàn)場(chǎng)感挺有意思,有時(shí)候也會(huì)說成沉浸感,這從人類語言對(duì)話的發(fā)展歷程可以窺得一斑。我們知道,語言交流是人類交互最主要的方式,是人類交換信息、學(xué)習(xí)知識(shí)最主要的途徑,但是由于語言太過時(shí)效性,記載功能太差,與之伴隨逐漸就形成了文字。由于語言的時(shí)效性,所以語言交流往往是面對(duì)面即時(shí)完成的。當(dāng)然,現(xiàn)在人類擁有了電話,但是即便有了電話之后,語言交流仍然保持著即時(shí)性。也就是說,電話其實(shí)就是人類語言交流的距離拓展,但是沒有改變語言交流的即時(shí)屬性,所以電信和互聯(lián)網(wǎng)的發(fā)達(dá)本質(zhì)上來說仍然是在享有這種紅利。
當(dāng)然了,電信和互聯(lián)網(wǎng)的技術(shù)還很難做到人類語言交流的水平,很多時(shí)候破壞了這種即時(shí)性。技術(shù)上常常稱為單工或者雙工模式,單工的時(shí)候?qū)υ捳叩恼Z言是“互斥”的,不會(huì)出現(xiàn)聲音的重疊和打斷。顯然,以Siri和Echo為主的人機(jī)語音交互,就是這種單工模式。單工模式無法提供面對(duì)面交流時(shí)的暢快感和現(xiàn)場(chǎng)感,也就缺少一部分“對(duì)話”的體驗(yàn)。雙工模式實(shí)際上是希望改變這一點(diǎn),但是目前來看與人類還是有不少差距的,這些都是需要技術(shù)去克服的難點(diǎn)。
既然語音交互的現(xiàn)場(chǎng)感當(dāng)前還無法做到人類水平,自然就希望先把機(jī)器回答的時(shí)間縮短,再次提醒這個(gè)指標(biāo)要用平均時(shí)間,而且必須穩(wěn)定可靠。這是至關(guān)重要的,試問你會(huì)和一個(gè)半天時(shí)間才冒出一句的機(jī)器對(duì)話嗎?應(yīng)該不會(huì),這會(huì)讓你崩潰,即便對(duì)方是人類也不行,或許還會(huì)涉及到尊嚴(yán)問題。顯然,當(dāng)前階段人工智能還不能追求模仿人類智慧,這有太多的物理和哲學(xué)難題沒有解決,也不要杞人憂天爭(zhēng)論什么“奇點(diǎn)理論”,機(jī)器威脅人類還是漫長(zhǎng)的過程,考慮這些之前,不如先想想如何解決產(chǎn)品中的每個(gè)關(guān)鍵問題。
|東西方的文化差異也制約了國內(nèi)語音智能交互技術(shù)的發(fā)展
國內(nèi)外對(duì)于智能音箱的理解或許還有更多差異,但是當(dāng)東方人嘗試使用智能音箱的核心——語音智能助手的時(shí)候,這里還有個(gè)文化阻礙的問題,這或許是東西方文化差異的結(jié)果。理解這點(diǎn)之前,我們先把語音和語言區(qū)分一下,語音(Speech)是語言(Language)的信號(hào)載體,語音是人的發(fā)音器官發(fā)出的,承載一定的語言意義,而語言才承載人類的智慧。通俗的講,語音是天生就存在的,嬰兒的咿呀咿呀也算是語音,甚至其哭聲也代表一定的意義,而語言則是需要學(xué)習(xí)不斷進(jìn)化的。人機(jī)語音交互實(shí)際上就是語言的交互,即便語音識(shí)別做到100%,對(duì)于理解語言來說也沒有具體意義,何況語言總是個(gè)性的、場(chǎng)景的和情緒的。
語言是社會(huì)文化的產(chǎn)物,離開了文化就沒什么語言可言了。語言又是社會(huì)文化的寫照,不僅反映社會(huì)文化的形態(tài),而且語言結(jié)構(gòu)也反映了人們的價(jià)值觀念。顯然,不同國家的語言習(xí)慣是千差萬別的,由于各民族生活的環(huán)境不同,由此而形成的文化內(nèi)涵和語言習(xí)慣自然不同。毫無疑問,東西方由于文化的巨大差異,其語言表達(dá)方面也存在巨大的差異。而這種差異也決定了類似Echo這類語音智能助手的普及速度。
東方文化總是含蓄的,和西方直接表述不同,我們總喜歡拐彎抹角的表達(dá)意思。“是”時(shí)不說“是”,卻說“不是”。“不是”時(shí)不說“不是”,卻總說“是”,這讓熱戀中的東方男生時(shí)不時(shí)的就會(huì)崩潰。事實(shí)上,東方人的處事哲學(xué)中最重要的一點(diǎn)就是“話到嘴邊留半句”。這可苦了語音智能助手,很多時(shí)候當(dāng)東方人面對(duì)Echo這類智能音箱的時(shí)候,據(jù)我們大量實(shí)驗(yàn)觀察,真的是還需要仔細(xì)思考一下才會(huì)出口。
這已經(jīng)超越了任何技術(shù)的范疇,相比西方人來說,東方人使用語音智能產(chǎn)品面臨著更大的心理障礙。與西方人覺得機(jī)器不夠聰明不同,而東方人面對(duì)這類產(chǎn)品的表現(xiàn)更為含蓄和尷尬。再加上當(dāng)前語音交互的現(xiàn)場(chǎng)感和即時(shí)性確實(shí)還不夠好,更是加劇東方人這種心理上的障礙。這種障礙導(dǎo)致東方人使用Echo這類語音智能產(chǎn)品的時(shí)候,很難連續(xù)說出超過十句不同的表述。
事實(shí)上,東西方的二次元文化差異也折射了語音智能助手在東西方的不同地位。西方的動(dòng)漫,比如說變形金剛,實(shí)際上就是典型的人機(jī)語音交互,而諸如鋼鐵俠、星球大戰(zhàn)等等都有人和機(jī)器人的自然語音交互。反觀東方的二次元文化,比如圣斗士星矢和最終幻想,更多的還是強(qiáng)調(diào)人人之間的交互和表達(dá)。從這個(gè)層面來看,東方相比西方,整體來說,人機(jī)對(duì)話和人工智能方面的普及教育要差很多,自然,東方大眾對(duì)于語音智能助手的認(rèn)同就不如西方。
國內(nèi)的智能音箱或者說語音智能助手還在早期市場(chǎng)教育階段,前面還有一段滿是荊棘的小路去趟,即便明知有坑,或許也會(huì)跌落不少先驅(qū),但是腳步必須邁出去,前景必然是美好的。趟路的過程,或許需要很大的犧牲,才能培養(yǎng)出一大波的技術(shù)人員、營銷人員,積累出一大批鐵桿用戶。這個(gè)戰(zhàn)略布局國外已經(jīng)提前走了一步,國內(nèi)也不要總幻想著彎道超車,哪有那么多彎道,別人也不傻,踏踏實(shí)實(shí)地邁出堅(jiān)實(shí)的步伐即可。
國內(nèi)互聯(lián)網(wǎng)發(fā)展其實(shí)也這樣走過,BAT也并非各個(gè)領(lǐng)域最早的開拓者,而是踏著先驅(qū)再不斷發(fā)展壯大。不好預(yù)計(jì)這個(gè)趟路過程需要持續(xù)多久,畢竟不是預(yù)測(cè)國足的比賽結(jié)果,但是相信會(huì)比互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的過程都會(huì)更快。