Amazon的Echo意外獲得了成功之后,現(xiàn)在大家都在跟風(fēng),就連大廠Google也在前幾天發(fā)布了自己的Google Home,其實就是一個Echo的翻版。其實這兩個產(chǎn)品的最大的特色并不是語音對話,而是更自然的交互,也就是遠場的語音識別。
語音對話從Apple的Siri開始,那是很久以前的事了,那一年喬布斯還在世。現(xiàn)在在智能手機里面已經(jīng)是標(biāo)配了,我個人覺著國外Google做的好一點,Microsoft和Apple也還可以,Amazon倒是后起之秀;國內(nèi)訊飛和百度差不多,騰訊和阿里都在自己研發(fā)類似技術(shù),還有一些小公司也在做。除了語音助手,智能電視遙控器里面也很普及,比如按住小米電視遙控器的Home鍵,然后就可以說要看什么電視劇或者電影,系統(tǒng)就會幫你找到。
但是不論是手機上的語音助手還是電視等設(shè)備的遙控器,用戶對于語音的接受度并不高,只有百分之幾的使用率。
我覺著原因第一是體驗不夠好,尤其是在國內(nèi),對話的體驗很差,經(jīng)常上句不接下句,做個Demo還可以,日常用經(jīng)常要罵娘。
第二是有可以替代的體驗,手機上可以觸摸,電視上可以上下左右選擇,還都有很好的屏幕的視覺反饋,語音并不是必須的。
那為啥同樣的技術(shù)放在智能家居里面大家就覺著這個體驗好了呢,我猜有兩個原因:
一是智能家居用戶基數(shù)少,以能折騰的玩家為主,對于語音的接受度高,用戶的學(xué)習(xí)能力也強,就算是體驗不好用戶也能自我糾正。
二是遠場語音識別的體驗已經(jīng)可用了,而音箱這樣的設(shè)備并沒有別的輸入輸出形式,只能用語音,沒有比較也就沒有互相傷害。
遠場語音識別主要靠的是硬件,靈敏度更好的麥克風(fēng)陣列,可以定向識別語音,強大的噪聲消除算法,可以在有環(huán)境噪音的時候分辨出人聲。這類硬件成本目前還在人民幣一百元以上,而普通的一個麥克風(fēng)也就幾塊錢成本,這也就是為什么帶遠場語音識別的設(shè)備都比較貴了。即使是有了好的硬件,也要做一些體驗的優(yōu)化,比如喚醒詞,音節(jié)越多對比越大越好,Amazon的Echo的喚醒詞是“Alexia”,Google Home的喚醒詞是“OK Google”,這樣才能保證高的準(zhǔn)確率和低的誤識別率。
插播廣告,小米生態(tài)鏈企業(yè)上海創(chuàng)米做了一個高端的攝像頭,名字叫小白。設(shè)計的時候也有語音識別功能,放了兩個麥克風(fēng),用的是訊飛的語音識別算法,已經(jīng)是國內(nèi)最好得了。實際測試的時候發(fā)現(xiàn),只能在一米以內(nèi)才能把提體驗做好。喚醒詞最早的時候是“小白”,實測發(fā)現(xiàn)誤識別率很高,后來改成了“小白小白”,好了一些。鑒于它是一個攝像頭,最終改成了“小白看過來”,它聽到后會把頭轉(zhuǎn)過來,還是很萌的,有這款產(chǎn)品的可以試試。研發(fā)團隊正在研發(fā)二代,估計會加入遠場語音識別,價格也會高一兩百塊錢。
廣告結(jié)束,說一下我的一點淺見。
這類語音對話設(shè)備只是一個開始,將來也未必是音箱這種形態(tài),關(guān)鍵是技術(shù)成熟,成本用戶可以接受。這樣你可以對著空調(diào)說話,對著燈說話,它們都會聽你的,仿佛這些設(shè)備都有了生命。而用戶也很自然的接受這些設(shè)備是可以對話的,那個時候才是語音對話設(shè)備的爆發(fā)期。
用戶對于這類體驗的向往已經(jīng)有了上千年,也體現(xiàn)在很多文學(xué)作品里面。比如《白雪公主》,里面的女王有一個魔鏡,那就是一個非常典型的語音識別設(shè)備,喚醒詞是“魔鏡、魔鏡告訴我”,可能當(dāng)時的技術(shù)還不太成熟,要這么多音節(jié)才能喚醒。魔鏡背后是強大的搜索能力,比如“誰是世界上最美麗的女人”,現(xiàn)在Google已經(jīng)有那么個意思了,強大的深度學(xué)習(xí)能力,回答這個問題是小菜一碟。除了搜索,還有其它服務(wù)的整合,比如百度還能給你送外賣。