Sam Lessin 最近寫了一篇叫做 Time to Hang Up on Voice(是時候和語音說再見了)的文章,稱語音不可能是未來 UI 交互的發(fā)展趨勢。他主要提出了 3 個理由:第一,語音在公共場所嘈雜的壞境下很難被機(jī)器分辨和翻譯,同時公共場所人多耳雜,用戶隱私是一大問題;第二,對著機(jī)子說話比直接打字或者使用手勢的效率來得低;第三,鍵盤這類工具更適合文字編輯。
但是 Redpoint VC 的 Tomasz Tunguz 有截然相反的看法。他在 The Fastest User Interface 一文中指出,Sam Lessin 只要考慮到一點(diǎn)就知道自己錯了:速度。
語音輸入要比文字輸入來得快。Barbara Blackburn 擁有打字速度最快的世界紀(jì)錄,也就每分鐘 212 個單詞,而說話速度最快的世界紀(jì)錄得主 Steve Woodmore 每分鐘可以說 637 個單詞。也就是說,在人類自身的極限上,語音要比文字快 3 倍。而正常的普通人,打字速度大概在 30-40 個單詞 / 分鐘,說話速度大概在 120 個單詞 / 分鐘,依然是 3 倍關(guān)系。可見,這一比率關(guān)系是比較穩(wěn)定的。
當(dāng)然有同學(xué)要說 Tomasz Tunguz 耍賴了,因?yàn)榇蜃炙俣瓤梢曰巨D(zhuǎn)化為 UI 交互速度,說話說多快就不見得 UI 交互能多快了吧,機(jī)器還要翻譯語音的時間呢。但我想指出的是,我們的討論是基于未來的 UI 發(fā)展,未來的語音技術(shù)會大面積減小語音轉(zhuǎn)化為交互的時間,而文字輸入幾乎已經(jīng)沒有多少可以提升的空間了。
Tomasz 認(rèn)為,正是因?yàn)樗俣鹊脑颍覀兏?xí)慣給別人打電話而不是發(fā)郵件。他嘗試學(xué)習(xí) Dvorak 來改進(jìn)打字的速度,但發(fā)郵件比起打電話還是慢太多了。也因此,語音郵件看起來似乎更有吸引力,更方便,也更人性化。
他還指出,Siri 和谷歌語音搜索的成功也是受益于語音的速度。使用語音搜索時,每日搜索量將達(dá)到驚人的數(shù)以億計(jì)。直接說“導(dǎo)航到 XXX”或者“查詢舊金山的天氣情況”畢竟要比在狹小的鍵盤上一個一個的打字來得快得多。
至于公共場所的語音問題,Tomasz 認(rèn)為,我們事實(shí)上早就習(xí)慣了這一點(diǎn)。因?yàn)殡娫捲缫寻l(fā)明了一百多年了。聲音去噪技術(shù)和社會道德意識讓聲音保真和隱私問題不再難以解決。
對于語音,真正的挑戰(zhàn)其實(shí)是編輯問題。文字的再編輯很直觀、很容易,語音如果想進(jìn)行修正和再編輯,難度就高得多。如果再編輯的內(nèi)容過多的話,語音結(jié)合鍵盤和鼠標(biāo)或許是個好方式,起碼會比單純使用鍵盤來得快。
事實(shí)上,語音永遠(yuǎn)不會成為單一的 UI 交互方式。如果兒童在學(xué)校都利用語音代替打字的話,后果將難以想象。語音可能永遠(yuǎn)無法成為顯性的 UI 交互方式。
但隨著語音識別技術(shù)的發(fā)展,MotoX,Moto Hint 和 Google Glass 的面世,語音因?yàn)樗俣瓤斓膬?yōu)點(diǎn)在未來的 UI 交互和人機(jī)交互上一定會變得越來越重要。
我十分同意上面的最后一段話。未來的 UI 交互一定是多種方式相結(jié)合來進(jìn)行的,而語音會是其中重要的一種交互方式。打字、手勢操作、語音、眼球、腦電波等等多種交互方式的融合,或許會是未來界面設(shè)計(jì)的趨勢。歡迎同樣腦洞大開的同學(xué)和我一起探討。