你或許會因為蘋果Siri和微軟Cortana這樣的語音控制工具并不能總是明白你的意圖而感到沮喪,但是你要知道,現在的情況已經被以前好很多了。
今年早些時候,谷歌宣布它已經將語音識別的錯誤率降低到8%。
但是微軟著名工程師、首席語言科學家黃學東說,這是一項巨大的進步。黃學東說:“微軟首次將語音識別技術與Windows 95同時推出的時候,那時候的出錯率幾乎是100%。”
黃學東說,如果這樣算的話,也就是說語音識別技術的準確率在過去的20年里平均每年都在以20%的速度提高。
他說:“在未來的4到5年里,計算機在理解語音方面表現得將與真人無異。”
但是對于黃學東、微軟和整個技術界來說,語音識別技術的成功只是下一步工作的開始,他們的目標是開發出真正的人工智能。
黃學東說,當計算機和人類在理解力上完全對等的時候,語音科學世界才具備了更堅實的基礎,人類才能讓計算機具備真正的人工智能。
黃學東說:“理解一個單詞比理解一段話要容易得多。”
但是通過象Cortana、Google Now、Siri和亞馬遜Alexa這樣的工具,我們已經能夠讓很多消費者應用開始更好地理解用戶所說的話以及用戶想要表達的真實意圖。這意味著你可以跟計算機進行更加復雜的對話了。
這意味著我們已經處在一個無形革命的臨界點上,語音將成為一個能夠被計算機接受并且很有用的界面,人工智能將成為現實。
微軟一直在朝著這個方向努力。早在2001年的時候,比爾蓋茨就曾在消費電子產品展會上展示了一款名為MiPad的設備,這款設備配置了由黃學東率領的團隊開發的一種語言識別軟件。
雖然微軟后來并未發布MiPad,但是語言技術事業一直在向前進。
黃學東參與了微軟的牛津項目,這個項目涉及到很多用于影像識別和語音識別的機器習得工具。如果你登錄過微軟旗下的一些有趣網站比如How-Old.net或MyMoustache,你應該會有一些切身的體會。
牛津項目面向所有的開發商開放,開發商們可以將這項技術添加到他們自己的應用中。
就像微軟Cortana能夠聽懂你提出的問題并且給出答案一樣,牛津項目可以讓消費者應用、商用軟件和其他軟件開發商將語音技術植入他們的產品之中。
這意味著語音將作為一種界面出現在世人面前,它可以控制家中任何地方的任何設備。黃學東說,憑借著微軟牛津項目和作為其基礎的Azure云,微軟將成為這場革命的中堅力量。
黃學東說:“我們花了20年的時間才實現這個目標。”黃學東說,微軟在開發人工智能技術的同時,也已經開始探索下一步的前進方向。
實際上,他說微軟的Xbox Kinect感應器就是源自微軟研究部門想要開發出一種能夠理解語音和手勢的系統的想法。
黃學東相信,這最終會成為一種新的標準和常態。孩子們將在這些人工智能系統的伴隨下成長,它們將成為人與技術互動的一種標準方法。黃學東說:“我們正在創造新一代。”