谷歌在2009年推出了支持語音的搜索服務,蘋果公司在2011年發布的iphone4上推出siri語音助手,。這標志著語音技術研發新一輪熱潮的興起。隨后,基于語音識別等技術的智能自然交互得到前所未有的廣泛關注和應用。
在可以預見的未來幾年內,語音技術將滲透到工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等眾多領域。
隨著大數據時代的到來和計算能力的大幅提升,語音技術的發展將迎來多個新挑戰,具體有以下三方面:
大數據促使語音技術做出哪些改變?隨著大數據時代的到來,數據會越來越多,并且會更加接近用戶。中國工程院院士高文指出,預計到2020年,整個網絡中的各種數據會比現在增加50倍。
據gartner(美國一家從事信息技術研究和咨詢的公司)對2014年及未來的重大預測,今年的語音識別應用將會翻倍;到2017年,10%的計算機將具備一定的學習能力;到2020年,從可穿戴設備獲取的消費者數據將推動來自全球1000強的5%的銷售。
因此,語音技術將會順應時代的發展,在研發模式上不僅具備大數據處理能力,而且要具備演進式的學習能力。
語音技術可以為大數據時代做些什么?大數據時代網絡上的音視頻已經達到驚人的規模:在youtube(視頻網站)上每天上傳的視頻已經超過86萬小時,而在netflix(在線影片租賃提供商)上人們每天觀看的視頻節目也已經超過2200萬小時。
為了給人們提供操控這些音視頻大數據資源的途徑,僅僅依靠圖像和視頻技術遠遠不夠的,語音檢索可以為音視頻大數據的內容分析和檢索提供有效手段。
大數據時代真正語音交互還缺什么?語音交互將會在移動互聯網、智能家電、汽車電子、智能客服和可穿戴設備等多個領域得到應用。除了語音識別,真正的語音交互同時還依賴于其它多項技術的發展,如遠講和噪聲處理技術、自然口語理解、自動問答、信息檢索等。
同時,對于智能眼鏡和智能手表等可穿戴設備,語音功能將是必不可少的。但是這些可穿戴設備的續航能力也是繞不開的問題。對資源的消耗能做到多“小”,則是制約是否能得到實用的關鍵因素。因此,除了語音技術,大數據時代的語音交互還必須得到各種緊密相關技術的支持。
這些挑戰同時也為語音技術在大數據時代的發展帶來了機遇。上述問題解決了之后,語音技術將會滲透到人類生活的方方面面,為人們的日常生活和工作帶來極大便利,進一步推動社會進步。