如今,通過蘋果Siri和Google Now這樣的工具,我們可以通過聲音控制智能手機,完全不用觸摸手機就可以搜索網頁、獲取簡單問題的答案以及更新在線日歷。至少在某些時候,這些工具還是能達到廣告中宣傳的效果。但是在使用臺式電腦時,語音控制仍然遙不可及。
現在很多計算機內置了語音識別軟件,可以讓用戶控制一些操作,但是Zachary Pomerantz的目標不止如此,通過一項名為JuliusJS(一個幫助軟件開發者打造用于網頁瀏覽器的語音控制應用程序的工具)的開源項目,他希望形成一個適用于臺式電腦的Siri等應用程序的全新潮流。
如今,當開發者向網頁應用程序添加語音控制時,很少有能做到這一點的好辦法。現代的瀏覽器內置了部分語音控制工具,但它們總是依賴某種遠程服務(比如由Google Now的服務),在一個遠程服務器上進行基礎語音處理,這涉及到整個網絡的流媒體語音,經常會降慢處理速度。
JuliusJS能解決這個問題,它是一個在瀏覽器內運行的代碼庫,使用的是常見的網頁標準,幾乎可以在任何一臺機器上運作。使用這個代碼庫,開發者可以打造從網站導航及將語音控制添加到游戲中的工具,還能做一些沒人想過的事情。
Pomerantz是編程學校Hack Reactor的“專職黑客”,他是在今年早些時候嘗試語音控制軟件時萌生了這個想法。“我想改進語音識別的狀況,并了解它如何工作,”他說道。他正嘗試創建一個簡單的程序,可以聽到特定的關鍵詞并忽略其他輸入,就像Google Now一樣,你說出“OK Google”時它才會活躍起來。這個概念被稱為“關鍵字定位”。
他遇到的問題是,需要遠程語音服務的工具往往會過快地陷入困境。他真正需要的是一種完全在瀏覽器內進行語音處理的方法,而不需要通過互聯網發送音頻。所以,他決定修改一個現有的開源語音平臺Julius,將其從C編程語言轉為JavaScript(網頁瀏覽器的通用語言),而沒有創建一個關鍵字定位系統。要做到這一點,Pomerantz使用了另一個名為Emscripten的開源軟件自動翻譯大部分的原始代碼,然后,他寫了一些額外的代碼,以確保網頁和該平臺能很好地配合。
到目前為止,JuliusJS只能識別樣本字典內的一些詞語。程序員如果想要更多,他們就必須擴大軟件的詞匯。但這是一個開源項目,還會繼續生長。