Cloud Speech API使用了基于神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù),該技術(shù)源自于Google自身的語音產(chǎn)品Google Assistant和Google Home。Cloud Speech API服務(wù)當(dāng)前支持超過80種語言及其變種。它采用兩種語音輸入模式:
實時數(shù)據(jù)流模式,在用戶說話的同時,就以提示的方式給出說話的文本內(nèi)容。 批處理模式,實現(xiàn)將錄制的語音轉(zhuǎn)錄為文本的功能。通過對背景噪聲的過濾,該服務(wù)在有噪音的環(huán)境中也能正常工作。此外,通過在詞典中新添單詞或短語,該服務(wù)也可以從單詞和短語提示中進行學(xué)習(xí)。
Google在正式發(fā)布中添加了一些新特性,并從如下方面改進了性能:
提高了長語音轉(zhuǎn)寫為文本的準(zhǔn)確性; 更快的處理速度,在批處理場景中比前期版本要快三倍; 擴展了支持的文件格式,現(xiàn)在支持WAV、Opus和Speex。在近期的Google Cloud Next 2017大會上,Google的產(chǎn)品經(jīng)理Dan Aharon做了一個演講,其中介紹了Cloud Speech API的一些用例,包括使用移動設(shè)備的人機交互,以及Web和IoT應(yīng)用。該服務(wù)也已用于生成客戶服務(wù)業(yè)務(wù)中的語音分析。
圖片來源: https://www.youtube.com/watch?v=7w_w01EGC7U的截圖。
Aharon還探討了推動語音應(yīng)用發(fā)展背后的原因,以及為什么說語音應(yīng)用現(xiàn)在達(dá)到了一個拐點:
語音更快速(可達(dá)每分鐘150個單詞,輸入只能達(dá)到每分鐘20到40個單詞); 易于應(yīng)用(無需操作各層的用戶界面); 更便捷(操作無需占用雙手); 現(xiàn)在超過20%的Android應(yīng)用搜索是使用語音完成的; Google Home、Google Pixel和Amazon Echo等“隨時傾聽”(Always Listening)設(shè)備正成為主流應(yīng)用。Google還演示了一些用戶場景,以此展現(xiàn)了Cloud Speech API的功能。給出的第一個例子是一個名為“Azar”的移動設(shè)備上的聊天應(yīng)用。用戶可以使用Azar與他人開展實時視頻聊天。Azar不僅提供視頻流和音頻流,用戶還可以選取語言進行語音轉(zhuǎn)錄。迄今為止,Azar已實現(xiàn)了超過150億次的配對聊天,具備了大規(guī)模提供服務(wù)的能力。
圖片來源: https://www.youtube.com/watch?v=7w_w01EGC7U的截圖。
Google演示的另一個用例關(guān)注的是客戶服務(wù)?,F(xiàn)在很多企業(yè)在通過電話提供客戶服務(wù)時,首先會給出一個提示,告知用戶為實現(xiàn)滿意的客戶服務(wù),之后進行的對話將會被錄音。但是企業(yè)是如何處理這些錄音數(shù)據(jù)的?InteractiveTel的CTO Gary Graves指出,通常只有在與客戶發(fā)生爭執(zhí)時才會復(fù)審這些錄音。但是在Graves看來,這種做法會令汽車經(jīng)銷商等企業(yè)失去不少商機:
不僅可使我們的汽車經(jīng)銷商客戶完成更多銷售量,而且會轉(zhuǎn)變工作心態(tài),因為經(jīng)銷商中的每個員工都要負(fù)起責(zé)任。經(jīng)銷商需要部署對記錄或監(jiān)控的解決方案,并且讓員工知道已部署了這樣的方案。但是目前對信息的使用是響應(yīng)式的,即只有在存在問題時才會借助于這些信息。如果使用了Cloud Speech服務(wù),就可以從這些對話信息中挖掘出可用的情報,經(jīng)銷商可以授權(quán)銷售人員提供更主動的服務(wù),提升客戶服務(wù)的層級。
InteractiveTel的產(chǎn)品為汽車經(jīng)銷商提供了對通話進行轉(zhuǎn)錄和情感分析的解決方案,可以將實時進行的電話通話提交使用了Google Speech API的InteractiveTel平臺。由此,可為汽車經(jīng)銷商的銷售團隊創(chuàng)建切實可行的問題洞察,并根據(jù)每次通話確定客戶的情感。