国内精品91久久久久,国产麻豆免费视频,中文字幕日韩精品在线

Google發(fā)力智能識別：Cloud Speech API正式發(fā)布

責(zé)任編輯：editor004

作者：Kent Weare

2017-05-12 11:53:31

摘自：INFOQ

它采用兩種語音輸入模式：實時數(shù)據(jù)流模式，在用戶說話的同時，就以提示的方式給出說話的文本內(nèi)容。由此，可為汽車經(jīng)銷商的銷售團隊創(chuàng)建切實可行的問題洞察，并根據(jù)每次通話確定客戶的情感。

　Google在近期的博客帖子中，宣布它們的Cloud Speech API正式發(fā)布。Cloud Speech API允許開發(fā)人員添加預(yù)先訓(xùn)練好的機器學(xué)習(xí)模型，用于視頻、圖像和文本分析中的識別任務(wù)，并可實現(xiàn)動態(tài)翻譯。Cloud Speech API曾于去年夏天以測試版發(fā)布。

Cloud Speech API使用了基于神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)，該技術(shù)源自于Google自身的語音產(chǎn)品Google Assistant和Google Home。Cloud Speech API服務(wù)當(dāng)前支持超過80種語言及其變種。它采用兩種語音輸入模式：

實時數(shù)據(jù)流模式，在用戶說話的同時，就以提示的方式給出說話的文本內(nèi)容。 批處理模式，實現(xiàn)將錄制的語音轉(zhuǎn)錄為文本的功能。

通過對背景噪聲的過濾，該服務(wù)在有噪音的環(huán)境中也能正常工作。此外，通過在詞典中新添單詞或短語，該服務(wù)也可以從單詞和短語提示中進行學(xué)習(xí)。

Google在正式發(fā)布中添加了一些新特性，并從如下方面改進了性能：

提高了長語音轉(zhuǎn)寫為文本的準(zhǔn)確性；更快的處理速度，在批處理場景中比前期版本要快三倍；擴展了支持的文件格式，現(xiàn)在支持WAV、Opus和Speex。

在近期的Google Cloud Next 2017大會上，Google的產(chǎn)品經(jīng)理Dan Aharon做了一個演講，其中介紹了Cloud Speech API的一些用例，包括使用移動設(shè)備的人機交互，以及Web和IoT應(yīng)用。該服務(wù)也已用于生成客戶服務(wù)業(yè)務(wù)中的語音分析。

　　圖片來源： https://www.youtube.com/watch?v=7w_w01EGC7U的截圖。

Aharon還探討了推動語音應(yīng)用發(fā)展背后的原因，以及為什么說語音應(yīng)用現(xiàn)在達(dá)到了一個拐點：

語音更快速（可達(dá)每分鐘150個單詞，輸入只能達(dá)到每分鐘20到40個單詞）；易于應(yīng)用（無需操作各層的用戶界面）；更便捷（操作無需占用雙手）；現(xiàn)在超過20%的Android應(yīng)用搜索是使用語音完成的； Google Home、Google Pixel和Amazon Echo等“隨時傾聽”（Always Listening）設(shè)備正成為主流應(yīng)用。

Google還演示了一些用戶場景，以此展現(xiàn)了Cloud Speech API的功能。給出的第一個例子是一個名為“Azar”的移動設(shè)備上的聊天應(yīng)用。用戶可以使用Azar與他人開展實時視頻聊天。Azar不僅提供視頻流和音頻流，用戶還可以選取語言進行語音轉(zhuǎn)錄。迄今為止，Azar已實現(xiàn)了超過150億次的配對聊天，具備了大規(guī)模提供服務(wù)的能力。

　　圖片來源： https://www.youtube.com/watch?v=7w_w01EGC7U的截圖。

Google演示的另一個用例關(guān)注的是客戶服務(wù)?，F(xiàn)在很多企業(yè)在通過電話提供客戶服務(wù)時，首先會給出一個提示，告知用戶為實現(xiàn)滿意的客戶服務(wù)，之后進行的對話將會被錄音。但是企業(yè)是如何處理這些錄音數(shù)據(jù)的？InteractiveTel的CTO Gary Graves指出，通常只有在與客戶發(fā)生爭執(zhí)時才會復(fù)審這些錄音。但是在Graves看來，這種做法會令汽車經(jīng)銷商等企業(yè)失去不少商機：

不僅可使我們的汽車經(jīng)銷商客戶完成更多銷售量，而且會轉(zhuǎn)變工作心態(tài)，因為經(jīng)銷商中的每個員工都要負(fù)起責(zé)任。經(jīng)銷商需要部署對記錄或監(jiān)控的解決方案，并且讓員工知道已部署了這樣的方案。但是目前對信息的使用是響應(yīng)式的，即只有在存在問題時才會借助于這些信息。如果使用了Cloud Speech服務(wù)，就可以從這些對話信息中挖掘出可用的情報，經(jīng)銷商可以授權(quán)銷售人員提供更主動的服務(wù)，提升客戶服務(wù)的層級。

InteractiveTel的產(chǎn)品為汽車經(jīng)銷商提供了對通話進行轉(zhuǎn)錄和情感分析的解決方案，可以將實時進行的電話通話提交使用了Google Speech API的InteractiveTel平臺。由此，可為汽車經(jīng)銷商的銷售團隊創(chuàng)建切實可行的問題洞察，并根據(jù)每次通話確定客戶的情感。

Google Speech