精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

專訪云知聲CEO黃偉:如何打造人工智能「云端芯」生態閉環

責任編輯:xfuesx

2016-06-08 16:55:23

摘自:中國網

云知聲的技術研究  2012年底,我們把深度學習應用到了語音識別。這就是我們在 2014 年上半年確定的事情,在業內最早提出了云端芯的產品戰略,云是智能,端是交互,芯片就是傳感器和一部分智能。

 

云知聲 CEO 黃偉

 

一、云知聲的技術研究

2012年底,我們把深度學習應用到了語音識別。我們今天的技術架構都在使用增強學習。

機器之心:這幾年深度學習帶來了語音識別的巨大進步,云知聲是何時開始這方面研究的?

黃偉:2012 年 12 月底,我們把深度學習應用到了語音識別里,而且把它開放出來提供給第三方。這源于 2011 年,我去佛羅倫薩參加國際語音會議 Interspeech,當時和微軟研究員俞棟就深度學習的交流給了我很大信心,后來,云知聲在 2012 年 6 月份成立,9 月份我們發布語音識別平臺,之后緊跟著 10 月份我們就開始做深度學習。

那時,幾乎很少有創業公司敢于嘗試這個領域,而且我們當時的資源也很匱乏,我們自己用了一個普通的服務器,然后又買了幾塊 GeForce 顯卡,其實我們很早就開始用 GPU 了。2012 年年底,我們的深度學習系統將當時的識別準確率從 85% 提升到了 91% 。隨后在 2013 年 2 月份,我們做了微信上的第一個語音輸入插件,由于我們使用深度學習帶來了準確率的明顯提升,所以這款插件的用戶體驗非常好。

雖然我們很早把深度學習用于語音識別,但其實只是一個起步,當時公司剛剛成立幾個月,不可能積累很多數據,所以當時我們的訓練數據只有 800 小時,后來隨著我們不斷增加訓練數據,今天我們的識別準確率已經能達到 97% ,屬于業內一流水平,在噪音和口音等情況下性能也比以前更好。

機器之心:云知聲近期主要在做哪方面的研究?比如說自然語言處理方面?

黃偉:我們還是有些超前意識的,今年 1 月份,就在 AlphaGo 火爆之前,我們就成立了 AI Lab,為什么可以做?首先,2012 年我們開始做深度學習,今天我們人工智能所有的應用層面,圖像識別、人臉識別、語音識別、機器翻譯和語音合成,所有的技術框架都基于深度學習,只是數字信號不一樣而已。所以對我們來說,我們要從語音拓展到其他領域沒有任何問題,但只是說我們現在要意識到人工智能是未來,現在我們要做這樣的布局,這種布局不光是指你意識方面的改變,同時圍繞這個目標你還要做人才儲備和資源投入。從這方面來說,從去年開始我們一直對研發投入非常重視,每年在研發上的投入占到了 50% ,今年我們的研發投入預算和去年比超過了3倍。今年公司規模和團隊規模也在擴大,我們還會在硅谷設立辦公室,同時還會在一些新的技術方向進行儲備和投入。

關于自然語言處理,我們在 2013 年 9 月份就發布了語義云平臺,到目前為止我們在語言理解方面支持的領域超過 50 個,從 2013 年開始我們就在做這個事情。包括給樂視及其他廠商提供的解決方案里,都會包含信號處理的降噪部分、語音識別部分、語言理解部分、用于用戶反饋的語音合成部分、以及用戶畫像和聲紋識別等,我們提供的是完整的解決方案。

只是說,今天的語言理解我們還需要做的更好一些,比如以前做一些簡單對話,那后面你會做一些復雜對話或者多種對話,這個需要我們不斷投入。從技術來看,我們在語言理解方面,以及我們今天的技術架構都在使用增強學習。因為我們平臺每天會產生大量數據,我們會對這些歷史數據進行總結。但增強學習可以對未來數據進行預測。對于一個人工智能系統,你不能總是等犯錯之后再去糾正。從這個角度來講,增強學習是對未來一種行為的預測。這大大提升了我們對數據的利用效率。

二、云知聲的發展模式和產品思路

未來一切智能都是從芯片開始的,芯片的智能化一定是通過云端實現的,云端智能滲透到用戶里也一定是通過芯片實現。

機器之心:云知聲自一開始就堅持平臺策略,這種發展模式背后主要有哪些思考?

黃偉:我們是做公司,而非研究院,所以說技術指標只是 KPI 之一,我們還需要一些商業模式和產品模式的探索。

我們早在 2013 年就確定了平臺戰略,因為我認為人工智能的前提是感知智能,你一定要先完成數據的感知,那我們的平臺就是一種最好的收集數據的方式。當年 App 大行其道,我需要非常費力的去給很多投資機構解釋為什么我要做平臺,而不是 App 。原因在于:1)用語音識別技術去做 App 意味著我要有 80% 甚至更多時間精力放在和產品有關的事情上,但任何一個公司在初創期精力都是有限的,你不可能同時有研究院、工程院,還有產品部門。2)做 App 之前要明確語音在手機上是不是剛性需求?其實直到今天,我本人也都依然對此持懷疑態度,我認為手機是以觸碰為主,語音為輔的。3)我們認為平臺戰略的 B2B2C 方式是一種最快到達用戶的方式,既然語音在手機端不是剛性需求,那你不要指望它有多少自然下載量和活躍用戶,更不能指望它給你貢獻多少有用數據。但 B2B2C 這個方式就可以幫你和應用場景結合,產品由你的合作方來做,用戶由產品渠道來獲取。這樣的話,你就可以盡快的把用戶規模和基數擴大。

在采取了平臺戰略后,我們的發展非常快,2013 年時已經積累了接近 10,000 家合作伙伴,和搜狗、樂視、華為等國內眾多知名公司建立了合作關系。如果不是靠平臺而是自己做 App 的話,我們是不可能達到這樣一個量級的。

機器之心:云知聲的產品思路是怎樣的?是如何提出「云端芯」產品戰略的?

黃偉:上面講的是云知聲關于未來發展模式的探索,在產品方面我們也一直在思考。最近你會發現,包括出門問問的李志飛、Face++的印奇等,這些做了3-4年公司以上的創始人都不會再過分強調技術了。所以我要講的是,公司怎樣在產品方面找到一個適合自己的通道。

其實我們在 2013-2014 年往外走時發現了一些問題。首先,并不是所有用戶的場景都是聯網的,聯網不能解決所有問題;其次,SDK 的粘性比較弱,用戶的切換成本較低。也無法為用戶提供一種非常好的體驗,因為軟件能實現的功能畢竟是有限的,它可以模擬,但有時候必須要用硬件,甚至芯片級的去支持,軟件是做不到的。基于這個問題,我們在 2014 年開始思考,未來的語音智能,甚至是人工智能是從哪兒開始的,以前我們的想法是把它放在云端,用戶的數據回傳然后在云端進行識別,麥克風和傳感器等都是用戶的,但后來發現這中間是很容易割裂的。所以,經過這樣的思考我們認為,未來一切的智能其實都是從芯片端開始的,芯片的智能化一定是通過云端實現的,云端智能滲透到用戶里也一定是通過芯片實現。芯片既像一個耳朵(收集信息)同時也承擔了大腦的一部分功能。如果我們用 CPU 來模擬大腦功能的話,那我覺得大腦一定是由不同功能的 CPU 組合在一起的。從這個角度來講,那人工智能也應該留在某種芯片上面實現一部分智能,這個芯片既像傳感器(Camera和麥克風等),同時它也是大腦的一部分。

這就是我們在 2014 年上半年確定的事情,在業內最早提出了云端芯的產品戰略,云是智能,端是交互,芯片就是傳感器和一部分智能。

其實在那之前我對此也不是特別清晰,在 2014 年之前,我更多的還是想說怎么把技術做好,后來從 2012 年到 2014 年差不多兩年多的時間里,我們的基礎語音識別引擎已經步入正軌,后面只是算法的調試和數據的積累,把平均識別準確率繼續提升,還有語音識別應用領域的拓展。這些都沒有太多不確定性了。

這時對公司來說,最大的考驗就是如何確定你的商業模式和產品模式,如何把你的壁壘建造起來。2014 年之后我們就想的比較清楚了,那就是我們堅定的做「云端芯」這種產品戰略,所以在 2014 年我們在 B 輪融資中引入了高通作為戰略投資方,也給我們帶來了很多推動。

具體到「云端芯」,我們的服務是有「云端芯」三種,1)我們的技術有芯片級技術,比如說冷喚醒和打斷等;2)到一個終端軟件的交互層面,比如開車時萬一網絡不好,我們還有純離線的方案;3)還有一些復雜的請求是走云端。所以,我們給客戶提供的解決方案都是芯端云,并不是只賣一個芯片或者云端 SDK 之類,我們是把這個產品體系打通的。

機器之心:在確定了「云端芯」的產品戰略后,首先選擇了哪幾個重點應用方向?

黃偉:確定了云端芯戰略后,就基本確定了幾個應用方向,云知聲要做一個IoT領域的人工智能服務商,我們結合市場進度確定了幾個細分方向,智能家居和車載、醫療、教育。2015 年我們開始重點對這些方向進行研發和資源投入。

1)智能家居和車載

IoT 的交互看起來很簡單,但實際上面臨著很多難以解決的問題,這是在手機端做語音識別所接觸不到的,因為手機經過多年進化語音設備已經比較成熟,都是麥克風陣列,降噪也做的比較好,而且都是近場通話。對于智能家居來說,1)家庭中的冰箱空調等設備離用戶比較遠,存在聲波衰減的問題。2)客廳臥室是封閉環境,會因為聲波多次反射產生混響。如何在這種復雜的情況下,依然能夠有很好的信號捕捉能力和環境噪音抑制能力。此外,如果考慮要在產業中落地,那就一定要考慮功耗和成本等,在資源消耗和你想達到的表現之間永遠是不匹配的。

要解決其中的每一個點都面臨著非常大的挑戰,比如亞馬遜 Echo 上多麥克傳感器的供應商,那家公司只做這個就是一家獨角獸公司了。云知聲付出了巨大努力,花了一年多時間去重點解決這些問題,在 2015 年回顧時已經做得很不錯了。

去年上半年,我們和樂視合作了第三代智能交互電視,用戶可以用只有一個按鈕的語音遙控器來代替傳統遙控器,我們把 AI 芯片放在了電視機里,上面還包含了麥克風陣列,一般客廳的正常范圍有 3-5 米,你可以把它想象成一個遠講的 Siri ,這是國內第一家推出來的。現在,除了樂視,我們的 AI 芯片和格力、美的、華帝、海爾、海信等都進行了合作,海信發布的智能空調三大標準中的智能語音交互部分用的也是我們的方案。今年家博會上,格力、美的等六家較大家電廠商有五家帶著使用我們 AI 芯片的樣機來參展。

另外,車載也是一個很重要的方向,它是家庭環境的延展,如果說在家居里面我們考慮更多跟硬件相關的東西,包括穩定性和功耗等,那么在車載場景下我們考慮更多的是交互性,因為開車的場景很特殊,雙手被占用,如何在這種情況下把交互做到流暢就非常重要了。我們在 2014 年底確定做車載后,在 2015 年初我們開始大力投入研發,6 月份正式小批量出貨,截止到去年 12 月份,在整個中國的車載后裝市場,比如像行車記錄儀、導航儀、后視鏡和 HOD 等,我們的設備超過了100萬臺,在車載后裝市場上擁有 60% 以上的市場份額。

2)醫療

首先,醫療是個很大的市場;其次,中國很多疑難雜癥沒有攻克有一部分原因是我們的病例本身沒有電子化。雖然現在醫院有 HIS 系統,內科有電子病歷模板,但外科等多個科室是沒有病例電子模板的,依然需要醫生去打字。那更不用說一些需要操作設備的情況,比如說我在做手術,那我的術中診斷誰來記錄?此外,中國醫院還承擔著科研任務,這需要數據,但現在很多病例都沒有數據化。我們現在就在和國內頂尖醫院合作,完成對醫療數據的感知問題。我們做的系統是醫生和病患對話的實時轉寫,從醫患之間的病癥交流到醫生最后的處方病歷,醫生可以全部口述,我們系統的完成對整個醫療行為的記錄和存儲。

我們這方面投入了很多研發資源來做,醫療有它的技術難點,語音識別是分領域的,你的引擎之前在日常對話、交通和音視頻搜索里面做得非常好,但你放到醫學領域就一團糟。因為醫學里有太多專有名詞,很多名詞非常拗口。我們在引擎上做了很多方面的優化,到今天為止,我們的準確率達到 95% ,因為你達不到這個指標,轉錄之后還要醫生花很多時間去糾正的話,醫生就會抵觸。此外還有其他方面,比如專門定了醫療麥克風,滿足醫院場景的專業需求,在產品設計的細節方面也需要考慮,比如麥克風位置怎么放?如何不干擾它?是移動式的還是放在桌子上?

從未來價值來看,這套系統有助于以后做醫療大數據挖掘等其他很多工作。同時它在當前也擁有很大的經濟價值。去年第四季度,這套系統在協和醫院四個重點科室上線試用了一個季度,最后協和醫院的評估報告顯示平均每天每個醫生節約兩個小時。目前每個病人的平均就診時間是幾分鐘,那兩個小時就意味著協和的醫生每天能多看幾個病人。這套系統今年會在協和醫院全院推廣。

3)教育

我們推出了語音評測服務云,針對國內常見的啞巴英語現象,我們開發了一套口語評測引擎,它不僅會對你的整體打分,還能指出某句話中的哪個單詞發音不準,并告訴你準確發音。這套系統可以作為學校和英語教育培訓中的一個很重要的輔助工具。我們的教育云上線半年,每天的調用量超過六千萬次,按照每個學生每天 10-20 次的使用頻率,那幾本上每天的活躍用戶是幾百萬以上。目前,在教育領域,拓維、全通、滬江、好未來、一起作業等都是我們客戶。

總之,我們確定了「AI 服務」和「AI 芯」,將人工智能與硬件和芯片相結合,目前我們的云服務覆蓋全國 470 個城市和 1.8 億用戶,超過九千萬終端,每天我們的平臺調用量是以億為單位,那這個是真正的大數據。其實回過頭來看的話,這就是為什么說當年我們做平臺的一個很重要原因。數據是未來,那今天我們通過技術和產品結合,讓我們獲得收益支持公司走得更遠更快,這個基本上就是云知聲的發展軌跡和路徑。

三、對語音識別和人工智能的看法

真正的人工智能需要進化,通過代理(Agent)的方式從環境中獲取數據,然后再用這些數據來幫助系統來提高自身。

機器之心:如你上面所說,語音識別和應用場景密切相關。那你覺得,除了車載和智能家居這類非常明確的語音交互需求,還是說它和其他交互方式是相互補充?

黃偉:是相互補充的。在手機端,攝像頭是以拍照為主,很少用它去做交互;麥克風主要是以打電話和發語音信息為主。但當我們逐步進入 IoT 時代,一切設備都是聯網和需要提供智能服務的,但有些設備需要在沒有屏幕的情況下進行交互,攝像頭成本比較高,而且還存在一個最大的擔憂是,你不知道它(攝像頭)是不是在看,也會涉及隱私問題。所以,用攝像頭進行交互的設備可能不會太多,除非它有明確需求。但基于麥克風的語音交互是一種主動形式。所以在 IoT 設備里面麥克風可能會是一種主要的交互方式,但它可能不是唯一的,也許它會跟圖像、手勢、體感及其他東西組合在一起。而且人工智能一定是一個綜合智能,就是像我們人類自身的大腦和智能。

機器之心:如果具體到手機端這個場景,目前語音識別在手機端的應用主要是語音助手,但我們發現它們的作用非常有限,如果接下來在手機端出來一個消費級的非常好用的產品,那它有可能是一個怎樣的產品?或者說手機端根本就不會出現這樣的產品?

黃偉:比如前面提到的 Siri ,它一直不溫不火的原因有兩點,一個是目前的技術其實還沒達到那種很完善的狀態。第二點是它沒有跟服務打通。最近又看到另外一種現象,大家很關注 Echo 。第一是它擺脫手機了,它是家居里的一個音箱或者其他聯網設備,而且這個設備是可以遠距離交互的,它和亞馬遜電商是打通的,這就是把語音交互和服務直接打通了。那這樣在家里你可以進行信息查詢,也可以下單買東西,這就跟以前完全不一樣了,所以我相信以 Echo 為代表的這種模式是未來一種非常重要的方式,它有可能會獲得成功。

我覺得即便是 IoT 到來,手機也不會消失。至少 3-5 年內,我們每個人還會用手機,那么語音助手就會有存在的必要性,因為我畢竟也要通過手機去做交互,所以這個方向是要一直往前發展。蘋果給了我們很好的啟示,并且他們一直沒有放棄 Siri 。首先,在軟件技術方面一直在升級,同時把很多關于 Siri 的技術往芯片里做,比如 iPhone 6s 就把語音喚醒和身份識別做到了芯片里,無需接上電源就可以通過「Hey Siri」來喚醒手機。第二點是它往后會把服務打通,技術不僅讓我跟設備去交互,而且還需要讓我們得到想要的服務,比如說能夠通過 Siri 呼叫 Uber 、訂票、訂餐。其實 Siri 這種交互模式與之前的搜索引擎那種方式完全不同,它要打通的鏈條更多,可能會需要一些時間。

機器之心:你認為接下來人工智能應該如何發展?

黃偉:第一,我們一直強調感知,感知是基礎,就比如人類的進化,我們出生時攜帶的遺傳基因可以理解成人類幾百萬年進化史留下的數據。如果說你沒有感知,沒有大量數據來做一個基石的話,你不可能有一個非常好的初始系統。第二,人工智能系統是需要進化的。比如你買個設備回來,第一天它只能做這個,一年之后它還是只能做這個,十年之后依然如此。如果這是個兒童陪伴機器人,那第一年小孩跟它玩,第二年就不跟它玩了,因為我早就會了,這就說明它沒有進化。

所以真正的人工智能系統應該是個進化系統。那進化怎么來的?進化就是通過代理(Agent)的方式從環境中獲取數據,然后再用這些數據來幫助系統提高自身。只有這樣的話,人工智能才是真正的人工智能。當然這就會帶來另外一個問題,包括像霍金等人提出的人工智能威脅論,但我覺得這就是發展路徑的問題了,是往好的地方進化還是往壞的地方進化?但如果說要是不進化,那就不是人工智能。首先這是「是與非」的問題,其次才是你往左走還是往右走的問題。其實在后面我們可以進行方向的控制,如果數據是一種教育資源的話,我們可以給它提供一些好的教育資源去引導它往好的方向進化。(機器之心 趙云峰)

鏈接已復制,快去分享吧

企業網版權所有?2010-2025 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 兰坪| 黄冈市| 洪泽县| 汉寿县| 龙陵县| 昭觉县| 西安市| 介休市| 梁平县| 安庆市| 宁波市| 翁牛特旗| 盘山县| 若羌县| 华阴市| 河源市| 漾濞| 华安县| 达孜县| 抚松县| 温宿县| 蓝田县| 辽阳市| 虹口区| 南召县| 阳西县| 榕江县| 恭城| 万荣县| 馆陶县| 武宣县| 五家渠市| 华坪县| 左贡县| 巴东县| 麦盖提县| 保靖县| 舟曲县| 永清县| 崇明县| 韶山市|