云知聲是伴隨著阿里巴巴、樂視的“互聯網汽車”概念而逐漸浮出水面的。這家成立僅2年多的創業公司,是隱藏在阿里Yun OS車載操作系統和樂視LeUI Auto背后的語音技術提供商,在樂視造車之后,我們將“互聯網造車”的系列報道定格在一家近幾年崛起最快的語音識別公司——云之聲。
特約記者 魏雅晴 北京報道
少女聽到他的話,貓咪噠噠的跑過雪地,老人曬著暖呼吸吐納……常規之下,這些賦上心意的聲音,與你所聽到的表達,一起被稱作“溝通”。
而在現如今的商業世界,如常的言語往來不止是感性的細膩,它為商業拓展出更多邏輯的種類,也嘗試鏈接不同的交互載體。
云知聲就是這樣一家公司,它穿著隱身衣,住在你能想到的軟、硬件載體中,以聲音為介質,以命令為輸出,將一個個抽象的韻母、聲母拆解,合成為一條條具體的動作指示。
云知聲是伴隨著阿里巴巴、樂視的“互聯網汽車”概念而逐漸浮出水面的。這家成立僅2年多的創業公司,是隱藏在阿里Yun OS車載操作系統和樂視LeUI Auto背后的語音技術提供商,在2013年獲得啟明創投的1 億元A 輪融資之后,又在2014年年底獲得摯信等5000萬美元B輪融資,刷新了語音行業融資紀錄,成為近幾年崛起速度最快的語音識別公司。
云知聲的倒推邏輯
相比于阿里、聯想、英特爾、中興、樂視、通用汽車、小米、錘子等客戶,云知聲像是一個靜默的解語者,這種“躲”在背后的靜默恰好應了云知聲的產品特點:雖然技術加載,卻因為只是輸入輸出載體,所以無法具象地被用戶感知。甚至在業已實現可能的案例中,被無意識地忽略。
把這樣的忽略放至大環境下的整體路徑,同樣能找到痕跡。語音交互經歷過寒冬,從系統穩定性、響應速度、語音識別效率等維度判斷,語音交互行為本身所帶來的交互體驗并不能引起足夠多的正向討論。即使是蘋果Siri,也并沒有如想象中那樣普及開來。
云知聲CEO黃偉是國內最早從事語音識別技術的少壯派代表,曾任職于Motorola中國研究中心和世界最大的語音公司Nuance,并開發出世界第一款手機聲紋認證系統,加盟盛大后一手創建了語音分院。在十余年的語音從業經驗中,他認為Siri對他的第一個啟示是用一個有限的人工智能去解決非常開放的需求是一個偽命題。如果把Siri定位為語音助理,用戶就會覺得應該什么都懂,但人的需求是千變萬化的,一旦做不到就會失去用戶。
第二個啟示是語音技術必須搭載服務。人們使用語音的最終需求是機器完成整個操作,比如說導航,不僅是聽懂目的地,還需要完成路徑規劃,如果目的地是一個餐館,甚至可以實現在線下單。這考驗的是資源整合能力。
“從技術和需求兩個角度,我們認為理想的方式是什么?不要大而全,而是垂直領域切入。”這也成為云知聲與擅長TTS的科大訊飛,以及擅長多國語言識別的Nuance等傳統語音巨頭競爭的差異所在。
2011年,騰訊推出即時通訊服務的免費應用程序——微信。智能手機作為第一波普及的硬件載體,徹底打破人們對溝通場景、對象、方式的固有模式,用戶需求的移動性、細分化也催生著語音的場景垂直。智能家居、車載、可穿戴設備、在線教育、智能客服等,每一個領域都可以延伸出語音的被需要。怎樣在新興領域開辟語音入口?怎樣判斷需求的真偽、做定制化差異?怎樣讓人們變得更懶卻也更互動?
如果說老東家Nuance的工作經歷是告訴黃偉如何用一套普適性強的引擎體系適應全球化的產品占領,那么云知聲想要做的是一個倒推邏輯:根據不同的載體形式,定制需求、深度開發。2012年,云知聲成立僅三個月后就推出了面向開發者的免費語音云平臺。這是一個完全逆著來的形式,相比語音界同行,黃偉認為:“2012年,用戶根本沒有習慣用語音。這說明你自身價值還遠未形成,如果這個時候著急收費,無異于是扼殺行業。”
可是,估計很少人知道,2011年底辭職后就開始籌備項目的黃偉,帶著十幾人的研發團隊自負盈虧,到6月份天使輪融資進來之前,半年內幾乎花光了積蓄,甚至要靠透支信用卡來發工資。黃偉第一次感覺到了難。“我不能多想,團隊的每一個人都不能多想,但凡任何一個人有后顧之憂,這事就成不了。”
技術創業的特殊就在這,如果沒有產品,何談融資。黃偉聊到一個細節,天使輪融資在團隊幾乎斷糧的關鍵節點進來,“我們不是等錢到了再做事,而是盡快抓住時間窗口一直往前走。投資人看什么?他會翻看我這大半年的代碼有沒有增加,我有沒有干。”
一位土博士的產品地圖
說回到云知聲逐漸鋪設的產品地圖,這群自稱為“土博士”的創業團隊,產品理念不再是單一依靠
技術的強勢打法。用黃偉的話來說,語音交互的整個體系包含“語音識別、語義理解、服務調用”三大板塊,如果沒有識別單元就不知道用戶說了什么,沒有理解就不知道用戶的意圖,而這兩者只是完成了人跟設備的一個翻譯。“用戶跟設備交互的目的是什么?不是為了炫酷,而是我說的話希望得到后面的服務,否則只是一個輸入法。”
從這個角度入手,黃偉從云知聲的主動可控層面給出三個評判維度:中文連續語音的準確識別率,云知聲做到開放性、全國語量基礎上97%的識別率;識別引擎的迅速,做到同行的3-5倍的速率比;語音開放平臺的穩定,第一版自2012年9月份推出以來,穩定服務。
延展出的三大主要業務內容是:以“云、端、芯”為關鍵字在移動應用、智能硬件等不同領域切入。云知聲開放平臺為開發者提供語音接口;云知聲UniWear是面向可穿戴設備的ROM,旨在降低開發門檻,提供一套完整的軟硬件開發方案;語音交互芯片意在智能家居平臺,控制家居自動化設備的入口。
而車載可以看作一個功能非常豐富的智能移動設備,也是云知聲下一個重點發力的領域之一。語音、觸屏、按鈕、體感,交互形式多樣且互相配合,而語音作為最自然、最日常的途徑,成為人與載體間的密碼。但語音產品在車內的市場表現和受眾認可似乎躊躇不前,語音作為產品接口,與用戶之間隔著一個載體,這也就意味著軟、硬件載體的工藝水準、成本考慮、搭載適配等直接且深度影響著語音交互的效果。
以用戶在車內最常用的導航和娛樂功能為例,最新推出的云知聲開放平臺2.0,除了識別、理解、合成等基本能力,還針對如車載這樣的垂直領域做了特別的優化方案,方便用戶低成本接入,并提供軟硬結合的整套解決方案。黃偉覺得語音識別從實驗室階段到了商業化的臨界點,但依然還需要解決很多問題,比如說抗噪性,噪音的干擾,這些都是需要在學術界、工業界不斷解決的。但語音在車載領域的應用前景是勿庸置疑的,相關產品的出貨量增長也非常快。
不過這應用上的困境也讓團隊越來越思考一個問題,僅僅做面向B端的用戶群,無法直達消費者,必然存在語音效用的折衷。為什么不自己做一個面向C端用戶的語音類助手呢?
“2015年我們會開始推廣自有APP,從小點切入大眾化的需求。”黃偉提到一個觀點,以語音輸入做移動搜索引擎,牽涉到太多對后臺資源的調用、整合,不太適合創業公司。云知聲要做的,是通過語音對個人設備、個人內容、生活方式等進行助手式管理。
另一個挑戰黃偉的事來自內部,純技術出身,從中科院、科大研究室走出來的團隊,如何調整節奏、適應商業化轉型的管理、營收需要,成為2015年必須要搞定落地的事兒。
一枝獨秀不成春,“硬件運算能力、數據積累處理、技術的推算衍進,有這三個要素做依托,我相信未來人工設備的交互一定可以實現,不再是簡單的命令控制,不再是冷冰冰的存在。”在提到大環境下語音交互的未來,黃偉語氣篤定地用了一連串的“一定”。
黃偉的自信還在于,經過十幾年的發展,雖然語音技術在學術層面上仍然是美國領先,但在應用層面上中國已經不遜于美國。中國人參加幾次語音領域的國際評測,與斯坦福、MIT、劍橋、Nuance、IBM、微軟、谷歌等同臺對壘,已經連續六年三屆蟬聯第一。
我們追問了一句:“有沒有為什么事情焦慮?”黃偉沒有停頓,“我最近就很焦慮,你想做的事情和你現階段所掌握的資源和能力之間有一個距離。你明明看到機會了,做的卻沒有那么快。這種焦慮感是如果我再快一點會怎么樣?”
可他心知肚明,現階段的云知聲之所以能夠春江水暖,正是因為他們從不冒進地模仿撿食、從不抱殘守缺地走到黑,也從不沒學會爬先想跑。