只在硬件上加上一個WiFi、傳感器和APP,這并不是我們期待的“智能化”的未來。
智能的生活場景是每個人都期望實現的美夢。在許多場合,我們已經被這樣充滿誘惑力的描述所洗禮:回到家時,根據我們的心情和身體、天氣狀況,家里的燈光、音樂、空調會自動打開并調節好;電熱水器、飲水機和微波爐已經熱好了水和食物;甚至于和電影《鋼鐵俠》中一樣,召喚一聲“我需要一杯咖啡”,它就會被機器人自動送到面前。
多么美好的未來。但它離實現還有多遠?創業家&i黑馬人工智能系列,本篇將帶你認識,智能生活的語音交互新入口。
在物聯網和人工智能時代,產品的智能化已經成為趨勢。從電子產品、家電到家居用品,智能的概念在前兩年大行其道。智能家居和可穿戴的風口從2014年開始井噴,但這種勢頭在2015年下半年,卻開始放緩。
于是,我們能對比到,現在大多數人的智能家居和硬件產品,還離我們想象中的“智能”非常遙遠。只在硬件上加上一個WiFi、傳感器和APP,這并不是我們期待的“智能化”的未來。
最像“智能”的產品,或許是亞馬遜的Echo。它整合了Alexa語音識別技術,讓消費者用聲音上網、檢索信息、控制家居生活,已經擁有300萬臺的銷量,讓谷歌都為之眼饞。它體現的價值,也集中在搜索、伺服式語音識別和人工智能之上。
一個新的交互形態,在智能家居和硬件之上正亟需提高。當我們使用上述的智能化場景時,無論是可穿戴設備,還是家居、家電,如果仍然靠PC或智能手機的界面來操作,這可能是很難想象的。
不依托于這些手動裝置,就能實現對它們的操控,無疑是這些設備最吸引人的便捷性所在。語音交互,也成為智能化過程中日益普遍的一項功能。
“交互的形態正在改變。”云知聲CEO黃偉說。“移動互聯網和PC互聯網時代最大的區別是,我們現在是基于多點觸控的應用,用手機上網,用移動設備上網,而不是僅僅用PC,通過鍵盤。而到了IOT時代,我們又不再只是通過手機,我們可以通過更多的設備聯網,而它可能不再有觸摸屏。”
從家居到家電,從物流到駕駛,從醫療到娛樂,一個智能的趨勢正席卷而來。從Siri、小冰,到Echo,到搜狗的語音輸入,再到度秘。也許人工智能的發展進程我們還不能預判,但商業和生活的智能化,卻已經是一個不可逆轉的過程。而其中,語音交互,或許會是一個新的智能時代的新入口。
創業家&i黑馬在云知聲的體驗間里,體驗了樂視超級電視X55和華帝抽油煙機,如何在家庭場景噪聲下喚醒和操控。通過語音的控制,窗簾可以自動開啟,燈光可以調節。創業4年,累計融資近億美元之后,云知聲,也許在物聯網和人工智能興起的浪潮中,也將面對一個更大的發展時機。
云知聲CEO黃偉/受訪者供圖
物聯網智能硬件要和服務打通
2008年,科大訊飛上市,一度壟斷國內語音識別市場的半壁江山。深度學習的發展,給了語音識別新的驅動力,但在2012年,云知聲初成立之時,在這片江湖中,玩家還是寥寥無幾。如何實現彎道超車?當時云知聲,決心從開發者平臺做起。
在當年,許多公司的創業方向都還是語音助手APP。“但我并不認為這個方向能夠成功,尤其說它根本不適合一個創業公司去做,做這個就是死路一條。”黃偉說。
黃偉的判斷來源于自己多年來的從業經驗。作為語音識別的領軍人物之一,他先后就職于摩托羅拉和盛大創新院,曾成立盛大創新院語音分院,在2012年,黃偉離開盛大。“我自己做過很多年的技術,我非常清楚,語音其實是技術,并不是產品。它是用來解決人跟設備的交互問題的,但交互本身不是目的,人們是要通過一種最便捷的方式來獲得后面的服務。就像手機的多點觸控,你離不開屏幕,但你覺得只有這塊屏幕好玩嗎?當然不是,吸引你的,是它背后的各種互聯網服務。”Echo之所以成功,不僅是它的語音交互,還是由于,它可以和亞馬遜電商打通,可以直接提供服務。
但是,對于創業公司而言,它也往往只限于提供這種交互方式本身,是很難具備連接交互后面服務的能力的。“當時選擇做平臺,是因為這樣至少我們是有技術價值的。”黃偉總結。2012年9月,云知聲語音平臺發布,當時的精確度只有85%。
但是,語音平臺也為云知聲源源不斷積累了語音數據。2013年初,準確度提高到了91%;而到了2013年底,云知聲的語音數據已經積累到3000小時,精確度提高到95%,平臺上開發者超過8000家。
從那時起,數據+算法就成為云知聲“雙門驅動”的引擎。從一開始,云知聲就和深度學習結合在一起。當時的深度學習還主要是停留在學術界,很多人對此了解并不多,而深度學習,也需要超過以往不同數量級的數據支撐。但在2011年,在一個語音識別的國際會議上,黃偉遇到了微軟首席研究員俞棟,對方告訴黃偉,這是“確確實實進展非???、能夠取得非常大的成就”的。
這堅定了云知聲做深度學習的決心。當時公司剛剛拿了天使輪,錢還不多,就在淘寶上買顯卡、買機器,在9月平臺發布后,10月份就投入了對深度學習算法的學習。2013年1月,云知聲深度學習系統對外開放。搜狗云助手、樂視電視,都成為這個系統的首批服務對象。
而2012年和搜狗的合作,則是讓云知聲一戰成名。
“當時國內大的公司,百度、搜狗,都想發布自己的語音助手產品,想搶2012年底前這個時間點。搜狗自己沒有語音能力,就去找合作。”黃偉說。語音識別當年的圈子本來就不大,云知聲就進入了搜狗的視線。“他們肯定也評估了很多家,但我記得很清楚,我們跟搜狗從第一次見面到最后達成合作協議,一周時間。”黃偉言及于此,頗有些得意。
從2012年中到2013年底,云知聲沒有做過多的商業化的嘗試。在這段時間內,云知聲通過算法和平臺的搭建,逐漸打通了自己數據驅動的路。而到了2014年,黃偉覺得,公司到了一個新的階段,是時候開始仔細思考公司的定位問題了。
黃偉把當時市場上的主流公司做了分類??拼笥嶏w和BAT作為先發者,占據了市場和資源的優勢,但是,它們都是從PC互聯網時代遷移過來的,那么,新的時代轉折,是否可以給云知聲提供機會?“在IOT領域,它們也沒有積累,或者說足夠的壁壘,那么我們就在IOT切入。”
這個新的機會就像黃偉在開始所說的,IOT時代改變了交互的形態。同時,這些新的設備和人是有距離的,那么,在交互時就必須加入新的能力,而芯片就是解決它的方法。因此,2014年,云知聲提出了“云端芯”,要把自己的能力從云端擴展到終端、再到芯片端。
云知聲遠場語音識別技術/受訪者供圖
5米之外能語音喚醒和操控家電嗎?
“這個端,你可以把它理解成帶界面或者不帶界面的一個虛擬UI。”黃偉解釋說。“我們把端定位成一個AI-UI,是一個基于人工智能的交互系統。我們也會把很多AI技術植入到芯片里面去。比方說,距離比較遠的時候,如何實現設備的識別、喚醒、打斷;再比如說,在房間里或空曠地段,會有回響,怎么把這個回響給消除掉……我們要把這些新能力不斷地補充進來。”
云上是數據的積淀,端是入口,芯片承載了云知聲的服務,這也是在這一波物聯網智能硬件和人工智能的浪潮中,黃偉對云知聲在競爭中脫穎而出的期望所在。
云知聲拿著demo去和客戶演示,一個個說服他們接受這種交互形態。2014年底,云知聲獲得高通的5000萬美元B輪融資,開始發力芯片。
但這是比之前的研發要困難得多的一件事,要想做好它,困難重重。“我一直自信我們在技術領域算是做得比較好的,但我們從來沒有在任何一個技術點上花過這么大精力來解決問題。”黃偉對創業家&i黑馬感慨。一方面是性能問題要解決,另一方面,要實現芯片工業化量產,需要有太多算法之外的問題需要解決,比如功耗、散熱、熱高溫、防摔……“做demo容易,做產品真是太難,太難了。”
2016年,云知聲的芯片開始出貨,其中花費了一年半的時間。但黃偉覺得,這些是有價值的。“因為這些能力的補充,包括這些新的產品形態,使得我們的交互方式從移動互聯網時代時只能對著手機、做距離比較近的講話,到今天我們可以實現在3-5米之外,通過聲音遙控。”
或許很多人還并不理解這會有什么樣的意義。但實際上,智能手機之后,下一個人和信息溝通的方式將會是什么形態,是很多科技公司一早就在設想的事情。Google Glass盡管是個失敗的產品,但它卻是科技界為此做出的大膽嘗試。智能化的趨勢必不可逆,而手機APP,也不會永遠都是控制眾多智能設備的方式。
但是“去手機化”的過程,需要邁過高高的技術門檻。至今為止,較為成功的產品,也只有一個Echo。
云知聲和樂視電視有著長期的合作。從第一代到現在第三代樂視超級電視,從語音操控到語音交互,都是云知聲提供語音交互技術。
2016年8月,美的智能空調發布,它搭載了云知聲的AI芯,使用者可以在家庭環境中5米內通過語音控制空調的開關和溫度,空調能結合關鍵詞分析、理解用戶意圖。
但這款產品的問世也是歷經挑戰。要想獲得廠商的合作支持,就必須能夠消除噪聲環境影響實現語音控制;空調一般都是壁掛式,所以要實現遠場交互;且成本可控。
“Echo是7+1個麥克風,外圈7個和中間1個,所以它效果不錯。但我不行,家電廠商對成本是非常在意的。”黃偉說。“麥克風多了,信息源多,就需要更強的CPU,成本功耗就要提升。其次,家電大多是靠墻安裝的,麥克風怎么放?”
云知聲最后采用的是雙麥克解決方案,兩個麥克風,間距不超過3厘米。但問題又來了,只有兩個麥克,如何達到性能?云知聲花了一年多時間解決這個技術問題,終于在2015年這款產品開始生產。現在,市場上的大多數智能家電產品,華帝、格力、海爾、美的等,都是和云知聲合作的。
但軟件可解決,硬件也還是讓黃偉覺得比較麻煩的一件事。比如麥克風。“現在手機上的麥克風,對電話場景下的噪音意識,已經做得非常好了。但在家居市場上,硬件廠商還沒有這個意識。比如他們以前從來不會想到,一臺電冰箱上會需要一個麥克風。所以,現在對我們軟件的要求就更高了。”
除了智能家電和家居,車載以及醫療、教育等行業,也是云知聲商業化落地的主要領域。比起智能家居來,車載的應用場景更好想象。當人們在駕駛時,雙手都被占用,語音交互就成了最佳選擇。但黃偉認為,車載前端產品周期非常長,“從接觸到產品要出來差不多要用5年左右時間,不適合一個創業公司”。因此,云知聲選擇從后裝市場切入。而2014年,黃偉認為是一個新的契機正在出現:“當時已經有10%的設備開始使用安卓平臺了。我們判斷,安卓在車載系統里將是未來的趨勢。”經過了半年多的研發,到2015年中,云知聲開始和廠商對接。到現在,安卓系統已經占據了市場上90%的份額,而目前,搭載云知聲智能語音SDK的車機產品出貨量已超過150萬臺。
在醫療方面,協和醫院已經和云知聲合作,使用醫療語音識別系統,對病歷、醫囑等進行錄入。而且,這也有助于未來的醫療大數據挖掘工作。
在商業化的策略上,云知聲一直選擇的是B2B2C。這也是很多AI公司的選擇。當一種新技術仍在發展和完善過程中,通過與B端的合作,不斷獲取用戶的需求,了解行業,通過反復迭代來完善技術,是看似必然的選擇。而B端的企業,也是在技術投入成本較大的現階段,比C端更具備付費與創新的動力。
之前,云知聲的合作公司還多數是互聯網公司的中小型企業,而從2016年開始,公司的商業重心開始向大B傾斜。“對于中小型公司而言,新的技術和交互形態它們更樂于去嘗試。而大企業的推動進程也比較慢。而今年,很多大的企業的生產計劃也可以排好了。”而和大型企業合作,對云知聲而言,既能擴大市場規模,又能樹立起行業中的標桿。
“做商業公司,一定得回歸到商業本質上,那就是收入。尤其是像今天資本市場并不是特別好的情況下,大家更看重收入。但我們并不是到B為止了,我們還會到C。我們為什么要做平臺?C端對我們具有用戶價值,這能幫助我們的后臺不斷提升,在B端會更有持續的競爭力。”黃偉說。
云知聲醫療語音識別系統的應用/受訪者供圖
讓機器去理解人類
而這樣用語音操控機器,或者機械的一問一答,還是遠遠達不到“智能”的程度的。開發者們需要去做的,是讓它們更加聰明。
如果你坐進自己的愛車,感覺到今天的溫度有些低,于是你說:今天有些冷。而這時,你車內的系統會自動將空調溫度調高。再或者,當你和你的機器人在戶外,你仍然隨口表示:今天有些冷。而機器人,會自動理解你的意思,但此時,它不會去尋找空調,而是提示你:披上外套吧。這樣的,是不是更令人向往的一個美好未來?
今年7月,云知聲宣布,完成了技術引擎3.0版本的升級,并提出了“語用計算”的概念。關于這個概念,你可以簡單地理解成,機器可以理解我們對話的語境,聯系上下文進行回答。
調戲過Siri和小冰的人,或許了解要達到這一場景有多么困難。“我們推出語用計算是為了產品落地。”黃偉坦率地說。“現在很多聊天機器人,我覺得就是個學術命題。我們對聊天沒有強需求,聊天也不是產品。作為創業公司,我希望能解決當下的問題。在智能產品里,我和機器聊天說上好幾輪,技術上是很厲害,但用戶會不耐煩。我們更多地是把多人對話管理技術和當前狀態信息結合在一起,把語音識別、物理環境以及之前的對話信息等結合在一起,讓機器做出對應的回答。”而前面提到過的場景,也正在逐漸向現實轉化。例如,在應用了云知聲語音技術的格力金貝空調中,如果你說有點兒冷,它就會自動把溫度調高一度。
“IOT時代產生的經濟規模和經濟價值,我認為應該會遠遠超過移動互聯網時代。”黃偉說。“智能手機(Smart phone)和功能手機(Feature phone)的區別是什么?是它通過交互改變了產品本身的屬性。而我相信,就像我們家里的冰箱、空調,今天它是Feature divace,未來它一定會成為Smart divace。”