某天,編輯看到一位同事拿著手機(jī)和電腦在“聲情并茂”地朗讀他自己寫的稿件。
是不是太激動(dòng),覺(jué)得自己這篇可以點(diǎn)擊量“十萬(wàn)+”?懷著這樣的疑問(wèn),編輯聽(tīng)他用“湖南塑普”讀了一會(huì)。然后,他又朗讀了一遍。
編輯實(shí)在忍不住了:“朋友,你這么開(kāi)心?在干嘛?”
這位同事“炫耀”式地拿著一段文本給編輯看——“你看準(zhǔn)確率高不高?”
噢!他在測(cè)試訊飛語(yǔ)音的準(zhǔn)確率!本著相互較勁能促使進(jìn)步的理念,編輯自信地用國(guó)家認(rèn)證的一級(jí)乙等普通話也讀了一遍。結(jié)果,準(zhǔn)確率相較于這位“湖南塑普”同事,讓人大跌眼鏡。
你以為編輯這篇要講技術(shù)和背后原理?不,此處需要一個(gè)反轉(zhuǎn)——今天編輯在 BDTC 2016中國(guó)大數(shù)據(jù)技術(shù)大會(huì)上,從科大訊飛大數(shù)據(jù)研究院副院長(zhǎng)譚昶的演講中,發(fā)現(xiàn)了一個(gè)悲劇——編輯和同事的較勁測(cè)試得出的一些數(shù)據(jù),說(shuō)不定正在用于語(yǔ)訊飛語(yǔ)音技術(shù)的改進(jìn)中。
數(shù)據(jù)從哪來(lái)
眾所周知,科大訊飛的各位老大在很多場(chǎng)合,都對(duì)自己的“人工智能”和“大數(shù)據(jù)”十分自豪。
那么,讓他們自豪的數(shù)據(jù)是從像編輯這樣的吃瓜群眾中獲取的嗎?
按照譚昶的說(shuō)法,訊飛的數(shù)據(jù)收集從6年前開(kāi)始。
從 2010 年左右,訊飛開(kāi)始做語(yǔ)音云平臺(tái),從那時(shí)開(kāi)始真正擁有互聯(lián)網(wǎng)上用戶的大數(shù)據(jù)。
現(xiàn)在訊飛的大數(shù)據(jù)有多少?來(lái)簡(jiǎn)單算一下:譚昶稱,目前訊飛約有 8.9 億的用戶,3.6億輸入法用戶,同時(shí)從其他領(lǐng)域獲得了很多非互聯(lián)網(wǎng)數(shù)據(jù)。
有哪些?
與運(yùn)營(yíng)商的合作的數(shù)據(jù),如中國(guó)移動(dòng)。
在智能家居、智能汽車領(lǐng)域的數(shù)據(jù)。
在智慧城市領(lǐng)域,和政府方面的合作數(shù)據(jù)。
……
而這些數(shù)據(jù)的特別之處在于,由于其中很多數(shù)據(jù)是通過(guò)人臉、聲紋識(shí)別等獲得,更具有真實(shí)性。
拿到數(shù)據(jù)后,訊飛把這些數(shù)據(jù)放到一個(gè)中型的分析及處理平臺(tái)上 。
當(dāng)然現(xiàn)在也沒(méi)有看到哪個(gè)平臺(tái)能把基于人工智能的數(shù)據(jù)處理能力整合到平臺(tái)內(nèi)部來(lái)。
譚昶承認(rèn),對(duì)人工智能很自豪的訊飛現(xiàn)在也在這個(gè)領(lǐng)域做一些嘗試和實(shí)踐工作。眾所周知,訊飛的數(shù)據(jù)大多數(shù)還是語(yǔ)音數(shù)據(jù),把語(yǔ)音數(shù)據(jù)轉(zhuǎn)化成可處理的結(jié)構(gòu)化的數(shù)據(jù),真正挖掘這些數(shù)據(jù)的價(jià)值是重中之重。
他們現(xiàn)在的工作是,整合機(jī)器的GPU,進(jìn)一步整合深度學(xué)習(xí)的算法模型。
數(shù)據(jù)到手,撒網(wǎng)捕魚
把數(shù)據(jù)資源拿到手后,雖然不知道科大訊飛把這些語(yǔ)音數(shù)據(jù)處理到哪種程度。但是,資源到手后,開(kāi)始撒網(wǎng)捕魚是任何一個(gè)企業(yè)都會(huì)做的事情。
人機(jī)交互、教育、智慧城市是科大訊飛的大數(shù)據(jù)當(dāng)前主攻的方向。這三個(gè)點(diǎn)其實(shí)不太新鮮,在今年科大訊飛董事長(zhǎng)劉慶峰的兩會(huì)提案中,就已經(jīng)涵蓋了這些領(lǐng)域。
然而,值得探究的是,在這三個(gè)大方向下,訊飛的數(shù)據(jù)生意到底怎么做?怎么變現(xiàn)?
譚昶揭秘:他們現(xiàn)在真正在做的大數(shù)據(jù)生意落地到三點(diǎn)——精準(zhǔn)營(yíng)銷、教育、政府服務(wù)。
1.精準(zhǔn)營(yíng)銷
訊飛走了其他企業(yè)利用數(shù)據(jù)做生意的老路,因?yàn)橛惺殖墒斓哪J健WT昶認(rèn)為,只要有自己用戶的畫像平臺(tái),即數(shù)據(jù) DMP 平臺(tái),可以整合外部的數(shù)據(jù),也可以單純使用內(nèi)部數(shù)據(jù),則既可為自己精準(zhǔn)營(yíng)銷服務(wù),也可為外部企業(yè)的數(shù)據(jù)需求服務(wù)。
當(dāng)然,挖掘這些數(shù)據(jù)的核心價(jià)值來(lái)對(duì)用戶進(jìn)行分析、挖掘、獲取和引導(dǎo)的作用,最后的導(dǎo)流作用是直接變現(xiàn)還是對(duì)廣告點(diǎn)擊,要具體問(wèn)題具體分析。
訊飛在這個(gè)領(lǐng)域起步其實(shí)比較晚,譚昶說(shuō),他們的主意是:
用戶8.9億,累計(jì)用戶12億,產(chǎn)生了1700類的標(biāo)簽。不僅對(duì)內(nèi)部的訊飛廣告平臺(tái)提供服務(wù),也為第三方的精準(zhǔn)營(yíng)銷提供數(shù)據(jù)交換和數(shù)據(jù)查詢服務(wù)。
人工智能的技術(shù)應(yīng)用在了標(biāo)簽精細(xì)化的工作中。在自然語(yǔ)言理解方面,因?yàn)橛嶏w通過(guò)輸入法、開(kāi)放云平臺(tái)服務(wù),產(chǎn)生了大量短文本的數(shù)據(jù),在這種短文本數(shù)據(jù)的挖掘中,使用了人工智能的技術(shù)產(chǎn)生了“一種非常精細(xì)化”的標(biāo)簽分類。
比如,基于聲紋做了性別、年齡的劃分,譚昶稱,基于用戶傳統(tǒng)的行為數(shù)據(jù)或者日志數(shù)據(jù)無(wú)法得到這些精細(xì)化標(biāo)簽。
在大家都關(guān)注的變現(xiàn)上,金融領(lǐng)域?qū)τ脩舻?1700 類標(biāo)簽梳理后進(jìn)行了廣告投放。在游戲領(lǐng)域,尤其是對(duì)用戶的年齡分別或者性別的判斷,對(duì)游戲定圖的效果影響很大。
2.教育
譚昶介紹,訊飛現(xiàn)在在為學(xué)校、教育主管部門對(duì)學(xué)生的成長(zhǎng)過(guò)程進(jìn)行數(shù)據(jù)采集和分析。
他們的關(guān)注點(diǎn)是,一是如何用人工智能手段搜集到真正的教育過(guò)程數(shù)據(jù),二是如何把過(guò)程數(shù)據(jù)轉(zhuǎn)化為學(xué)生學(xué)習(xí)過(guò)程中的進(jìn)步和優(yōu)勢(shì)。
咱們先把素質(zhì)教育拋在一邊,大家心知肚明的是,中國(guó)現(xiàn)在大部分升學(xué)手段依然是考試。
可能讀者你會(huì)說(shuō),在“考考考”的中國(guó)教育中,大家都用電腦考試就好了呀,這不就有數(shù)據(jù)?不過(guò),你以為所有的試卷都是電子試卷嗎?這讓中國(guó)差異化的經(jīng)濟(jì)發(fā)展水平情何以堪。
如何做到無(wú)紙化收集數(shù)據(jù)?
訊飛退了一步:試卷還是有紙化,但可以掃描成無(wú)紙化。
退了一步后,發(fā)現(xiàn)掃描誰(shuí)都會(huì)做,人工智能已經(jīng)解決了這個(gè)問(wèn)題,不需要讓人判試卷,不僅可以閱卷答題卡上的答案,還可以讓機(jī)器判作文、主觀題、閱讀題,這就又回到了訊飛的特長(zhǎng)——用人工智能來(lái)解決非結(jié)構(gòu)化的學(xué)習(xí)過(guò)程采集。
下一步就是解決如何讓非結(jié)構(gòu)化的過(guò)程數(shù)據(jù)變學(xué)習(xí)指導(dǎo),打造個(gè)性化家庭教師。
其實(shí)說(shuō)起來(lái)也很簡(jiǎn)單。比如,小明同學(xué)進(jìn)行了一場(chǎng)考試,不幸錯(cuò)了很多題,回家要被家長(zhǎng)進(jìn)行語(yǔ)重心長(zhǎng)的教育,這時(shí)機(jī)智的教育工具就來(lái)了,它針對(duì)小明的成績(jī)的情況以及薄弱點(diǎn),經(jīng)過(guò)簡(jiǎn)單分析得到了結(jié)論。通過(guò)這些結(jié)論推薦相應(yīng)的課程學(xué)習(xí)的課件、老師講解的題目,以及所有可以做的練習(xí)題,按照難易程度、知識(shí)點(diǎn)的覆蓋面精準(zhǔn)推送。
不過(guò),譚昶發(fā)現(xiàn)了一個(gè)難點(diǎn):這個(gè)推送聽(tīng)起來(lái)和做廣告推送沒(méi)什么區(qū)別,但機(jī)器學(xué)習(xí)是非常痛苦的,因?yàn)閺V告每秒鐘可以學(xué)習(xí)一千次,但一個(gè)學(xué)校、一個(gè)學(xué)期可能只能學(xué)習(xí)幾千次。
還有一個(gè)潛在的問(wèn)題是:小明怎么辦?明明一頓教育可以解決,現(xiàn)在需要多做好多試卷和題(開(kāi)玩笑,還是要好好學(xué)習(xí))!
3.智慧城市
談到政府服務(wù),由于“歷史問(wèn)題”,你一定經(jīng)歷過(guò)為了辦一個(gè)事情,需要跑幾個(gè)、十幾個(gè)、甚至幾十個(gè)政府單位蓋章的慘劇。
除了不能描述的一些原因,一個(gè)重要的問(wèn)題是——很多部門、政府單位“各自為政”,形成了信息孤島。
還有一個(gè)軟的數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)共享的標(biāo)準(zhǔn),數(shù)據(jù)交換的標(biāo)準(zhǔn),以及相應(yīng)的政策支持,這些工作都需要有大量的投入,大量的精力、人力,而政府沒(méi)辦法做這些事情,需要有很多的企業(yè)服務(wù)這樣的工作,為政府建立政務(wù)數(shù)據(jù)流通和交換的生態(tài)系統(tǒng)。
譚昶認(rèn)為,這是訊飛能“入手”的點(diǎn)。
按照訊飛在某省的實(shí)踐來(lái)看,如果把數(shù)據(jù)打通了,除了可以構(gòu)建一站式政務(wù)辦理,原來(lái)分散在公安局、稅務(wù)局、工商局的各種企業(yè)數(shù)據(jù)可以進(jìn)行全面融合和共享,共享后可以像對(duì)互聯(lián)網(wǎng)用戶做畫像一樣,做企業(yè)的畫像。
通過(guò)企業(yè)畫像,可以對(duì)企業(yè)間的社交關(guān)系,即投融資的關(guān)系進(jìn)行分析,對(duì)企業(yè)做整體的標(biāo)簽化、對(duì)企業(yè)重點(diǎn)的獎(jiǎng)懲信用方面都可以做出相應(yīng)的數(shù)據(jù)化分析,這些結(jié)論最后可以用于政府的監(jiān)管過(guò)程,實(shí)時(shí)監(jiān)督,聯(lián)合執(zhí)法。
他們也和運(yùn)營(yíng)商進(jìn)行了合作,將城市的地理信息數(shù)據(jù)變成城市交通的疏導(dǎo)和管理工具。譚昶稱,
這樣的數(shù)據(jù),通過(guò)任意一家運(yùn)營(yíng)商,精確度很差,需要用很多手段把數(shù)據(jù)的精確度,變成非常精細(xì)化的軌跡的分析數(shù)據(jù),這樣的數(shù)據(jù)經(jīng)過(guò)分析之后可以得到城市的交通情況,不需要任何在線的浮動(dòng)車、探頭就可以得到實(shí)時(shí)的交通情況。
還可以做更精細(xì)化的工作。在匿名化條件下的移動(dòng)軌跡,如果任意選擇一個(gè)區(qū)域或者一個(gè)路口,每一個(gè)白點(diǎn)代表著一個(gè)移動(dòng)軌跡的移動(dòng),整個(gè)移動(dòng)軌跡全部整合起來(lái)后,可以看到導(dǎo)致路口擁堵的車輛來(lái)源于哪里,到了哪里去,它們的聚集、分析以及疏導(dǎo),可以基于這樣的統(tǒng)計(jì)工作進(jìn)一步展開(kāi)。
除了點(diǎn)線,還可以發(fā)現(xiàn)人群的聚集區(qū)域有沒(méi)有發(fā)生踩踏事故的風(fēng)險(xiǎn),提前20~40分鐘進(jìn)行預(yù)警。
注:BDTC 2016 中國(guó)大數(shù)據(jù)技術(shù)大會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,CCF 大數(shù)據(jù)專家委員會(huì)協(xié)辦,有大量大數(shù)據(jù)和人工智能的干貨分享。