摘要 :用戶大數據是高校開展互聯網應用研究的必選項
高校適合做基礎研究、超前研究,應用研發留給企業去做,這個觀點得到越來越多的同仁們的共識。然而,高校里還是活著兩種人,一種人喜歡也擅長做基礎研究,比如Hinton這樣的學者,能夠從算法上推動機器學習的進步,進而對工業界產生重大的影響;更多的人在從事應用研究,試圖解決應用中出現的問題。從事應用研究的學者在互聯網時代,在大數據時代,如何才能做出真的對工業界有用的成果?換句話說,怎么做才能使大企業在當下或未來真的需要借鑒或購買高校的技術成果呢?
在回答這個問題以前,我們先把當前互聯網大企業與高校互聯網域的實驗室在6項技術研發要素上做一個對比:
互聯網大企業:
1. 人才:都是各大學(尤其是重點大學)培養出來的優秀人才,都是成手,他們帶著在校門里掌握的技術加入企業
2. 工作效率:全職工作,高工資加期權,KPI嚴格考評,行動力極強
3. 資金:不需要解釋了
4. 計算設備:以GPU為代表的大批高性能服務器,以及工程化的支持大規模計算的軟件架構
5. 數據:T級,甚至P級海量真實數據
6. 用戶:海量用戶,每天提供大量用戶行為數據,這是群體智慧之源
高校互聯網領域實驗室:
1. 人才:資深教師有眼光和經驗,有限數量的青年教師掌握核心技術,科研力量主要是研究生,每畢業一批學生,實驗室的實力都會減弱,新入學的研究生需要從頭培養
2. 工作效率:組織松散,教師需要講課、指導學生、申請項目、學術交流等,學生要上課、找工作等,效率比較低
3. 資金:國家投入不斷增加,但跟互聯網大企業相比差幾個數量級
4. 計算設備:國家投入不斷增加,但跟互聯網大企業差幾個數量級
5. 數據:總體上,跟企業相比差幾個數量級
6. 用戶:幾乎等于零
從對比中,我們可以看出,1-5項,高校雖然弱,但還是有,而第6項,對于絕大多數高校實驗室而言就是0。弱,會帶來很多問題,1-4項的弱會導致高校的技術生產力明顯不如互聯網大企業,而5的不足將直接導致一些需要大數據支撐的科研工作,在高校里做出的成果對企業無意義,這又分兩種情況:一種是高校在小數據上做出的結果很好,但到企業大數據上一跑,失效了;另一種是高校在小數據上做的效果不佳,而企業使用同樣的方法在大數據上卻取得了很好的效果。如此,高校成果對企業的借鑒意義降低了,這也是國外一些著名的學者,如Hinton、吳恩達等,紛紛離開高校,加盟企業的主要原因。
不過,“弱”畢竟還是”有“,可以通過集中優勢兵力,超前布局等在一定程度上去克服。更要命的是第6項,在高校里做研究普遍脫離了用戶!吳恩達在2014年的百度世界大會上講述了“人工智能正循環”的思想,訊飛研究院的胡郁院長也曾提出非常類似的“漣漪效應”的觀點,就是把一個不成熟的系統放到互聯網上讓用戶使,用戶在使用過程中會貢獻大量的群體智慧,這種群體智慧會快速地幫助提高系統的技術指標。任何一個系統的能力提升,都必須有外界知識、能量的注入,互聯網大企業有海量用戶,每天可以吸收到大量的知識,而高校由于與用戶脫節,只有靠人工標注的小規模(甚至可以說是微規模的數據),加上教師學生們在算法上下的功夫來改進系統,這就失去了當前人工智能研發范式中極其重要的一環。
在很多研討會上,都看到高校的老師在問企業到底能夠向學術界開放多少數據?其實,數據有兩種,一種是用戶貢獻的內容數據(UGC),一種是用戶行為數據,前者由于微博等開放數據平臺的存在,是可以支持高校做不少研究的,但更為重要的是用戶行為數據,用戶查詢了什么,點擊了什么,最最重要的是用戶怎樣使用你開發的系統,給出了什么樣的具體反饋。而用戶行為數據,一方面有隱私問題,另一方面由于其價值非常高,企業是不會開放的。
結論:在當前條件下,高校從事互聯網應用研究的學者,必須與企業緊密結合,或者自己做出能夠吸引一定數量用戶使用的原型系統,才能獲得用戶行為數據。最好在企業已經搭建起來的大平臺、高平臺上開展企業暫時做不好或無暇去做的研究,保底也要自己拿到足夠的真實的用戶行為數據,如此才有可能在某個很聚焦的點上做出真正有價值的應用技術來。否則大企業在諸多互聯網應用研究上領先于高校的情況將繼續存在,高校開展應用研究的價值真的就只是培養學生了。
注:本文的觀點是對我四年前關于高校應該與工業界松耦合想法的一個否定,自我否定的主要原因是意識到用戶大數據在技術提升方面迸發出的超能量,用戶大數據對于高校不是可有可無的,而是必選項。本人的研究領域:自然語言處理、社會媒體處理、信息檢索,本文所謂互聯網應用研究,主要指的也是這幾個研究領域,受本人視野所限,偏頗之處,請讀者見諒、指正。