大數據行業看上去似乎并沒有受資本寒冬的影響。第一財經記者從投中網獲悉,僅今年4月以來,大數據行業就有7家公司獲得融資,其中國外4家、國內3家,金額總計約11億元人民幣。而這一情況已經持續了很久,2016年僅上半年就有22起與大數據相關的企業獲得融資,從天使輪到C輪均有。
伴隨著資本大量進入大數據行業,出現了創業公司估值過高的現象,好像只要打上大數據的標簽,一些公司的估值動輒翻番好幾倍。企業信用數據服務商上海斯睿德信息技術有限公司出現在上述7家公司名單中,其不僅近期剛獲得由東方海富領投的數千萬元融資,且最近18個月已經成功完成了3輪融資。而另一家2015年8月剛成立的大數據公司鼎復數據也在一年多的時間內完成了2輪1.07億元的融資。
就此現象,上海斯睿德信息技術有限公司CEO趙杰在接受第一財經采訪時表示,大數據公司受資本追捧,本質上是因為,物以稀為貴。雖然國內這兩年大數據企業融資速度快、頻率高,但真正能融到資的在市場上其實并不多,很多用人工智能講故事、單純擁有多少億數量級數據的公司是很難獲得資本青睞的。
人工智能是個好“故事”
記者在查閱上述新近完成融資的大數據公司資料時發現,各家企業無一例外都在自己的宣傳介紹中提到了人工智能。而不僅是大數據公司,一些征信公司和互聯網金融公司也都會說自己在利用人工智能識別信用風險或者反欺詐。
但實際上,人工智能并不是高不可攀的東西。“我認為大家沒有必要把人工智能給神話了,過去十年在大數據行業的帶動下,深度學習、自然語言處理等技術得到快速發展,為今天人工智能的爆發奠定了堅實的基礎。但是如何把掌握的技術落地成產品,挖掘數據資源,幫助企業用戶更高效、更低成本地解決風控問題,才是我們努力的方向。”趙杰表示。
就拿機器學習的建模環節來說,在過往的很多場景中其實都是需要建模的。例如,去銀行貸款買房或者申請信用卡,銀行給你授信,一個剛畢業的學生和在職場工作很多年的高級白領,額度必然是不一樣的,這里就會涉及到模型的設立。在此模型中,會有很多個維度的數據,學歷、收入水平、婚姻狀況、過往信貸記錄等。過去往往會采用專家法和計量分析等方法建模,通過人工網查獲取各類信息。
現在,伴隨各類智能技術的發展,機器可以在分秒內處理上十億次的數據,于是就開始引入機器學習。機器學習本質上是先找一些數據樣本,這些樣本有好有壞。隨后將全量數據放入模型中,讓系統自己識別,如果發現在好的樣本中90%都具備某一共同特征例如“受過高等教育”,則系統就會自動認為受過高等教育的人信用佳。反之,當系統發現壞的樣本具備“擁有五張以上信用卡”的特征,它便會將此認定為信用差的特征。隨著樣本數據的增多,系統識別出的特征維度就越全面,得出的結論也就越準確。
在當前的技術條件下,機器學習也不是萬能的,如果是機器沒有學習過的數據,它便無法自主做出正確的應對。從1997年IBM的“深藍”戰勝了卡斯帕羅夫到20年后AlphaGo以4:1的成績戰勝李世石,驗證了人工智能技術的趨于成熟,隨著樣本數據的增多,系統識別出的特征維度就越全面,得出的結論也就越準確。但是AlphaGO輸掉的這一局卻是因為遇到了從沒有學習過的“怪棋”,價值網絡瞬間崩潰。
至于神經網絡、決策樹、隨機森林、機器學習等“高大上”的名詞,實際上也無需夸大它們的作用。“像多元神經網絡這樣的算法模型早就是非常成熟的多元數學統計方法,很早就應用于物理學、力學以及工業領域,但并未被大眾所熟知。也是因為這兩年大數據市場火爆,才把這些名詞帶到大眾視野內。”趙杰對記者表示。
有關人工智能的故事常常還會引申到“團隊成員為國際高端人才”上,在趙杰看來,掌握國外先進的算法技術只是一個方面,有些技術在國外的應用環境下是適用的,但如果直接照搬到國內,不結合國內的實際情況,也無法提供符合國內應用場景的解決方案。
好算法不如好數據
“Better data beats better algorithm(好數據能打敗好算法),有一套厲害的算法模型不如有一套靠譜的數據。”棱鏡大數據研究院首席科學家廖辰瀚博士對第一財經記者表示。
“實際上在整個解決實際問題的過程中,人工智能建模所花費的精力只占30%,而70%的精力都花費在信息的獲取和處理數據上。用人工智能做風控和模型的切入點,首先是自動化,即用人的思維和方式獲取數據,提煉數據,第二步才用到機器學習的算法將獲取的信息進行關聯。”廖辰瀚稱。
對于大數據公司而言,高質量的數據是根本。“目前對大數據市場造成困擾的還有一個主要方面就是,各家公司都在說自己有上億數量級的數據,但卻常常忽略這些數據的質量。”趙杰表示。
記者從一位征信業內人士處獲悉,近兩年大數據市場給人太多負面印象的原因在于,真正擁有高質量數據,且擁有數據分析能力和產品研發能力的公司數量非常有限。目前市場上有很多所謂的大數據公司,都是通過倒賣數據賺取差價的公司,而這些公司的數據來源,很多來自數據黑市。
“一些數據販子由于沒有任何加工能力,通過一些關系,掌握某類數據源,在不做任何加工的情況下,直接賣裸數據,賺取差價。由于這些數據通常都會不斷更新,不斷會有新的數據加入,也同時會有過期的數據失效,因此,只要稍加修改,又會變成一套全新的數據庫,販子們重復販賣,從中賺取差價。”上述征信業內人士表示。
該人士稱,“在販賣的數據中,有些數據是合法的,有些數據是違法的。線上消費的、網銀的、pos機的、信用卡的、運營商的、甚至是工商的數據都有人賣。除了一些企業本身會打包賣一些數據,也會有企業內部人員與外人勾結聯手倒賣數據,即使是BAT里也有人出來賣數據。”
記者還從相關知情人士處了解到,數據販子倒賣的數據很多都是臟數據,由于數據通常按量出售,為了把量做上去,里面往往只有30%的數據是真實的,而70%都是造假充量的假數據。“如果底層的數據都是虛假、不準確的數據,再好、再先進的分析模型也不可能解析出正確的結果。”趙杰對記者表示。
Maxent猛犸反欺詐CEO張克此前在接受第一財經采訪時也表示,做數據能夠有優勢的企業,一定是控制了流量的公司,因為所謂的線上數據的來源都需要依靠線上流量,沒有流量就沒有數據源。而依靠買賣數據是肯定行不通的,只是在表層包了一個殼。