數據分析師在對阿里巴巴內衣銷售數據進行分析后發現,購買大號內衣的女性往往更“敗家”。其根據是,65%B罩杯的女性屬于低消費顧客,而C罩杯及以上的顧客大多屬于中等消費或高消費買家。這一結論是否成立姑且不論,但首先傳遞了一個信息,今天人們已經進入數據為王的時代,其中大數據似乎又是王中之王。
無論是商業網站還是搜索網站,人們的所搜所看所買都成為大數據的組成部分,無論之于商業,還是之于公共衛生,抑或國家安全,它們都是有用的信息。有心人已經意識到,因為擁有大量未經充分研究的中產階層,中國成為世界上最重要的數據市場之一。研究這些數據,對社會各方面都是多贏。當然,保護人們個人隱私的代價需要考慮。
2008年谷歌推出“谷歌流感趨勢”(GFT)數據分析工具,谷歌的工程師根據這個工具的數據分析,預測了2009年H1N1流感將要暴發,甚至具體到特定的地區和州。這一結論在流感暴發前發表在英國的《自然》雜志上。后來,情況果真如此,這與美國疾病控制和預防中心(CDC)的預測完全一致,但時間上比CDC早了近兩周。從2010年起,阿里巴巴利用其數據建立的信用記錄,向小微企業提供融資,也取得了不錯的效果。
這些結果表明,數據為王時代早就到來。其實,這并不奇怪。人類文明的三大支柱是材料(物質)、能量和信息,數據又是信息中的核心部分。古希臘的畢達哥拉斯早就說過,“一切皆數”,盡管其所說的“數”與今天的數據有所不同,但在某些方面是相似的。所以,在今天也就有了“一切皆信息”,也即數據為王。
不過,數據為王并不意味著大數據為王,或數據越多越好,還要看如何分析和利用數據,進而得出最契合實際的結論,并且有效利用這一結論。因此,如果要承認阿里巴巴基于內衣銷售的數據分析得出的女性胸越大越“敗家”的結論,就需要有符合客觀實際的解釋,不幸的是,這一結論還處于見仁見智的階段。網友的各種分析就提供了佐證:一是“大胸都被有錢人娶了,所以才有能力敗”;二是“說明青春期的營養狀況確實會影響胸的大小”,“胸大的確實普遍嫁得好”;三是“胸大并不敗家,集中在網上打折的時候買東西,只會旺家。”
這筆混亂賬目前肯定掰扯不清,但已有事實證明,數據越大并不意味著越好。就算是谷歌,一旦他們的大數據處理和分析不當,也會得出錯誤的結論。2013年1月,美國又發生流感,但GFT的預測比實際數據高兩倍。這并非偶然出現錯誤,而是在過去一再發生。2011年8月~2013年9月,GFT高估流感流行長達108周。
谷歌的大數據為何預測不準呢?發表在2014年3月14日《科學》雜志上的一篇文章指出了兩個主要原因。一是大數據浮夸,二是算法變化。大數據浮夸指的是,以為大數據可以完全取代傳統的數據收集方法,而非作為后者的補充。大數據浮夸的最大問題在于,絕大多數大數據與經過嚴謹科學試驗得到的數據之間存在很大的差異。
另外,谷歌對算法會進行不斷的調整和改進,搜索引擎算法的改變和用戶的搜索行為會影響到預測結果,比如媒體對于流感流行的報道會增加與流感相關的詞語的搜索次數,進而影響GFT的預測;相關搜索算法也會對GFT造成影響。例如,搜索“發燒”,相關搜索中會給出關鍵詞“流感”,而搜索“咳嗽”則會給出“普通感冒”。
如果沒有嚴謹的科學試驗數據做后盾,現階段就不能得出女性胸越大越“敗家”的結論。同樣,也需要得到科學試驗數據后,才能解釋為何在2012年的“雙十一”,中國比基尼銷量最高的地區是并不沿海的新疆。對大數據浮夸的兩種解決之道則是:大數據并不能代替嚴謹的科學試驗得到的數據,這兩者之間需要互補,而且要使算法更符合實際情況。