收集、處理和分析數據是一件有意義的事,并必將產生價值。問題在于:我們能從大數據里挖掘出多少價值?是否真的如人們想象得那樣多?
據統計,2012年大數據直接相關業務的產值達到100億美元。而預測稱5年以后這個數字將達到500億美元。如果考慮 Google,Facebook,Twitter,Amazon這幾家收集和處理大數據能力最強的公司,目前似乎是合適的投資時機,而由此帶動的新市場將 使硅谷迎來下一輪欣欣向榮。在硅谷以外,金融、保險、零售、醫療行業都在談論大數據。在學術界,受益于奧巴馬政府最近的2億美元研究撥款以及各州的大量撥款,今年北美超過50%的計算機科學教授職位面向大數據研究。甚至我的研究物理學和運籌學的朋友們也在談論大數據。
拋開這些令人鼓舞的數字和預測,回到本質問題,大數據真的能改變人們的生活嗎?兩年前我對此比較樂觀。原因在于,計算機技術的發展正在進入一個摩爾定律失 效的時代。CPU的處理速度到達瓶頸,不再能18個月翻一倍。而另一方面,人類獲得的數據規模正在以指數速度增長。這預示著,大數據處理需要超越傳統的新 技術。而這很可能帶來全新的發現。兩年后,對大數據的炒作已經演變成了某些人為擴大自己的圈子而進行的商業宣傳。但是,大數據真的幫我們做到了以前不能做 的事嗎?
更多的數據并不意味著更多的信息
小明同學想要精確地測出自己的身高。由于測量存在誤差,他連續量了5次,然后計算5次的平均值。有理由相信,這種方法比單純量一次身高更準確些。但如果小 明有足夠的時間和耐心,他可以量1000000次,然后從1000000個結果里計算自己的身高。在這個例子里,雖然我們擁有了一百萬條記錄,其中包含的 信息并不比5條記錄多出多少——它們唯一的用處仍然只是計算小明同學的身高。很不幸,這就是大數據分析面對的現實。
現實中的大數據之所以“大”,是因為互聯網把上億用戶的信息匯集在了一起。但我們往往高估了人的差異性。看看四周,人們每天做著相同的交通工具去做差不多 的工作。下班以后吃差不多的食物,看一樣的電影,上網關注相同的名人。假期到了,則去幾個數得著的地方旅游。如果大家都把自己的生活細節一絲不茍地記錄下 來,我想任何人在看了1000個人的日記以后就不會產生新鮮感了,更遑論10億人的?既然如此,為什么需要10億人的數據?
反駁者認為,大數據能幫助更好地把握每個人類個體的情況。但即便在如此目的之下,收集大數據也不是必須的。以Amazon的在線推薦系統為例。對一個女性 客戶Alice,網站試圖推薦Alice感興趣的商品給她。如果Amazon的設計師熱衷于設計復雜的系統,他大可以搜索Amazon的全部10億個用戶 資料,找出那些購買偏好和Alice相似的客戶,然后推薦她們以前買過的東西給Alice。直覺上說,只有當用戶資料庫足夠大,才能找出和Alice足夠 相似的人,從而做出靠譜的推薦。但事實是:一個如此復雜的,基于10億人的系統做出的推薦,其準確率甚至不到萬分之一。相反,如果完全忽略Alice的個 人偏好,直接給她推薦20個女性購買最多的商品,Alice購買的可能性甚至高于個性化推薦的商品。由此我們可以做出兩點判斷:(1) 10億人的數據充斥著不含任何信息的噪音 (2) 即使基于少量信息,也可以判斷個體的行為,并且不比基于大數據的判斷來得差。
大數據被用來驗證知識而非發現知識
在科學和社會學領域,人們寄希望于從大數據中發現新知識,但目前看來這只是個美好的愿望。人類在近300年中發現的知識遠多于之前的10萬年,但這并不是 因為人類的視力和聽力進化了。事實上,如果不針對性地分析數據,就不可能從數據中提取出知識。而針對性地分析數據需要恰當的猜想和論證,它們已經是待探索 的知識的一部分。不依靠人為干預,僅靠計算機程序自動從大數據里發現知識,這還屬于科幻小說的題材。
就學術界的現狀來說,大數據基本被用于檢驗常識,而非發現新知識。舉一個我曾經和 @Amber 討 論過的例子。康奈爾大學的Jon Kleinberg教授通過分析Facebook用戶數據發現,如果一對情侶擁有過多的共同好友,他們分手的可能性比較高。因為這種情況下情侶會花大量時 間和朋友們在一起玩,而失去了獨處培養感情的時間。這項發現被紐約時報、Fox新聞網等媒體爭相報道,并作為大數據分析的優秀典型。但仔細考慮之下,這真 的是一個“發現”嗎?我想,Kleinberg教授至少是首先假設了情侶的分手率和他們的共同好友數有關,這才去做數據統計的。而另一方面,公眾之所以認 為這是個有趣的結果,也恰恰因為它從某種程度上符合了“不證自明”的常識。事實上,如果數據挖掘研究得到了反常識的結論,那么這項研究是難以發表的,至少會遭到苛刻的責難。因為研究者們心里也清楚,大數據充斥著難以分析的噪音,如果得出的結果違反常識,那么多半是噪音導致的錯誤,而并非少數人的真理。
處理大數據的技術和處理小數據的技術沒有本質區別
傳統上用于處理和分析小數據的技術,基本都可以直接拿來處理大數據。如機器學習界10-20年前提出的神經網絡、SVM、聚類算法,以及統計學界 30-40年前已經成熟的回歸分析、PCA等等,現在依然是處理大數據的主流技術。當然,針對大數據處理人們研究了一些優化策略,如采用并行計算,用內存 維護數據庫,采用消除大數據噪音的方法等等。這些優化技巧有效地提高了處理大數據的效率。但尚稱不上本質的進步。
算法層面上,現在最火的當屬深度學習(Deep Learning)。公眾所知的深度學習以Google Brain為代表,號稱從上億張圖片里發現“貓”和“碎紙機”的概念(我相信Google Brain生成了成千上萬個概念,其中絕大部分是無法理解的,只有符合常識的這幾個被報道出來了,再次驗證前一段的論點)。從技術上說,深度學習和 1986年提出的人工神經網絡并沒有本質區別。僅僅是使用了和傳統神經網絡略有差別的激勵函數,以及針對大數據做了些克制噪音的優化。目前深度學習的大佬 Geoffrey Hinton,Yann LeCun都是八十年代搞神經網絡起家的人,經歷了近10年被SVM打壓發不出論文的郁悶后,終于在近幾年翻了身。Yann LeCun剛剛幫NYU拉到了1億美元的大數據研究經費。還沒來得及花,又被Facebook挖去主持Facebook AI Lab,確實炙手可熱。雖然深度學習稱得上近來的突破之一,但它實質上是把小數據算法應用于大數據的成功實例,并不能算大數據引發的原創技術貢獻。
大數據還能火多久
如標題所屬,我對大數據的前景持懷疑態度,因此我不認為它會長久地火下去。這個判斷基于我片面的認知,當然談不上正確。個人預測,大數據的概念還有2-3年的炒作空間。所以有志于此的同學們該撈錢的抓緊撈錢,該找工作的抓緊找工作。過了這村可能就沒這店了。
最后上一張老圖。這張圖表明,任何概念都要經歷一個:“炒作 -- 低谷 -- 重新上升 -- 創造實際價值”的過程,2012年的時候大數據還在爬升期,而現在大概到頂了。如果要預測未來走勢,請參見圖中最高點處的“3D打印”,現在還有人聊3D打印嗎?呵呵