似乎一夜之間,大數據(Big Data)變成一個IT行業中最時髦的詞匯。首先,大數據不是什么完完全全的新生事物,Google的搜索服務就是一個典型的大數據運用,根據客戶的需求,Google實時從全球海量的數字資產(或數字垃圾)中快速找出最可能的答案,呈現給你,就是一個最典型的大數據服務。只不過過去這樣規模的數據量處理和有商業價值的應用太少,在IT行業沒有形成成型的概念。
現在隨著全球數字化、網絡寬帶化、互聯網應用于各行各業,累積的數據量越來越大,越來越多企業、行業和國家發現,可以利用類似的技術更好地服務客戶、發現新商業機會、擴大新市場以及提升效率,才逐步形成大數據這個概念。
有一個有趣的故事是關于奢侈品營銷的。PRADA在紐約的旗艦店中每件衣服上都有RFID碼。每當一個顧客拿起一件PRADA進試衣間,RFID會被自動識別。同時,數據會傳至PRADA總部。每一件衣服在哪個城市哪個旗艦店什么時間被拿進試衣間停留多長時間,數據都被存儲起來加以分析。如果有一件衣服銷量很低,以往的作法是直接干掉。但如果RFID傳回的數據顯示這件衣服雖然銷量低,但進試衣間的次數多。那就能另外說明一些問題。也許這件衣服的下場就會截然不同,也許在某個細節的微小改變就會重新創造出一件非常流行的產品。
還有一個是關于中國糧食統計的故事。中國的糧食統計是一個老大難的問題。中國的統計,雖然有組織、有流程、有法律,但中央的統計人員依靠省統計人員,省靠市,市靠縣,縣靠鎮,鎮靠村,最后真正干活或上報的是基層兼職的調查人員,由于眾所周知的KPI考核導向的原因,層層加碼,幾乎沒有人相信這個調查數據,而其中國家統計局的人是最不信的。在前兩年北京的一個會議上,原國家統計局總經濟師姚景源向我們講述了他們是如何做的。他們采用遙感衛星,通過圖像識別,把中國所有的耕地標識、計算出來,然后把中國的耕地網格化,對每個網格的耕地抽樣進行跟蹤、調查和統計,然后按照統計學的原理,計算(或者說估算)出中國整體的整體糧食數據。這種做法是典型采用大數據建模的方法,打破傳統流程和組織,直接獲得最終的結果。
最后是一個炒股的故事。這個故事來自于2011年好萊塢的一部高智商電影《永無止境》,講述一位落魄的作家庫珀,服用了一種可以迅速提升智力的神奇藍色藥物,然后他將這種高智商用于炒股。庫珀是怎么炒股的呢?就是他能在短時間掌握無數公司資料和背景,也就是將世界上已經存在的海量數據(包括公司財報、電視、幾十年前的報紙、互聯網、小道消息等)挖掘出來,串聯起來,甚至將Face Book、Twitter的海量社交數據挖掘得到普通大眾對某種股票的感情傾向,通過海量信息的挖掘、分析,使一切內幕都不是內幕,使一切趨勢都在眼前,結果在10天內他就贏得了200萬美元,神奇的表現讓身邊的職業投資者目瞪口呆。這部電影簡直是展現大數據魔力的教材性電影,推薦沒有看過的IT人士看一看。
從這些案例來看,大數據并不是很神奇的事情。就如同電影《永無止境》提出的問題:人類通常只使用了20%的大腦,如果剩余80%大腦潛能被激發出來,世界會變得怎樣?在企業、行業和國家的管理中,通常只有效使用了不到20%的數據(甚至更少),如果剩余80%數據的價值激發起來,世界會變得怎么樣呢?特別是隨著海量數據的新摩爾定律,數據爆發式增長,然后數據又得到更有效應用,世界會怎么樣呢?
單個的數據并沒有價值,但越來越多的數據累加,量變就會引起質變,就好像一個人的意見并不重要,但1千人、1萬人的意見就比較重要,上百萬人就足以掀起巨大的波瀾,上億人足以改變一切。
數據再多,但如果被屏蔽或者沒有被使用,也是沒有價值的。中國的航班晚點非常多,相比之下美國航班準點情況好很多。這其中,美國航空管制機構一個的好做法發揮了積極的作用,說起來也非常簡單,就是美國會公布每個航空公司、每一班航空過去一年的晚點率和平均晚點時間,這樣客戶在購買機票的時候就很自然會選擇準點率高的航班,從而通過市場手段牽引各航空公司努力提升準點率。這個簡單的方法比任何管理手段(如中國政府的宏觀調控手段)都直接和有效。這里多說一兩句,過去一個暴政國家對內的控制主要是物理上的暴力,就是強力機構權力無限大,搞國家恐怖主義;而現在一個暴政國家,主要是就靠壟斷信息、封鎖信息,讓民眾難以獲得廣泛而真實的信息,從而實現國家的控制。這個信息封鎖,就是對大數據的封鎖。
沒有整合和挖掘的數據,價值也呈現不出來。《永無止境》中的庫珀如果不能把海量信息圍繞某個公司的股價整合起來、串聯起來,這些信息就沒有價值。
因此,海量數據的產生、獲取、挖掘及整合,使之展現出巨大的商業價值,這就是我理解的大數據。在互聯網對一切重構的今天,這些問題都不是問題。因為,我認為大數據是互聯網深入發展的下一波應用,是互聯網發展的自然延伸。目前,可以說大數據的發展到了一個臨界點,因此才成為IT行業中最熱門的詞匯之一。