作為研究大數據的資深專家,中關村大數據產業聯盟秘書長、中國計算機學會大數據專委會委員趙國棟在大數據領域著述頗豐,他的著作《大數據時代的歷史機遇》在行業內廣為流傳。
關于大數據的定義很多,足以讓人找不到北,亞馬遜的科學家給出的定義是非常言簡意賅的一種,“大數據是任何超過了一臺計算機處理能力的數據量”。
在趙國棟看來,大數據最大的優勢在于減輕人們對于未來的焦慮感。他用帶有幾分哲理意味的語言這樣描述道,“未來的不確定性是人類產生恐懼的根源之一,也是各類組織最為頭痛的問題。大數據技術讓我們看到解決未來預測問題的一絲曙光”。
“任何行為,皆有前兆。但在現實世界中,缺少實時記錄的工具,許多行為看起來是‘人似秋鴻有來信,事如春夢了無痕’。在互聯網世界則完全不同,是‘處處行跡處處痕’。要買商品,必先瀏覽、對比、詢價;要搞活動,必先征集、討論、策劃。互聯網的‘請求’加‘響應’機制恰恰在服務器上保留了人們大量的前兆性的行為數據,把這些數據搜集起來,進一步分析挖掘,就可以發現隱藏在大量細節背后的規律,依據規律,預測未來。收集分析海量的各種類型的數據,并快速獲取影響未來的信息的能力,就是大數據技術的力量所在。”趙國棟說。
為了說明上述觀點,趙國棟引用了一則IBM公司的廣告語,“過去我認為我的工作就是追捕罪犯,而現在對這項工作有了全新的認識,我們分析犯罪數據,識別犯罪模式,并部署警力,幫助美國部分城市重大犯罪率降低了30%。終結犯罪,在案發之前”。
站在歷史的角度來看,人類所擁有的數據正在呈現爆發式增長態勢:
根據國際數據公司(IDC)的《數據宇宙》報告顯示:2008年全球數據量為0.5ZB,2010年為1.2ZB,人類正式進入ZB時代。更為驚人的是,2020年以前全球數據量仍將保持每年40%多的高速增長,大約每兩年就翻一倍。
ZB是個什么概念?1ZB=1024EB。一本《紅樓夢》共有87萬字(含標點),每個漢字占兩個字節,即1 個漢字=2B,由此計算1EB約等于6626億部《紅樓夢》。美國國會圖書館是美國四個官方圖書館之一,也是全球最重要的圖書館之一,截至2011年4月,藏書約為1.5億冊,收錄數據235TB,1EB約等于4462個美國國會圖書館的數據存儲量。
擁有數據越多,并不意味著萬事大吉。大數據時代依然可能面臨發展不均衡和不公平的問題。趙國棟將其概括為數據割據、數據孤島和數據質量三大問題。
“因為制度漏洞、地方保護主義、部門利益等人為因素造成數據分散的現象,可以稱之為數據割據。政府部門之間各自將數據看作自己的資產,而不是作為社會資源和公共資源來使用,這主要是由于部門之間存在壁壘和各自的利益,規章制度、法律法規不完善造成的。因為技術差距、歷史遺留問題等形成的數據分散現象,稱之為數據孤島。數據質量的好壞,直接影響數據資產的價值。數據質量主要包括數據的真實性、完整性、一致性。這些問題的解決非一日之功,需要技術、制度、文化等方方面面的努力。”趙國棟說。