仿佛只是一夜之間,“大數據(Big Data)”火了。
那一個個關于大數據的傳奇故事,一樁樁爭奪大數據制高點而展開的并購案,一個接一個輪流發布大數據戰略的IT廠商,還有那一場場以大數據為主題的各種研討會,無一不在宣告,IT界又迎來了新的興奮點、新的機遇,同時,也是新的挑戰。
“數”中自有黃金屋
嚴格地說,大數據并非一個新詞,被譽為“數據倉庫之父”的Bill Inmon早在上個世紀90年代就經常將“Big Data”掛在嘴邊了。大數據之所以在近一兩年迅速走紅,要歸結于互聯網、移動設備、物聯網和云計算的迅猛發展,使得人類每分每秒都在產生巨量數據——從出現文明到2003年,人類總共才創造 5 EB(5 ExaBytes)的數據,但是我們現在僅在兩天內就創造出相同的數據量。來自IDC全球存儲及大數據研究項目副總裁Benjamin Woo表示,到2020年,全球數據使用量預計暴增44倍,達到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB×35=37580963840TB),也就是說全球大概需要376億個1TB硬盤來存儲數據。
但是大數據并非單指數據量之大。對于大數據,IDC的定義是:“為了更經濟地從高頻率獲取的、大容量的、不同結構和類型的數據中獲取價值,而設計的新一代架構和技術。”人們普遍將該定義概括為四個V,即更大的容量(volume,從TB級躍升至PB級,甚至EB級)、更高的多樣性(variety,包括結構化、半結構化和非結構化數據),以及更快的生成速度(velocity)。前面三個“V”的組合推動了第四個因素——價值(value)。
關于大數據所蘊含的價值,有許多為人所津津樂道的故事可以佐證:
美國印地安那大學和英國曼徹斯特大學的學者通過提取Twitter上的非結構化數據分析公眾情緒,再將情緒曲線與道瓊斯工業指數進行對照分析,發現可以提前3~4天預測股市大盤走勢。基于此,他們已經推出了歐洲第一只基于社交媒體的對沖基金。
(單位:百萬美元)
又例如,英國的科學家根據Twitter的數據來跟蹤流感的爆發。他們主要基于用戶發布信息中的關鍵詞,例如“我頭痛”等,并結合用戶的發布地點,按區域與英國衛生部的官方數據進行了比較,最終建立起一個預測模型。創業團隊“SickWeather”甚至以預測疾病為主題開展了自己的創業項目。
象這樣的大數據經典案例還有不少,而整個商業社會對大數據將帶來的影響給出了極高的評價——
麥肯錫全球研究機構在2011年5月發布的《大數據:創新、競爭和生產力的下一個前沿領域》中表示,充分利用大數據可幫助全球個人定位服務提供商增加1000億美元收入、幫助歐洲公共部門的管理每年提升2500億美元產值、幫助美國醫療保健行業每年提升3000億美元產值,并可幫助美國零售業獲得60%以上的凈利潤增長。
在今年年初的瑞士達沃斯論壇上,一份題為《大數據,大影響》(Big Data,Big Impact)的報告宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。
而《華爾街日報》在文章《科技變革即將引領新的經濟繁榮》中更是大膽預測:“我們再次處于三場宏大技術變革的開端,他們可能足以匹敵20世紀的那場變革,這三場變革的震中都在美國,他們分別是大數據、智能制造和無線網絡革命。”
更加值得關注的則是,美國已經把大數據上升到了國家戰略的層面。根據美國白宮今年3月29日新聞,奧巴馬政府宣布投資2億美元啟動“大數據研究和發展計劃”,希望增強收集海量數據、分析萃取信息的能力。
在我國,大數據作為一個較新的概念,目前尚未直接以專有名詞被我國政府提出來給予政策支持。不過,在2012年12月8日工信部發布的物聯網“十二五”規劃上,信息處理技術作為四項關鍵技術創新工程之一已經被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析,這都是大數據的重要組成部分。而另外三項關鍵技術創新工程,包括信息感知技術、信息傳輸技術、信息安全技術,也都與大數據密切相關。
大數據的價值和重要性已經毋庸置疑,但大數據究竟帶來了哪些新的技術趨勢,它對當前IT產業的勢力格局會造成何種影響,更關鍵的是,每個企業如何才能獲取大數據中的“寶藏”?則是我們真正關注的焦點。