大數據(Big data)正構成我們明天的新大陸。
從2012年開始,我們將從大陸時代,移民進入大數據時代。
麥肯錫公司提出的大數據時代到來的觀點,引起了全球廣泛的反響。多家機構認為,“大數據”將會成為貫穿2012年的一條全新投資主線。
作為特指的大數據,按EMC的界定,其中的“大”是指大型數據集,一般在10TB規模左右;多用戶把多個數據集放在一起,形成PB級的數據量;同時這些數據來自多種數據源,以實時、迭代的方式來實現。IBM把大數據概括成了三個V,即大量化(Volume)、多樣化(Variety)和快速化(Velocity)。大數據通常與Hadoop、NoSQL、數據分析與挖掘、數據倉庫、商業智能以及開源云計算架構等諸多熱點話題聯系在一起。
作為泛指的大數據,則指向了定制化、差異化、個性化方向的競爭力。例如美國奧巴馬總統委員會的科技顧問Stephen Brobst所說:“過去3年里產生的數據量比以往4萬年的數據量還要多,大數據時代的來臨已經毋庸置疑。我們即將面臨一場變革,新興大數據將成為企業發展的當務之急,而常規技術已經難以應對Pb級的大規模數據量。這一變化所帶來的挑戰,是成功的企業在未來發展過程中必須要面對的。只有那些能夠運用這些新數據型態的企業,方能打造可持續的重要競爭優勢。”
我們原以為已經進入數據時代,其實真正的數據時代從2012年剛剛開始。標志性的區別就在于,以往的數據只是結構化的數據,是非個性化的數據;而進入2012年,非結構化數據占有比例將達到互聯網整個數據量的75%以上,這意味著個性化數據時代的到來。
異質性、個性化,這才是數據的真正本質。而那種一模一樣的數據,與長相相同的麥當勞、鐵鍬一樣,仍屬于過去的時代。
在真正的數據時代,網商將不再奔向數據趨同的淘寶商城,而將涌向提供個性化競爭力的AaaS(分析即服務,analytics-as-a-service),撲向3V的懷抱。
淘寶目前每天活躍數據量已經超過50TB,共有4億條產品訊息和2億多名注冊用戶在上面活動,每天超過4000萬人次訪問。“大數據”的作用,就是把這些數據采集進數據倉庫中,然后用分布式的技術框架(Hadoop),對非關系型數據進行異質性處理(NoSQL),通過數據分析與挖掘,發展一對一的商業智能,從中產生讓網商因小而美、不再打價格戰的企業和個人競爭力;讓中國產生不再依靠“中國制造”,而轉向“中國創造”的國家競爭力。
大數據時代,還會使一些具有數據核心技術的企業面臨新的機會。IBM希望提供端到端、整體的大數據解決方案,機器人“沃森”在人機大戰中獲勝就是其中的成果。眼看已經不行的惠普,隨著對數據分析倉庫供應商Vertica的收購,儼然有了追隨Teradata的資本。只要愚蠢的投資人不再多事,就有可能咸魚翻身。更不用說EMC占對了內存計算的要津,搶得大數據和云計算的先機。幾家歡樂幾家愁,就看數據有沒有。
我個人以為,大數據并不像某些人說的,是云計算之“后”的又一浪。而就是云計算本身。因為都是數據的大規模集聚與定制化分布的結合。
我們來到了一個人類新的分水嶺,由此要把農業文明的分散化,與工業文明的集中化,在大數據中融為一體,集天地之精華,釋放出無窮的能量,達到信息時代的“光明頂”。來源互聯網周刊)