《大數據時代》一書風靡全球已有時日。大數據(Big Data),又稱“巨量資料”,是指其數據規模極其巨大,以致很難通過一般軟件工具加以擷取、管理、處理并整理成為有用資訊。按業界說法,大數據特點為4個“V”:即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
大量、高速——到了什么程度呢?一個移動硬盤,容量大約為10個G。2001年,全球互聯網總流量達到1EB(即10億個G);2004年,一個月即達到1EB;2007年,達到1EB只需一周;而到2013年,僅需一天!換句話說,全球互聯網一天產生的信息量,可以刻滿1.88億張DVD光盤。
多樣、價值——如此大量、高速的數據,其多樣性毋庸置疑,小到個人與個人的數分鐘通話,大到公司與公司的巨額交易,雖然全是些風馬牛不相及的數字,但經過科學的收集、歸類、整理,再加以分析、排列、組合,就會神奇地演變成全新的極其有用的各種資訊。原始數據越大,處理難度自然越大,但處理后其應用價值亦越大。大數據這種無中生有、化腐朽為神奇的增值功能,令人神往。
正因此,世界經濟論壇報告將大數據認定為新世紀的“新財富”,稱其價值“堪比石油”。也正因此,發達國家紛紛將開發利用大數據作為奪取新一輪競爭制高點的重要目標。美國政府于2012年3月發布了《大數據研究與發展倡議》報告,這是繼1993年宣布“信息高速公路”之后又一重大部署。歐盟及日本等國也在大數據研發方面投入巨資,竭盡全力拼搶這一制高點。
大數據這塊餑餑雖然聞起來很香,但啃起來卻有點硬,其難度有四,一是數據收集難,不但難在大,海量信息,而且難在雜,萬千角度;二是數據存儲難,如此海量存儲,既要低成本、低能耗,又要高質量、高識別;三是數據處理難,信息如密網交織,錯綜復雜,處理如剝繭抽絲,穿針引線,其難度可想而知;四是數據呈現難,數據最終是要拿來使用的,其呈現須簡單、實用,無疑,這是又一個由繁入簡的艱巨工程。
好在,大數據應用已初見曙光,歐美各國均有成功先例。有人設想,倘若我們將大數據應用于日常生活,那么,當你打算購買某一產品時,只消將名稱輸入手機,大數據就會告訴你,這些東西在當地哪些商場有售,其價格分別是多少。于是,你可以馬上作出決策。這將給人們帶來多么大的方便,又將給商業流通帶來多么大的改變。
萬事雖然起頭難,堅持動手就不難。所謂數據之“大”,不過相對而言。目前,百度、阿里巴巴、騰訊等不少公司已著手成立大數據研發機構。百度目前日處理數據量已達100PB(1EB=1024PB),相當于2700萬冊藏書。而阿里則根據淘寶網上中小企業的交易狀況,篩選出財務健康及講誠信企業,并對其發放無擔保貸款300多億元,壞賬率僅0.3%。這都是大數據應用的好例子。