全球數據正呈現出驚人的增長態勢。根據IBM公司估算,人類自有史以來至2003年所創造的信息量為5EB,而到2011年,人類每兩天就產生了5EB的信息量,全球數據量大約每兩年翻一番,預計到2020年,全球需要管理的數據量將達到35ZB,是2010年的29倍。全球數據量增長的如此之快,如果管理不好,反而成了沉重的負擔。其實和資本、土地、人口、能源等相比,數據也應該被看成是一種資源,水利用好可以供人食用,太陽能利用好可以發電,而對于數據,如果有很好的處理方式,也可以獲得更高的收益。大數據就是一種對這些含有意義的數據進行專業化處理的技術,通過大數據技術對數據進行“加工”,通過“加工”實現數據的“增值”。大數據也稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。在今年的兩會上,大數據成為了廣受關注的特點技術,很多提案都引用了不少通過大數據處理而得到的結論,這些通過對海量數據進行分析、預測,才能獲得可靠的結果。我們平時天天看的天氣預報,就是通過對以往衛星云圖的分析而形成對未來天氣的預報,所以天氣預報大部分的情況下是準確的,也有時會有誤差。很多互聯網企業都有自己的海量數據采集工具,多用于系統日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,這些工具均采用分布式架構,能滿足每秒數百MB的日志數據采集和傳輸需求。大數據處理的技術有很多種,相同的數據,采用不同的大數據方法得到的結論很可能會存在差異,所以選擇哪種大數據技術也非常重要,不同的數據,需要采用不同的大數據技術,以便從海量數據中獲得更多的“增值”。如今的大數據已經從國家層面開始重視,準備將大數據提升為國家重大發展戰略,這凸顯大數據技術對一個國家、一個企業、甚至到個人都是非常重要的。
大數據具有4V的特點,Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值),海量是大數據的最大特點,只有數據的樣本是海量的,分析的結果才有價值,有預測的意義。數據中心是大數據唯一的處理中心,只有通過數據中心才能部署大數據技術。大數據與云計算、數據中心都是緊密相連的技術。云計算曾讓很多用戶感覺是“暈計算”,數據量的激增也曾讓很多用戶束手無策,大數據就是來解決這些問題的,是先有了云計算,而后才有的大數據。大數據和云計算一樣都要依托數據中心來實現,沒有數據中心一切都是空談。大數據技術說白了,就是一種數據分析的軟件技術,在數據中心里,通過大數據軟件可以對海量數據進行分析,通過分析得到一些結果,通過這些分析的結果來獲得數據之外的“增值”。當然不是只有分析數據中心里的數據技術才是大數據技術,比如我們平時在自己電腦上進行計帳,等到年終時對這一年的花費做個總結,從而為未來一年做好規劃,這也是數據分析,和大數據技術的實現目的是相同的,只不過大數據強調的是“大”,海量的數據不是靠幾臺服務器就可以計算的,需要成千上萬的計算設備協調運算才能得出的結果,那么只有數據中心能夠提供這樣的場所,所以說數據中心是大數據唯一的處理中心。
大數據技術是從海量、不完全的、有噪聲的、模糊的、隨機的大型數據中發現隱含在其中有價值的,潛在有用的信息和知識的過程,主要基于人工智能、機器學習、模式學習、統計學等。在大數據分析方面已經出現了不少的新技術,Hadoop已被公認是新一代的大數據處理平臺,EMC、IBM、Microsoft以及Oracle都紛紛投入了Hadoop的懷抱,對大數據來說,最重要的還是對數據的分析,從里面尋找有價值的數據幫助企業做出更好的商業決策。像Netezza、Greenplum、Aster Data等等公司都是從事大數據分析的公司,這些公司推出了一些數據分析的軟件。EMC的數據計算設備(DCA),IBM的BigInsights和BigCloud,惠普的Vertica實時分析平臺,甲骨文的大數據機,微軟SQL Server里的PDW,并行數據倉庫技術等等,都是針對大數據進行分析處理的軟件。在我國國內,從事大數據軟件設計的公司也如雨后春筍般地出現了,大數據軟件企業一時間冒出了數百家之多。這些大數據公司提供的數據分析軟件常用的算法主要有:分類、回歸分析、聚類、關聯規則、神經網絡方法、Web數據挖掘等等。目前在很多領域尤其是在商業領域如:銀行、電信、電商等,大數據可以解決很多問題,包括市場營銷策略制定、背景分析、企業管理危機等。
大數據的價值和時間密切相關,如果不能及時將大數據快速處理,分析后的結果很可能就成為“事后諸葛亮”,好聽好看沒用途,數據中心正是可以提供高速計算的場所。部署云計算的數據中心,我們稱為云數據中心,而部署了大數據的數據中心,我們叫做大數據中心。這里所說的“大”并不是指的規模上的大型數據中心,而是在數據分析上?;跀祿行膿碛械暮A繑祿?,通過大數據技術,對海量數據進行分析、處理,可以得到一些意料之外的收獲。“大”數據中心是數據中心的未來,也是全社會的未來。如今全球因為石油能源競爭鬧得不可開交,掌握石油命脈的美國,就可以獨霸全球,而未來掌握大數據的國家,才是未來的霸主。未來的世界是屬于信息數據的時代,大數據必將有更加廣闊的發展天地,未來的數據中心都將是“大”的數據中心。