大數據正和云計算一起,推動著整個IT產業的發展。所謂大數據,IDC對其的定義為:“為了更經濟地從高頻率獲取的、大容量的、不同結構和類型的數據中獲取價值而設計的新一代的架構和技術。”大數據具有高容量、高價值、多樣化和持續性的特點,尤其是非結構化的特性,使得大數據的保存、管理、挖掘等成為了當前企業面臨的挑戰。而正因為如此,大數據催生了一個迅猛發展的市場。有關數據顯示, 2010年全球大數據以及相關硬件、軟件和服務市場僅為30億美元,而到2015年該市場的規模將超過170億美元,平均年增長速度超過50%。
而智能手機、視頻、社交網絡、微博等媒介源源不斷地產生的海量的非結構性數據,才是企業對大數據的最真實的感受。根據IDC的報告,未來十年全球大數據將增加50倍。僅在2011年,全球就產生了1.8ZB(也即1.8萬億GB)的大數據。毫無疑問,大數據將挑戰企業的存儲架構及數據中心基礎設施等,也會引發云計算、數據倉庫、數據挖掘、商業智能等應用的連鎖反應。
大數據造就Hadoop
大數據也給企業帶來了新的機遇。例如,通過評估某位客戶在網站上的行為,企業可以更好地了解他們需要什么支持或尋找什么產品,或者弄清當前天氣和其他條件對于送貨路線和時間安排的影響。此外,大數據分析更加注重實時性,特別是涉及到與網上交易或者金融類相關的應用。比如,網絡成衣銷售行業的在線廣告推廣服務需要實時的對客戶的瀏覽記錄進行分析,并準確地進行廣告投放。因而,未來將會有更多的TB級數據集用于商務智能和商務分析,這對計算和存儲甚至是分析平臺帶來了新的市場機會。
大數據的迅猛增加,使得傳統的數據分析軟件面對當今的海量數據顯得力不從心。新的海量數據分析引擎已經出現,如Apache的Hadoop、LexisNexis的HPCC系統和1010data的以云計算為基礎的分析服務。特別是開源的Hadoop,它已經在過去5年之中證明了自己是市場中最成功的數據處理平臺。Hadoop將海量數據分解成較小的更易訪問的批量數據,并分發到多臺服務器來分析和處理,這種方式就像把一大塊食物分解成小塊更容易讓人消化一樣。
存儲和服務器融合支持開源Hadoop
Hadoop是一個能夠對大量數據進行分布式處理的軟件框架,它可在單一的Linux平臺上使用,但是運行在由機架服務器組成的集群才能更大地發揮它的力量。
由于大數據更加強調實時處理,Hadoop集群中的節點服務器除了對計算性能有更高的要求外,對存儲也是追求大容量,以便節點機直接對存儲在服務器內部的數據進行訪問和分析。而伴隨著英特爾等相關廠商的推動,服務器和存儲融合的趨勢愈發明顯,這也使得存儲服務器成為了Hadoop集群首選的計算平臺。
我們不妨來看看英特爾是如何推動存儲和服務器的融合的。
首先,x86架構為兩者的融合提供基礎。隨著英特爾在處理器芯片的不懈開發,x86架構不僅僅在服務器上獲得巨大的成功,很多存儲架構也日趨采用英特爾處理器;其次,固態硬盤讓服務器存儲融合更為智能。隨著英特爾等固態硬盤廠商的大力推動下,固態硬盤的出現,使得服務器存儲在計算方面更趨智能;第三,海量存儲讓服務器更為充實,TB級大容量SATA盤的出現,使得服務器的容量得到極大的提升。
此外,作為SAS技術的推動者之一,英特爾在其Romley平臺上集成SAS交換功能,這實際上也是服務器與存儲走向融合的一種體現,這種做法能夠讓系統廠商充分利用系統主板空間和PCI-E端口資源,降低系統開發復雜性和成本,并讓用戶在系統使用和系統維護工作上更加簡單和容易。
“Hadoop+至強”意味著什么?
以上種種,讓人們看到了服務器和存儲融合的趨勢日漸明顯,也使得企業在構建Hadoop集群時將高存儲容量的x86機架服務器當作了不二之選。中國聯通和百度就是這樣來應對大數據挑戰的。
首先說說聯通。伴隨著智能手機的普及,廣大用戶利用手機上網和社交越來越頻繁,這也帶來了一個新的挑戰:用戶想清清楚楚了解自己的上網流量究竟用在了哪里?在這種狀況下,聯通從去年開始部署針對移動互聯網用戶的上網記錄查詢系統。
而實際上,用戶即使是簡單地訪問一個新浪的首頁,上網記錄查詢系統也會產生20多條記錄,這樣每天產生的數據簡直是天量。此前聯通曾經試圖用甲骨文數據庫來解決該問題,但經過測試后發現關系型數據庫處理到百億條數據時就顯得無能為力了,一次簡單的查詢可能幾個小時都出不來結果。
為此,聯通嘗試采用英特爾至強平臺的服務器集群和英特爾Hadoop發行版組合的方式來解決該問題,并收到了良好的效果。目前,聯通Hadoop系統集中部署在北京,各省的數據每5分鐘生成一個文件往北京傳輸并被保存和有效管理。采用Hadoop技術后,用戶輸入中國聯通任何一個城市的號碼,其上網記錄只需一兩秒就可以檢索出來。
中國聯通研究院副院長黃文良介紹,聯通Hadoop集群系統的“主力軍”是178臺基于英特爾至強5600處理器的兩路刀片服務器,每臺服務器配備了高達14TB存儲容量。此外,系統還配有NameNode節點服務器、入庫服務節點服務器、集群監控節點等若干臺,也都是基于英特爾架構處理器平臺的x86服務器。從聯通Hadoop解決方案來看,融合存儲服務器成為了大數據處理的“中流砥柱”。
再來看看百度。百度是國內較早開始探索Hadoop大數據解決之道的互聯網企業。百度從2007年開始使用Hadoop做離線處理業務,目前有80%的Hadoop集群用作日志處理。同其它互聯網企業面臨的相同麻煩是,Hadoop在百度經過5到6年發展之后,也已經走到了一個岔路口。現在百度每天的作業數超過了千萬,每天的數據處理量在6TB左右。
2011年,百度Hadoop集群的服務器規模達到了1萬多臺,2012年計劃達到2萬臺。目前百度的服務器大部分是價格在2到3萬元的基于英特爾架構的定制化服務器,標配12個1TB硬盤,32GB內存。百度高級架構師馬如悅介紹,百度的Hadoop集群規模的目標是10萬節點,而且需要充分考慮跨機房部署的問題。為此,百度正在對Hadoop的擴展上限進行研發,看一旦到了上限是否需要拆分。百度還計劃將Hadoop升級到2.0版本,主要是解決Hadoop主節點的可擴展性問題。
以上兩則例子充分說明,開源的Hadoop已經成為應對大數據挑戰的有效利器,而Hadoop集群的基礎則是大存儲容量的英特爾架構服務器,它們的高性能和大容量,以及直接在機器內部快速傳輸數據的特性,成為了大數據的應對之道。