“大數據” 需要大量計算資源來存儲、組織處理與報告結果。這一新興領域改變了數據中心服務器與其他基礎設施的選擇與部署方式。
為了在現今的商業環境中競爭并獲得成功,公司必須通過對現有數據進行多維度的分析,才能做出業務決策。分析這些不斷膨脹的大數據已經成為越來越重要的趨勢與機遇。
SearchDataCenter咨詢委員會將介紹受大數據影響的商業模式,如何改變企業數據中心的運作,并為大家提供關于新數據中心機會的獨特見解。
只需添加SAN
獨立培訓師兼顧問Sander van Vugt
大數據其實不是個很嚴重的問題。我的意思是,數據中心不會突然因為大數據的來到而突然變更他們處理海量數據的方式。
我的看法相當簡單:只需添加另一個存儲區域網絡(SAN),現在的SAN比早期具備更高的可擴展性。這意味著企業可以開始學習處理兩個不同等級存儲網絡的數據:一個是他們正在使用的關鍵數據,一個是仍然需要被保存,但不那么重要的數據。
業務應用會帶來越來越多的大數據機會
IT研究與分析公司Quocirca的創始人兼IT研究與服務總監Clive Longbottom
我們還處在真正企業級大數據的起跑線上,路還很長。
現在,數據中心使用存儲虛擬化來組織聯合數據源。商業智能(BI)提供更先進的大數據處理方案,如Pentaho、Logi、QlikTech與Birst。基于Java的編程框架Hadoop被更先進的企業作為非持久性過濾器來處理多重數據類型。NoSQL 數據庫,例如MongoDB與CouchBase,成為處理非結構化數據的有效利器。管理工具則有Splunk,可以協助完成服務器之間的數據文件管理等工作。
這些工具都需要使用自己的基礎設施來支持,并需要精心設計以得到理想的結果。分析及服務提供商不斷涌現,提供BI與云計算能力——許多組織最終都會朝這個方向發展,以避免混合環境的復雜性。IBM、Teradata、EMC與其他廠商提供混合設備來滿足業務需求,可以滿足用戶保留所有在線數據并從外部資源吸取額外的信息。混合設備處理架構處理介于與非結構化數據,處理方式比當前的大數據結構更加工程化,但造價也相當不菲。
選好服務器、存儲與架構
高級技術編輯Stephen J. Bigelow
選好用于數據分析的工具,如Hadoop與MapReduce軟件,它可以將任務分布到數千節點(處理器)上進行計算,并負責將結果收集起來。
軟件所使用的高可擴展性任務分布式計算方案與傳統的單線程執行有著本質上的不同,意味著大型服務器就擁有最大與最強的計算能力。可以假設大型的服務器也擁有最多的處理器核心,如Intel的Xeon E7-8800 v2處理器,擁有15個核心,并且支持超線程。數據中心可以通過購買這些服務器來解決大數據計算處理的問題。
精簡指令集處理器是許多大數據服務器的另一種選擇,它可以提供大量的處理器核心,而產生的熱量比傳統的x86處理器少得多。Dell開發了基于Calxeda ARM芯片的Zinc服務器來支持企業應用。
雖然更多處理器需要額外的內存空間來處理與存儲結果,大數據更專注于計算任務,所以服務器的內存總和可能會非常之大,甚至超過大幾百G。例如,HP的ConvergedSystem的Vertica Analytics Platform擁有128G內存,IBM的 System x針對Hadoop的參考架構要求服務器具備384G內存。
大數據服務器同樣還可以集成圖形處理單元,如NVIDIA公司的Tesla K40,因為GPU被設計為處理復雜的數學計算,如雙精度浮點計算可以達到 1.4T flops(一個TFLOPS(teraFLOPS)等于每秒一兆(=1012)次的浮點運算)。大量數學計算可以從多個處理器中卸載到單個GPU上,還無需附加系統內存。
任何大數據平臺在評估時都必須考慮基礎設施,如網絡和存儲。多端口網卡可以幫助服務器之間分配工作量。從千兆以太網升級到萬兆以太網,可以在大數據環境下發揮更高利用率。還必須有足夠多的交換機端口(千兆或者萬兆以太網),以滿足所有服務器端口的連接需求。此外,IT架構師還可以考慮將每個服務器的端口分攤到不同的交換機上,構建更強大可用的環境。數據中心可能需要為更新型號的網絡交換機,提供更多預算。
Hadoop與其他大數據應用程序通常通過使用本地存儲與獨立處理器,而不是共享存儲來提升性能。將磁盤任務分配到許多磁盤上獨立運行,可以最小化磁盤延時。同樣還可以考慮使用固態硬盤替換傳統的機械硬盤,甚至還可以使用更快的、基于PCIE接口的固態硬盤加速卡來提升性能。