為大數據選擇新的硬件、存儲和其它數據中心基礎設施,這是IT專業人員們所面臨的新挑戰。
大數據是具備空前規模和形式的非結構化信息。它包括視頻、圖像,以及半結構化的數據(例如在Web上常見的電子郵件和文本)。隨著基于傳感器的移動Web監視設備和輸出數據越來越多,可用的數據量將繼續呈指數級增長。
推行大數據戰略的壓力往往來自高層,因為管理者相信,能有效運用數據的企業將比落后者具備更大優勢。大數據戰略需要數據中心基礎架構作出的改變主要有五點:
一、支持大數據的硬件
大數據導致的存儲需求量每年都將增長60%至80%.鑒于這種快速增長和當前的成本限制,IT采購者應選擇在可擴展性和存儲速度上最具成本效益的硬件。類似大型機的向上擴展體系結構重新興起,因為它們能夠經濟高效地擴展,降低總體擁有成本。同樣,在提升性能方面,固態硬盤(SSD)和固態卡帶都比傳統磁盤做得更好。
類似IBM Netezza和Oracle Exadata的硬件裝置已被證實能有效兼顧可擴展性和性能。考慮采用硬件裝置來支持關鍵大數據業務,但也應確認設備的架構能在未來提供快速性能升級。
二、圍繞大數據選擇存儲
在成功的大數據策略下,企業可以將來自內部的高質量數據與Hadoop挖掘自多個云供應商的低質量數據進行整合。這也就改善了業務相關數據的質量,讓分散在各地的數據能組織成為具備一致和及時性的大數據資源。
大數據正在改變中央數據倉儲和松耦合數據集市的決策基礎,后者的存儲庫規模要小得多,既可以替代中央數據倉庫,也可以成為中央數據倉庫的數據源。隨著各地辦事機構或者國際子公司的增加,中央管理層在業務線擴大的同時更需要高質量的數據來維持管控力度,避免權力的分散。
新的軟件技術承擔了繁重的存儲相關處理工作。由Composite Software(剛剛被Cisco收購)和Denodo提供的數據虛擬化軟件能自動發現數據源并提取數據充實全局元數據存儲庫,為整個組織提供跨越內部和外部的所有數據的公共數據庫外觀和體驗。主數據管理軟件通過創建公用主記錄提高了數據質量,消除了費時的數據倉庫檢索。
企業Web外鏈需求加深了對公眾和混合云的依賴。許多大型企業發現他們需要來自于多個云供應商的大數據,卻不能指望供云應商會負責整合這些數據。企業只能從數據虛擬化供應商尋求工具來跨多個云整合大數據。
三、利用SSD的存儲分層策略
存儲成本很高,而且越快的存儲也就越昂貴。最重要的是,大數據要求存儲同時提供大容量和“大”性能。存儲分層在存儲資源池中提供多種成本/性能選項,從昂貴的高性能固態存儲到傳統的串行SCSI(SAS)磁盤存儲,這些選項的組合降低了總擁有成本。在主內存和磁盤之間增加一個固態層將有助于將大數據任務的性能維持在高位,而且不會引起存儲成本失控。
SSD的用量應遵從“90-10”的存儲分層規則:成本和速度的最佳組合比例是:使用大約10%的SSD和90%的機械硬盤。這一策略讓IT公司用僅增加10%成本的代價就能獲得90%以上的性能提升。主內存和SSD的容量比例也遵從同樣的規則。
由于SSD的性能價格比的提升速度超過傳統磁盤(容量提升,價格降低),預計在不久的將來傳統磁盤和SSD的配置比例會變為遵循80-20的規則。
IBM BLU Acceleration這類最新的縱列和內存數據庫設施能利用SSD獲得遠超傳統磁盤的性能,它們的設計能夠有效發揮SSD這類“扁平化磁盤”的優勢。
四、大數據分析和報告能力
雖然嵌入式分析工具已經可以利用報告和自動優化功能改善業務流程,但大數據再次改變了分析規則。例如,和傳統上對單個客戶進行主要行為分析洞察相比,大數據戰略能為每個客戶創建一個迭代和洞察分析線程,讓公司能跟蹤客戶并更好地維持與所有客戶的長期關系。
典型的大數據分析從業人員被稱為數據科學家,和常規的IT主管不同,他們更可能同時擔任CMO(營銷總監)。然而,IT專業人員必須明白他們公司的大數據策略對數據科學家的工作產生的影響。
這意味著需要在自動化的報告和嵌入分析之外人工添加第三方審議內容:專設和松散耦合分析。支持專設查詢的分析和統計工具是必要的軟件前提。許多傳統IT供應商以及云供應商——如IBM、Cognos和Birst——正在擴充這些功能。
五、企業中的Hadoop Hadoop為數據密集型應用提供“緊貼著”MapReduce文件系統處理程序框架的分布式文件系統。此文件系統支持針對富文本數據的并行事務擴展,例如社交媒體數據。
許多IT公司通過在企業內創建自己的Hadoop版本來解決從Web獲取Hadoop數據源的問題。然而,缺乏專業知識是一種挑戰:精通這種發展中的Web數據管理框架的專業和藝術的IT管理人員猶如鳳毛麟角。
組織開發他們自己的數據管理工具時應該留意,如IBM、Oracle和EMC的這些主要供應商,往往既提供專有產品用于訪問Hadoop數據,也可進行定制開發,讓IT公司不需要專門的數據歸納措施就能訪問需要的數據。如果您決定搭建自己的數據平臺,供應商也提供整合服務,使Hadoop更貼合現有IT資源來高效運作。
每個公司圍繞大數據的相關決策都會有所不同。請記住,隨著圍繞大數據的技術演變,大數據戰略也應當及時調整,與時俱進。