大數據作為在復雜多樣的大量數據中創造價值的一項戰略,使得特定行業中的組織機構在了解客戶、部署產品,以及運營業務的方式正在發生改變。
大數據的發展使得各種組織開始應用如ApacheHadoop框架不同的數據處理及存儲技術,而不僅僅采用SQL(NoSQL)數據存儲等大數據管理、處理和分析解決方案。
什么是大數據?
截止到2014年,每一天都有25億GB的數據產生。在過去的十年中,技術進步幫助創造了連續數據流。數據的產生有多種方式,包括:上網瀏覽,智能手機的信息交流,數字業務流程,社會媒體的活動,以及針對建筑、產品和人的傳感器的數據。
數據在數量、速度和多樣性方面呈爆炸式增長,因此被稱之為大數據。
(1)數量。數量是指所有產生的數據量。十年前,數據存儲和分析都是用TB字節進行計數。而如今,企業至少需要PB級的存儲需求。
(2)速度。數據的速度既表示數據的移動量,又表示數據的吞吐量。第一個表示數據的移動量(以GB或TB/秒來衡量),第二個是表示數據提取和數據分析(以毫秒計)之間的延遲。
(3)多樣性。多樣性是指數據量和數據的異質性(結構化、半結構化或非結構化)。
捕捉、處理、存儲和分析數據的需求促進了新技術的產生,這其中包括使用NoSQL數據存儲、大規模并行處理(MPP),以及存儲和分布式系統等。
大數據的雙重性
由于數據中心是數據存儲公司的核心,自然大數據會對其公司戰略產生深刻影響。雖然一開始人們可能覺得大數據對數據中心的影響只是在存儲方面,但專家認為大數據的影響則要大得多,并且影響到數據中心的多個方面。
例如大數據在一級方程式賽車(F1)賽事中的應用。蓮花F1車隊就建立了自己的私有云,通過運行50個虛擬服務器來分析每一場比賽。在賽車的每一圈中,團隊都要收集和分析他們每一輛賽車中250個傳感器傳來的30MB的數據。
因此,在最后的蒙扎大獎賽中,蓮花F1車隊實時處理分析的數據超過了3TB。因此這給人們一個提示,大數據和數據中心之間的復雜關系所面臨的挑戰,不僅要具有適當的架構,還要能夠處理好帶寬和數據流的工作。專家已經確認了大數據對數據中心的兩個影響:大數據在數據中心基礎設施中維護需求的來源復雜性,以及大數據驅使數據中心的優化。
大數據來源的復雜性
大數據對數據中心基礎設施的影響三個方面:
(1)不斷增長的數據存儲需求;
(2)增加內部和數據中心外部的數據傳輸的需求;
(3)增加對高密度和或無架構(或非關系)計算環境的需求。
這三個因素正在推動數據中心部署更多的機架、布線和服務器,并改善其基礎設施以應對大數據的需求。數據中心還需要更多的服務器進行存儲和處理,并對大量數據進行安全分析。還要增加電力容量和制冷設施以滿足電力和冷卻的需求。機架和布線中的情況也是如此。
隨著全球對大數據的需求,數據中心基礎設施將變得比以往更加重要,雖然其最初的重點是大數據軟件。然而,資源的稀缺性對數據中心架構來說更具有挑戰性。專家指出,人們正在利用大數據技術尋找有效的方法,以平衡能源和資源之間的關系。
大數據的優化
如今,企業之間在基礎設施和運營管理競爭是一個常見問題。數據中心基礎設施組件(如存儲設備、服務器、網絡設備、機架、電源和冷卻系統、虛擬化、云計算,等等),每天都會產生這些組件的運行狀況成千上萬的提示信息,以及性能和可用性報告。然而分析所有這些提示和報告以提高運營效率,這個過程費時費力,成本高昂,因此不能被有效地由IT人員人工完成。
數據中心基礎設施的動態觀察是一個漸進的過程。因此,要在整個數據中心基礎設施部署大量傳感器。技術人員的目標是能夠收集數據中心的關鍵信息,如溫度,濕度和氣流等等。這些信息可以提高監測和分析數據中心現有的技術能力(機箱或服務器硬件和軟件,如DCIM)。
該儀器可以被理解為一個場景中有多個信息源(傳感器和信息管理系統),其中的數據分析是連續不斷(實時流媒體),因此產生了大量的數據。
大數據正在成為分析數據中心全生命周期的解決方案,能使數據中心得到進一步優化、操作和設計。這種價值不僅僅是來自大數據技術;它還可以作為提高性能的應用分析模型。該應用包括IT運營分析、虛擬化基礎設施的監測、環境監測(或綠色IT),以及操作系統分析等。
大數據分析的好處
部署大數據分析的好處是多方面的,其中包括:
(1)獲得跨數據中心基礎設施的運營可視性。
(2)監控基礎設施的實時和關聯跨層事件。
(3)與歷史數據相結合,解決流數據檢測模式和阻止性能差的問題。
大數據被要求成為一個數據中心變革者的組織管理和優化方式。但公司是否真正意識到對大數據對數據中心的影響?更重要的是,他們如何應對這種影響?然而不管怎么說,大數據已經在數據中心中贏得了一席之地。