如今,云計算的熱潮似乎還沒散去,行業廠商就已經開始關注下一個熱點:大數據。而與以往的炒作周期一樣,現在的大數據對于用戶來說其來源比較混亂,因為供應商提出了自己獨特的,并且經常相互矛盾的定義和術語。
大數據定義之所以混亂的最常見的原因,是人們將大數據存儲與大數據分析的結果混為一談。“大數據”一詞起源于開源社區,其開發和分析過程比傳統的數據倉庫速度更快,擴展性更強,并且可以通過網絡在用戶每天產生的大量非結構化數據中提取價值。
大數據的存儲是相關的,其旨在解決大量的非結構化數據,助長企業級的數據增長。而擴展NAS和對象存儲這些技術支撐大數據存儲,已經存在了多年,并且人們對此有著充分的了解。
在一個非常簡單的層面上,大數據存儲無非是存儲用于產生大量的非結構化數據的應用程序處理的大量數據。這包括高清晰度視頻流,油氣勘探,基因組學等數據。
一個大型存儲廠商的一位營銷高管表示,其公司正在考慮將“海量數據”作為其大數據存儲條目的名稱。
大數據分析是比較緊急的和多方面的,但IT人員對其理解較少。大數據分析發展過程在歷史上一直受到網絡的推動。然而,大數據分析的應用程序正在發生在所有主要垂直行業領域,現在的快速增長是一個增長的機會,值得所有供應商進行炒作。
大數據分析是快速增長的多樣化的區域。因此,試圖確定它有什么用可能是無益的。但是,可以識別和鑒定大數據分析的技術特征和共同點。這些包括:
·在可擴展性方面,傳統的數據倉庫處理速度太慢,而且有限制;
·融合來自多個數據源的數據的能力,其中包括結構化和非結構化的數據;
·從數據來源獲取信息是至關重要的,其中包括越來越多的移動設備、無線射頻識別技術、網絡,以及自動化技術。
此外,在多樣性大數據分析中可以找到至少四個主要發展片段。這些片段是MapReduce,可擴展的數據庫,實時流處理和大數據應用。
(1)MapReduce
ApacheHadoop是MapReduce段開始的好地方。Hadoop起源于谷歌公司在2004推出的一份文件,描述了一種用于并行網絡的數據處理稱為MapReduce的概念。此后不久,ApacheHadoop的誕生成為一個開源實現MapReduce的過程。周圍的社區正在快速成長,生產加載項擴展了企業數據中心內的ApacheHadoop的可用性。
Apache的Hadoop的用戶通常在商用服務器建立自己的并行計算集群,各有專門存儲在一個小型磁盤陣列的形式,最近,也開始采用固態硬盤(SSD)的形式。這些通常被稱為“無共享”架構。而存儲區域網絡(SAN)和網絡附加存儲(NAS)的可擴展性和彈性,通常被視為缺乏I/O性能,這些集群需要超越標準的數據倉庫的能力。因此,Hadoop的存儲是直接連接存儲(DAS)。然而,使用SAN和NAS的“二次”存儲正在成為新興的形式。
一個潛在的Hadoop用戶面臨的采購選擇,從單純的開源到高度商業化的版本,其范圍內越來越廣泛。Apache的Hadoop和相關的工具都可以免費在ApacheHadoop的網站下載。Cloudera的公司提供了一個商業版本,其中包括一些Cloudera的插件和支持。其他開放源代碼的變種,如Facebook的distribution,也可以從Cloudera公司獲得。其商業版本包括MAPR,EMC公司現在將其合并成一個Hadoop應用。
(2)可擴展的數據庫
而Hadoop已經攫取了大部分的頭條新聞,因為它在數據倉庫環境下具有非結構化數據的處理能力,更有向大數據分析的發展空間。
結構化數據也得到了大量的關注。一個充滿活力和快速增長的社區圍繞NoSQL,這是一個開源的、非關系型、分布和橫向擴展的數據庫集合的結構,可以滿足網絡規模的數據庫設計的高流量的網站和流媒體的需要。面向文檔的實現包括MongoDB(如“humongous”DB)和Terrastore。
開源社區所產生的另一種面向分析的數據庫是正在開發使用的scidb,包括環境觀測和監測,射電天文學和地震,等等。
傳統的數據倉庫供應商并沒有袖手旁觀。甲骨文公司正在打造其“下一代”大數據平臺,將利用其分析平臺和內存計算的實時信息傳遞。Teradata公司最近收購了ASTER數據系統公司,將ASTER數據的SQLMapReduce添加到其產品組合中。
(3)實時流處理
對于多個數據流進行實時分析的StreamSQL從2003年開始使用,然而到現在為止,StreamSQL只能夠滲透到一些比較小的小眾市場,如金融服務,監視和通信網絡監控等領域。而隨著行業廠商和用戶對大數據的興趣不斷增長,StreamSQL勢必會得到更多的關注和尋找更多的市場機會。
Streamsql是生長計算研究的一個區域稱為復雜事件處理(CEP),對真實世界的事件數據的低延遲處理技術。無論是IBM,還是InfoSphereStreams公司,以及StreamBase系統公司的產品都在這個領域中。
(4)大數據應用
作為大數據分析的興趣擴展到企業數據中心,供應商群體看到了一個機會,把一起大數據“家電”。這些設備的服務器,網絡和存儲設備集成到加速信息傳遞到一個機箱和運行分析軟件用戶。這些設備針對企業買家都會看重大數據設備易用性和價值,以及其固有的實施和使用的特點而推出的。圍繞Greenplum數據庫引擎這個領域的廠商,其中包括EMC公司,IBM和Netezza公司,MAPR公司最近推出了Hadoop商業化版本,預集成系統,內置設備,可與甲骨文和Teradata公司的版本相媲美。
大數據分析的大數據存儲
大數據分析過程的從業人員一般都不喜歡共享存儲。他們喜歡DAS的各種形式,從SSD到其內部并行處理節點的高容量的SATA硬盤。共享存儲體系結構,如SAN和NAS,通常被認為是相對緩慢的復雜的,首先,是其價格昂貴。這些特點都不選用于大數據分析系統的系統性能,不能滿足商品基礎設施的低成本的蓬勃發展。
實時或接近實時信息傳遞是大數據分析的定義特征之一,因此,延遲是可以避免的,無論何時何地。在內存中的數據是良好的,至少比采用光纖傳輸到機械式硬盤要好,但也許比其他任何事情都更加糟糕,SAN在規模需要分析應用的成本讓人望而卻步。
在大數據分析中,有一個共享存儲的案例。然而,存儲廠商和一般的存儲社區還沒有成為大數據分析的實踐者。這個例子可以在ParAccel的分析數據庫(PADB)與NetAppSAN存儲中看到。
數據存儲技術的開發人員表示將存儲看作從物理設備遷移到一個更虛擬和抽象的實體的實現。其結果是,共享存儲環境可以并且應該被大數據從業者視為他們可以找到潛在有價值的數據服務,如:
(1)數據保護和系統可用性:基于存儲的復制功能可以不需要數據庫創建數據副本,當系統故障和數據損壞事件發生時,重新啟動可以恢復系統。
(2)縮短部署新應用程序和自動化流程的時間:通過可重復使用的數據副本,當新的應用程序都可以在網上迅速被建立,提高業務靈活性。
(3)變更管理:共享存儲可以幫助保持一個“永遠在線”的能力,可能減少所需的改變和升級,以及對在線生產環境的影響。
(4)生命周期管理:當共享存儲可以作為記錄的數據庫時,系統的演化變得更加容易管理,并且那些已經廢棄的應用變得更加容易丟棄。
(5)節約成本:使用共享存儲作為一個無共享架構,可以輔助DAS降低成本和處理器節點的復雜性。
以上提到的好處每個人都可以被映射到無共享架構的分析。我們可以期望看到更多的存儲廠商這樣做一段時間。例如,雖然尚未公布,EMC公司可以憑借其基于MAPR設備整合Isilon或Atmos公司的存儲。
大數據是一個大問題
傳統的數據倉庫是一個大而相對較慢的生產商信息的業務分析。它從有限的數據資源,并依賴于反復的提取、轉換和加載(ETL)過程。客戶在快速尋找獲取信息的基礎上,從多個數據源同時淘汰掘金。大數據分析可以被定義,在一定程度上,需要從多個數據源解析大數據集,并產生實時或接近實時的信息。
大數據分析代表了一個巨大的機會。IT組織都在探索上述來自社交網絡的繁榮,解析基于網絡的數據源和提取價值分析技術。然而,現在有了一個更大的機會,那就是物聯網成為了一種新興的數據源。思科系統公司估計全球目前約有350億個可以連接到互聯網的電子設備。任何電子設備可以(有線或無線)連接到互聯網,甚至汽車制造商正在建設連接到車輛的互聯網。“連接的”汽車將在2020年成為司空見慣的事情,并產生數以百萬計的瞬態數據流。
理解大數據分析
利用多個數據源,如物聯網的力量將會遠遠超出傳統的數據倉庫技術。這將需要模仿人類大腦功能的過程。我們的大腦需要大量的感官數據流,并創建必要的相關關系,讓我們知道我們在哪里,我們在做什么,最終我們在想什么,所有這些都是實時的。
關于作者
約翰·韋伯斯特是評估公司Evaluator集團的高級合伙人,主要從事數據存儲技術,正在進行的研究包括硬件、軟件和服務管理。