引言:直至今日,企業雖然認識到大數據分析能給企業帶來發展的價值,但傳統的數據管理和安全問題已經阻礙了大數據的部署。企業在什么情況下適合大數據,這是由企業處于發展中的位置決定的。
許多提供大數據業務的廠商肯定都爭相想做企業的生意。畢竟,大的數據不是最小的數據集合,但大數據需要充分利用盡可能多的數據管理。如果你正在尋找一個部署大數據的定義,這卻不是完整的定義。你需要一個增長的數據中心基礎設施相匹配所有這些增長的數據。
這個大的數據熱潮才真正開始與Apache Hadoop的分布式文件系統(HDFS),開啟了基于成本效益規模的服務器使用相對便宜的本地磁盤群集的作為海量數據分析的時代。不管企業發展如何迅速,Hadoop及其相關大數據的解決方案,都可以保證持續分析各種原始數據(即,不完全結構化的數據庫)。
問題在于,一旦你想從大數據入手,會發現傳統的數據項目,包括那些熟悉的企業數據管理問題又會涌現出來了,比如數據的安全性,可靠性,性能和如何保護數據。
雖然Hadoop HDFS已經趨于成熟,但仍有不少差距以滿足企業需求。事實證明,當大數據在進行產品生產數據收集時,這些存儲集群(DAS)上的產品可能實際上沒有提供最低的成本核算。
這里面,最關鍵的一點其實是大企業如何將大數據盤活了。我們當然不是想簡單地拷貝、移動、備份大數據數據副本,復制大數據是一個大的工作。我們需要管理作為安全和謹慎,甚至更多的要求,所以,比小的不同的數據庫,不要抱著盡可能多的詳細信息。如果我們的關鍵業務流程的基礎上新的大數據的儲存中,我們會需要它的所有的操作彈性和高性能。
大數據歸屬的新選擇
物理DAS仍然是Hadoop最好的存儲介質,因為相關的高水平的專業和業務的公司的都是經過研究和實踐來確定存儲介質。但這樣基于HDFS的數據儲存卻有很大的問題。
首先,默認方案是所有資料進行復制,移動,然后備份。HDFS是基于大數據塊的I/O優化,省去了數據交互的時間。以后的使用通常意味著數據復制出來。盡管有本地快照,但他們并不完全一致或時間點不完全可恢復。
對于這些和其他原因,企業存儲廠商聰明的將HDFS做改變,一些技術狂人類型的大數據專家使Hadoop計算利用外部存儲。但對許多企業來說,它提供了一個很好的妥協:無需高維護存儲或存儲新的維護方式的適應,但這有一定的成本。
許多供應商,如EMC的 isilon提供對Hadoop集群遠程HDFS的接口,是生意量比較大的企業首選。因為他們將是在isilon里,進行任何其他數據處理大數據的保護,其中包括安全和其他問題。另一個好處是,在外部存儲的數據通??梢栽L問其他協議(如網絡文件系統,NFS)的儲存,支持工作流和限制數據的傳輸和企業內需要的數據副本。NetApp也基于這樣的原理處理大數據,一個大的數據參考架構,結合一個組合的存儲解決方案,直接進入Hadoop集群。
另外值得一提的是,虛擬化大數據分析。理論上,所有計算和存儲節點可以都可以進行虛擬化。VMware和RedHat/OpenStack有Hadoop的虛擬化解決方案。然而,幾乎所有的HDFS主機節點不能解決企業的存儲問題。一個有創意的新公司bluedata提出一個新的選擇。它模擬Hadoop計算方面使企業把現有的數據集——SAN/NAS——加速和轉儲到它的HDFS的覆蓋之下。在這種方式中,大數據分析可以做到一個數據中心的數據沒有任何變動,從而使用新的存儲架構和新的數據流或數據管理的所有變化。
大多數Hadoop分布都是從近Apache的開源HDFS(目前軟件定義的存儲大數據)開始,區別是它們采取了不同的方法。這基本上就是企業Hadoop所需存儲,從而建立自己的兼容存儲層在Hadoop HDFS上。MAPR版本是完全有能力處理I/O快照復制的支持,同時和原生支持的其他協議兼容,如NFS。它也非常有效,并有助于主要提供企業業務智能應用程序,運行決策支持解決方案依賴于大數據的歷史和實時信息。類似的想法,IBM已經出爐的高性能計算系統存儲API為Hadoop發行版作為一種替代HDFS。
另一個有趣的解決方案可以幫助解決數據的問題。一個是dataguise,數據安全啟動,能切實有效地保護Hadoop的大數據集的一些獨特的IP,它可以在一個大的數據聚類自動識別和全局覆蓋或加密敏感資料。水平線數據科學(Water LineScience)是這個領域的新興技術,如果你連線登陸你的數據文件到Hadoop,無論數據在哪里,即使是HDFS,它都將自動儲存。 大數據提供的產出物有助于快速建立商業應用,利用數據的來源和位置來統計商業所需的資料。
D1Net評論:
對于企業來說,如果一直持有Hadoop的管理或企業數據中心存儲的興趣,這是一個好時機去update自己對大數據的了解,如果你想跟得上大數據的腳步,就不應該拒絕新技術的應用。