EMC在大數據分析上下了大筆投注,并整合Hadoop文件系統到其Isilon向外擴展的文件管理器,提供并允許他們的Greenplum分析產品使用Hadoop數據。
Hadoop是一種對象式的分布式和可擴展的開源文件系統(HDFS),跨datanodes(數據節點)和一個單一的NameNode(命名節點)的集群實現,在一個更大的集群中,帶有第二個NameNode來快照主節點的數據結構,并在主節點失敗時用作重建資源。NameNode包含關于在datanodes上文件存儲的元數據,在需要時為它們服務。
HDFS今天流行在大學,特別是在生命科學領域,以及一些Web 2.0應用。 EMC強調的一部分是NameNode是一個單點故障,實際上沒有針對它的高可用性,他們聲稱,排除了其用于企業級數據中心的可能性。該公司估計,有一個巨大的機會去提供Hadoop系統,在企業數據中心里用于大數據分析,如果HDFS能夠可用達到企業級強健度,并由普通存儲管理員管理的話。這就為什么要提供一個針對Greenplum HD分析前端的Isilon-HDFS整合存儲后端。
EMC的Isilon OneFS v6.5版本,提供了一個一站式的Apache Hadoop商店,它被看作Hadoop世界缺少的設施,即:
一個共享的,而不是一個專用的存儲基礎設施;
高可用性的NameNode;
通過快照(SnapshotIQ),復制(SyncIQ)和備份(NDMP備份)的保護;
提高存儲效率超過3倍,從基本HDFS的數據鏡像到80%的水平;
單獨擴展計算和容量的能力;
自動化數據導入/導出通過NDS,CIFS,FTP,和HTTP
Isilon的產品管理總監Nick Kirsch,談到NameNode的實施:“這是唯一的。NameNode現在是我們的分布式元數據的一部分,每個節點都是一個NameNode。”
下一代Greenplum已經被Apache Hadoop認證,提供平臺管理和控制,以及與Greenplum數據庫的并行分析訪問。EMC公司還提供設計和培訓服務,世界各地的24x7支持和發展路線圖。
EMC對比了他們與甲骨文和NetApp的方法,與任何一個都不同,EMC聲稱可以在他們的存儲陣列上提供Hadoop的原生整合;針對NameNode的完整HA;相同級別的存儲效率;多協議訪問和企業級保護功能。
普渡大學曾在其統計部門試用Isilon/Hadoop的組合并獲得認可,他們說:“現在沒有一個單獨的Hadoop數據豎井的需求,它們的用戶現在有了“一個單一的共享存儲資源,針對數據計算和分析。”他的統計人員做出更多的統計信息并付出更少的Hadoop基??礎設施管理。
EMC公司聲稱這些新增的功能,將會使Hadoop更多的用于企業,并且企業Hadoop的用戶將越來越多地看到數據科學家(見Wikibon的描述)來統計分析他們有意義的大數據集——信息。畢竟,決策數據的能力是大數據的獲利。
在Isilon上的EMC Greenplum HD可立即通過EMC及其渠道合作伙伴銷售。