George Crump:簡短的回答是你必須有Hadoop分布式文件系統來執行Hadoop分析。但是,通常問這個問題的時候,IT人員實際上想問的是如果存儲資源必須直接連接,哪一個是傳統的Hadoop設計。對于這個問題的答案是NO,而且還有一些很有力的理由來佐證我們不必遵從通常的設計。
什么是Hadoop分析?
Hadoop是一種用于業務分析處理的環境。允許大量的計算算來處理超大型非結構化數據集。這些數據可以來自于各種源,但是最常見的數據是通過作為物聯網的一部分的傳感器創造的數據。為了讓其分析處理是有價值的,Hadoop必須快速處理這些數據集,而且要通過Hadoop分布式文件系統(HDFS)實現。HDFS本質上將計算轉移到數據,而不是傳輸數據到計算。
大多數Hadoop環境由商用服務器集群組成,都有本地存儲。數據加載到這些結點,在那里處理那個數據集。這稱之為MapReduce功能。一旦每一個結點基于請求處理那個數據,結果就會從每一個結點發送,然后在一個主結點合并。主結點也存儲與集群管理相關的所有元數據。
Hadoop存儲替代
傳統Hadoop存儲架構的替代品利用了共享的存儲環境,這個環境是計算結點連接的。廠商提供了這種解決方案,既可以用他們自己的HDFS兼容的插件,也可以利用亞馬遜簡單存儲服務(S3)接口的Hadoop模式。
S3是一款本地的文件系統,用來讀取和編寫亞馬遜云存儲上的文件。很多對象存儲系統支持這個接口,最終可以支持運行在本地虛擬云上的Hadoop基礎架構,而不是在亞馬遜云中。這個文件系統的優勢在于Hadoop可以訪問文件,這個文件可以通過其他工具或者聯網的傳感器編寫。相反,其他的應用也可以使用Hadoop訪問文件編寫。
使用共享存儲基礎架構存儲Hadoop數據有很多好處,包括更好更有效地保護數據,多應用訪問存儲以及更好地保護Hadoop主結點。