08月21日 編譯:全世界的廠商已經達成共識:Hadoop在映射化簡領域是一款非常優秀的工具,但該軟件的進一步發展卻受到多種束縛,其中最難跨越的門檻在于對Hadoop分布式文件系統(簡稱HDFS)的高度依賴。
HDFS本身并沒問題,但在與Hadoop集成之后則要求用戶必須為其構建專用計算機集群。
雖然我們對HDFS并不過分抵觸,但大部分使用高性能計算集群處理特殊事務的客戶往往對它不太熱衷。究其原因,用戶需要為HDFS本身投入大量計算資源。雖然映射化簡功能確實會給任務執行帶來一些便利,不過這部分資源根本無法直接作用于Hadoop運行。
英特爾注意到了這一弊端,并在上周悄悄發布的自家Hadoop發行版2.5版本中加入了對Lustre的支持能力。
英特爾公司大數據與軟件服務部門總經理Girish Juneja認為,芯片巨頭的高性能計算客戶們會對新方案贊不絕口。而英特爾在發行版中全面推廣開源規則的決定也不會讓其他客戶受到影響。
“很多客戶之所以不希望部署一套完整獨立的物理集群,主要是因為弄不清楚該如何在自己的文件系統中運行Hadoop,”Juneja在越南胡志明市舉行的英特爾大數據與云峰會上指出。“高性能計算正是最新決策最直接的受益者。在高性能計算領域,很多用戶都在使用GPFS或者Lustre,我們也很高興能在自己的業務中引入Lustre。”
“我們以抽象化形式構建HDFS層,但在本質上它仍然屬于Lustre。”
“因此,我們不妨一起關注Los Alamos實驗室等研究環境的使用情況。在現有集群設施中,設備有九成以上的時間都在運行高性能計算任務,但對于剩下的一成使用時間來說,技術人員可以用來運行Hadoop任務——整個過程不涉及任何數據遷移而且完全在同一套環境內實現。”
鑒于這類實驗室往往需要處理大量數據,這種保持數據不動的方案肯定會大受歡迎。
芯片巨頭還對HBase的加密及控制列表訪問表現出關注。
“在NoSQL環境下,技術人員面臨的最大挑戰在于如何指定哪些用戶有權訪問哪些數據,”Juneja表示。“我們提供額外功能用于實現控制列表訪問”,這將使得管理員在Hbase當中設定數據訪問權限政策。
除此之外,Juneja認為加密與數據匿名化機制的引入可以促使那些過去對合規性負擔感到憂心的金融服務供應商及用戶考慮投入Hadoop懷抱。Juneja指出,過去缺乏這類安全類功能意味著Hadoop可能導致無法接受的風險。
英特爾公司還銷售用于推動訪問控制列表的自家管理軟件。在Juneja看來,這并不會招致客戶反感。
芯片巨頭的Hadoop發行版3.0將很快與用戶見面,根據目前的情況看應該會在九月份正式發布。Juneja表示,用戶可以期待英特爾最終帶來一款在凝聚力方面可與Hadoop社區比肩的出色發行版。