芯片巨頭英特爾正在加倍努力以捍衛其寶貴的數據中心領地——具體方式為開發其自有技術以推動數據管理與分析技術——例如Hadoop——的實現。
為了確保至強芯片能夠在數據中心管理員們的考量之下成為運行大型Hadoop集群的首選平臺,英特爾在本周二宣布將為Intel Distribution for Apache Hadoop(其自有、以開源為主的軟件衍生方案)添加多項新的功能與技術。
這一輪更新當中包含Intel Graph Builder for Apache Hadoop的第二個版本、Intel Analytics Toolkit for Apache Hadoop以及Intel Expressway Tokenization Boker。
在眾多英特爾專為Hadoop打造的主要項目當中,“Rhino項目”尤其值得關注,它專門負責提供一套利用x86 AES處理器指令為Hadoop提供硬件加速型加密與解密功能的框架。該項目的出臺正是為了對近來沸沸揚揚的斯諾登事件作出回應,希望借此克服據稱已經被美國國安局成功破解的某知名芯片組加密功能、從而挽回FreeBSD在x86 RdRand操作中的可靠性危機。OpenSSL還專門針對這一問題作出了敦促。
不過為了打造這套Hadoop發行版本,英特爾已經“在HBase當中啟用了額外的加密功能,”英特爾大數據業務部門產品管理負責人Ritu Kama在接受采訪時指出。這些功能“能夠對HBase表與列進行透明化加密,同時將HBase中的加密機制擴展至單元級別。”
這套方案的處理速度比利用軟件在同一套硬件堆棧上運行要快二十倍,Kama告訴我們。
其它新功能還包括Intel Analytics Toolkit,旨在幫助打理數據的工作人員訪問一整套算法以及機器學習模式。
“我們正在開發一整套構件或者算法,希望能讓用戶直接利用這套工具包創建應用程序——無論是否按照建議采取集群化形式,”Kama指出。
“大家并不需要每一次都從頭開始。我們將提供一套流程,引導用戶將數據放置在輸入目錄之下。數據的格式可以多川多樣——網絡日志文件、結構化或者非結構化均可……之后我們將幫助用戶按照流程將數據整理成標準化格式,從而使算法能夠加以使用,”她解釋道。
展望未來,英特爾“可能還會提供一套編程環境或者IDE集成方案,開發人員可以借此直觀地通過拖拽實現數據導入,”她表示。
除了這款工具包之外,英特爾還發布了“Graph Builder”,旨在幫助管理員們順利接納Hadoop所存儲的數據并將結果匯總為圖形形式——“零售商們可以根據由其歷史銷售數據與社交媒體數據整理出的信息創建圖形分析結果,從而更好地理解品牌號召力與客戶購買習慣之間的真實關系,”英特爾方面在一份錄音聲明中解釋道。
英特爾之所以將大量精力投入到Hadoop相關項目中來,是因為這家芯片巨頭感覺到該平臺即將成為數據處理的核心軟件系統之一。另外,英特爾還希望確保自己推出的芯片產品能夠保持與AMD等競爭對手的領先優勢。出于這種考量,英特爾在自己的Hadoop項目中采用了大量開源技術,除了一套整體化“Intel Hadoop Manager”層。
“我們并不打算真正建立起一套規模龐大的排他性知識產權體系,”英特爾公司數據中心軟件部門渠道、營銷與業務運營總經理Jason Fedder解釋稱。“我們的努力重點在于創建起經過調試優化的構件方案,從而加速我們的核心至強產品線在數據中心內的實際表現。”
這套分析工具包將于2014年第一季度正式推出,基價格也將由英特爾屆時公布。Graph Builder工具包則將于明年一月以開源可下載方式公布。
至于英特爾的分銷商(其中包括管理方),每個節點的價格大約在1500美元到3300美元之間,“具體數額取決于節點的總體數量以及實際支持方案(一周七天、每天二十四小時;或者每周五天、每天九小時),”英特爾公司發言人在郵件中告訴我們。