作為由VMware與EMC共同創立的后起之秀,Pivotal正努力面向未來打造應用程序平臺,并在近日推出了其第一款基于Hadoop大數據處理工具的產品。
這款新產品被稱為Pivotal HD,也就是Pivotal Hadoop發行版的縮寫。這款1.0版本將以相對低廉的價格與輔助插件共同為用戶帶來合約支持,成為Hadoop陣營的又一顆新星。
從技術角度講,這已經不是磁盤陣列制造商與軟件供應商EMC公司第一次推出Hadoop發行版了。隨著幾年前該公司完成了對Grrenplum并行數據庫與相關數據倉儲設備的收購,EMC成功將MapR技術與經過重新設計及品牌包裝的Greenplum HD衍生方案相結合。
不過隨著Pivotal HD 1.0版本的發布,我們看到EMC與VMware將關注重點再次集中在Apache Hadoop身上,將其2.0代碼作為Pivotal HD 1.0的創建基礎。
具體說來,Pivotal HD中包含著Hadoop 2.0.2軟件核心,即利用原有MapReduce 1.0算法與新增YARN 2.0算法共同負責服務器集群端的數據交付與處理任務,而這一切都以Hadoop分布式文件系統(簡稱HDFS)為基礎。
所謂YARN(也就是眾所周知的MapReduce 2.0)層允許Hadoop框架載入其它各類算法,并對整套集群進行分散與收集處理。
Pivotal HD的社區版作為免費發行并擁有社區支持的版本,包含有HBase 0.94.2列式數據庫、Hive 0.9.1 SQL查詢引擎、Mahout 0.8.0機器學習層以及Pig 0.10.0腳本語言等組件。Flume 1.3.1日志收集工具與Sqoop 1.4.2數據交換工具也是該社區版本的重要組成部分。
Pivotal HD企業版則加入了Spring Java框架(由VMware提供)以及名為Serengeti的Hadoop虛擬化擴展項目。企業版還擁有一套用于從其它來源將數據導入HDFS的數據載入器及一項基于HDFS的統一化存儲服務。Pivotal Command Center也是企業版中的一員,且與之前提到的各組件一樣由Pivotal自家開發。
HAWQ分布式SQL查詢引擎通過HDFS與Greenplum并行數據庫的結合實現智能化特性,因此能夠流暢地與SQL進行交互并充當企業版的一款在售插件。(我們意識到El Reg網站對于HAWQ的定義過于單純化。)
HAWQ是一種實時查詢語言并被用于代替Hive,它使用類SQL查詢并將其劃入MapReduce批量任務。HAWQ與Cloudera CDH4發行版中的Impala數據庫層也存在競爭關系,而經過加速的HBase功能也是MapR M7發行版中的組成部分。
在針對Pivotal HD 1.0發布撰寫的博文中,Pivotal公司Hadoop堆棧產品戰略與前景部門負責人Saravana Krishnamurthy解釋稱,目前有三套Hadoop代碼軟件包可供選擇:前面提到的社區版、企業版以及名為Pivotal單節點(Single Node)的版本。
社區版提供免費下載,大家可以將其融入產品并利用社區網絡支持構建起最多擁有50個節點的集群。(目前我們還不清楚用戶是否需要購買技術支持合約或者進行付費升級。)
企業版則集萬千寵愛于一身,不過用戶需要支付費用——每個服務器節點每年的社區支持費用為1000美元。相比之下,Hortonworks開出的每個集群(至少由十個節點構成)要價12000美元顯得不夠厚道,Cloudera與MapR在各自版本中開出的單節點4000美元到5000美元的價格更是有些夸張。(兩者的定價都有些模糊,且各個版本之間的功能集也并不一致。)當然,大家也可以直接購買企業版終身使用權,但Pivotal并未披露其具體售價。
HAWQ為HDFS提供的SQL數據庫查詢層與Pivotal HD企業版一樣以節點為基礎進行計費,不過Pivotal同樣沒有泄露具體價格。我們很難估量Pivotal將如何為這項功能制定計費標準,但同類關系型數據庫往往每個計算核心都要求用戶支付數萬美元。如果確定以每臺服務器節點作為基礎,則盈利空間也將至少達到數千乃至數萬美元。
如果硬要El Reg網站存儲頻道做出判斷,我們認為如果數據倉儲的價格為每TB 20000美元而僅搭配HDFS與HBase的原始Hadoop集群每TB要價500美元,則Pivotal可能會以HAWQ作為計費分界線,并為此開出10000美元每TB的價位。
如果大家采用搭配12塊3TB磁盤驅動器的惠普DL380e Gen8服務器節點,那么整體數據容量將達到36TB。根據前面得到的結論,每TB 10000美元的定價意味著用戶將需要在這臺節點設備身上花掉360000美元。這樣的要價聽起來好像是窮瘋了,但如果與IBM及甲骨文在關系類數據庫的企業版本中開出的價格相比較,以上數字還算可以接受。不過在雙插槽服務器方面,其實際支出又會大幅提升。
問題的關鍵是,排除價格因素,Pivotal真正出售的并非Hadoop支持而是HAWQ數據庫層。這家年輕的企業顯然不希望走上低調上市、后期漲價的道路。
相反,Pivotal公司希望將HAWQ定位為特定領域的關系類數據庫替代方案,并希望以競爭對手的售價以及市場承受能力作為基礎參考。不過最后的結果很可能是主流客戶根本不會為任何其它方案掏出與關系類數據庫同級別的資金投入,甚至連打個對折都不會考慮。HAWQ最終將不得不嘗試按量計費的方針,正如Linux與MySQl一樣。
而且如果Pivotal對于HAWQ的定價過高,企業用戶將很可能轉而投向Impala項目懷抱甚至選擇自主研發方案(這要看Cloudera給Impala開出怎樣的社區支持價碼)。可以說目前Hadoop的類SQL或SQL查詢層方面進入了價格競低的時代,哪家廠商敢于開出業界最低的價位、他們就將掌握該領域的階段性定價權。
不過目前還沒人急于探詢價格底限——除了Hadoop客戶自己。