云中的大數據并不僅僅只是 MapReduce。在大數據這樣一個不斷增長的市場中,捕捉下一個大的創新才是關鍵所在。
亞馬遜和谷歌之間關于云市場的霸主之戰是多方位的,但是其中最為突出的是大數據云。
眾所周知,谷歌公司發明了MapReduce,但是目前AWS對于這項技術卻擁有著更為廣泛的使用平臺。流數據分析可能是下一個的應用趨勢,而谷歌公司宣稱,他們新的數據流技術是優于MapReduce的。
“在明年,谷歌公司將不會僅僅是復制AWS所提供的技術而已,”總部位于馬薩諸塞州Cambridge市的Forrester 研究公司的分析師James Staten說。“他們必須推出能夠有別于平臺的產品;很顯然,他們所提供的大數據云服務是他們認為能夠體現出谷歌公司獨特個性的東東。”
在最近進行的一次針對專業人士的調查,375名的受訪者中有30%認為公共云基礎設施即服務將是最深刻影響他們企業大數據分析戰略的IT發展趨勢。其中34%的受訪者還認為,大數據軟件即服務具有最大的影響,Nik Rouda在一份五月份的ESG報告——企業數據分析趨勢:市場驅動、組織動態與客戶期望中如是表示。
Rouda在這篇報告中表示,大數據和公共云趨勢之間存在著較高程度的重疊。這兩種云模式也可被視為收集和分析大量數據的所在,而這是之前未被涉及過的。
如今的戰場:MapReduce和BigQuery
亞馬遜網絡服務(AWS)已經依靠其彈性MapReduce服務開發了一個強大的業務,這個服務最先于2009年推出。如今,無論是大公司還是初創公司都會使用這項服務來深入地了解海量存儲數據,例如客戶購買行為和人類基因圖譜等特殊分析應用。
“Hadoop的空間真的是依賴于MapReduce的,所以有不少的業內領先者獲得了市場成功…所有的推廣和得到良好的推動,”Rouda說。
但是,谷歌公司的App Engine MapReduce仍然還是試驗性質的。
谷歌公司最流行的大數據云服務就是BigQuery,該項服務可允許用戶對大型數據集執行SQL類的查詢操作。
Workiva公司是一家財務報告軟件供應商,該公司會把他的所有應用程序日志和應用程序分析信息全數發送給BigQuery來運行一些分析功能,例如應用程序在使用一段時間之后的運行性能、功能使用以及跟蹤趨勢,總部位于愛荷華州Ames市的某家公司的平臺開發高級主管Dave Tucker說。在大數據查詢中插入SQL這類的接口也影響著新興大數據應用的發展趨勢,Rouda說。
Rouda表示,MapReduce似乎也是人氣漸衰,諸如Spark這樣執行實時處理的應用程序以及使用SQL查詢命令的項目都會搜索大數據而不是對MapReduce執行寫操作。
與之相反,一些AWS的大數據從業人員則表達了不同的意見。
“對于我來說,MapReduce也就僅僅是一個概念而已,這是一個你如何處理大量數據的概念,即分發數據、壓縮數據并生成數據摘要,”總部位于馬薩諸塞州Lexinton市的一家生物技術研究公司SynapDx的首席軟件架構師Ed Abrams說,“我是根本無法想象它會就此消失的。”
在前面的地平線上:流數據分析
谷歌公司在六月份的時候啟動了一個針對新數據分析流程的內測程序(即所謂的Dataflow),該公司的官員稱之為是能夠檢查實時事件流和實施多步驟處理管道的另一個MapReduce發展方向。
這是不同于用于批量分析的MapReduce的,Rouda說。
“可能你希望找到,‘讓我看看所有的客戶,然后讓我看看在東北部的所有客戶,再然后請告訴我是否有折扣,’”Rouda說。“毫無疑問,它的實時性要優于MapReduce。”
亞馬遜的最新服務之一Kinesis與之類似,尤其在處理實時數據流方面。Kinesis已普遍上市超過十個月。
至于Dataflow上市時谷歌公司是如何定價的問題,Rouda表示,這是市場必須以其為中心的新一代技術。
“如果你無法找到能夠為彈性MapReduce進行應用程序開發的專業人士,那么你的Dataflow數量只能是個位數了,”他說。“在這一點上,它就好像主要是以在谷歌云平臺上開發和使用谷歌數據存儲的所有新應用程序為目標的。”