對于企業用戶來說,大數據服務是一項較具吸引力的云服務。三大巨頭AWS、Azure以及谷歌都在力爭奪得頭把交椅,但是最后到底是哪一家能夠取得王座之戰的勝利呢?
云市場正在快速發展,同樣大數據服務也在不斷地變化著。雖然因為這三大云供應商(亞馬遜網絡服務、微軟Azure和谷歌)的起點是不同的,這使得云供應商之間的比較也變得更為困難,但那還是值得嘗試的。
云大數據是谷歌公司一直以來在搜索應用方面擁有豐富經驗具有協同效應的市場領域,但是亞馬遜網絡服務(AWS)和Azure則將吸納一些有趣的初創企業以提升各自的競爭力。
其結果就是大數據服務因功能性和經濟性方面的原因變得更具吸引力,從而獲得良好發展前景。云用戶們將在三大巨頭的大數據服務應用爭霸戰中成為最后的贏家,但這場曠日持久的戰爭似乎會持續多年。
以下讓我們逐一介紹AWS、Azure和谷歌三家現時今日的大數據服務。
亞馬遜網絡服務
AWS提供了內容極為廣泛的大數據服務。例如,亞馬遜彈性MapReduce就可以運行Hadoop 和 Spark,而Kinesis Firehose 和 Kinesis Streams 則提供了一種將大型數據集導入AWS的方法。用戶可以在Redshift(這是一個PB級的數據倉庫)中存儲數據,并進行數據比較以便于實現成本降低。Amazon Elasticsearch則是一個在AWS中部署開源Elasticsearch工具的服務,它可用于諸如點擊率和日志監控等分析應用。Kinesis Analytics可通過分析數據流輔助實現這一目標。
與谷歌公司不同的是,AWS提供了一整套更大型的數據存儲選擇。除了大量的AWS簡單存儲服務,它還提供了一個低延遲的NoSQL數據庫DynamoDB;DynamoDB的Titan版可為Titan圖形數據庫提供存儲服務; ApacheHBase則是一個PB級的NoSQL數據庫;以及關系型數據庫。
AWS還提供了一個商業智能(BI)服務QuickSight,它主要使用內存內并行處理技術以實現高速運行。它主要通過亞馬遜機器學習和物聯網平臺實現,它們可將眾多設備連接至云,并可擴展連接數以十億計的設備和處理萬億數量級的消息。
總之,雖然谷歌公司在搜索和分析引擎方面擁有較大優勢,但是AWS擁有更為廣泛的服務、BI以及圖形處理單元(GPU)實例。
微軟Azure
對于分析應用來說,Azure有Data Lake Analytics,該服務使用專用的U-SQL(SQL與C++)和一個基于Hadoop的服務HDInsight。還有一個Azure Stream Analytics服務,它有一個使用全局元數據系統識別數據資產的Data Catalog,以及連接內部與云數據源并管理數據管道的Data Factory。
Azure的大數據存儲服務是一個被稱為Data Lake Store的Dadoop文件系統。這家云服務供應商提供了各種通用的存儲產品,其中包括StorSimple、SQL 和NoSQL數據庫以及存儲塊等。
Azure還配合提供了Power BI和機器學習服務,并設有一個物聯網中心。它的云平臺還包括了一個搜索引擎。微軟的Cortana套件和Cognitive Services則提供了更高級的智能功能。
谷歌
谷歌公司的BigQuery數據服務使用了一個大多數用戶(即便是非技術人員)都可直觀學習使用、類似于SQL的接口。它可支持PB級數據庫,它能夠以每秒10萬行的速度進行數據流處理,并作為在云存儲中運行數據的替代選項。BigQuery還支持地域數據復制,即用戶可以自行選擇存儲他們數據的位置。
BigQuery是一個無需專用基礎設施實例的所用即所付服務,它能夠讓谷歌使用大量的處理器來維持低延遲的快速查詢響應。與Spark集成,它還支持Hadoop、Pig和Hive。企業用戶還可以使用谷歌的Analytics 和DoubleClick作為數據源,那是一個廣告業用戶收集供BigQuery使用數據的工具。谷歌的Cloud Dataflow還允許用戶對云數據服務進行排序。
谷歌公司提供的其他大數據服務還包括一個用于非關系型數據的NoSQL數據庫Cloud Datastore;一個大規模可擴展NoSQL數據庫Cloud BigTable;一個針對機器學習應用的托管平臺Cloud Machine Learning;以及諸如翻譯器和語音轉換器這類的輔助工具。
谷歌在大數據服務中所明顯缺少的一個產品是GPU實例。鑒于GPU所帶來令人難以置信的性能提升,為數據分析應用編寫GPU代碼確實是一個具有高附加值的技能。谷歌公司在GPU實例產品系列的缺失著實有點讓人頗為費解,尤其是AWS公司在2011年就推出了該類服務,而Azure則在2015年新增了該服務。
AWS、Azure和Google:一場你追我趕的大數據應用競賽
在大數據服務的很多方面,云供應商三大巨頭都是步調一致的,但是在性能和易用性方面還是存在著一些差異的,這需要通過實際測試才能予以區分。雖然谷歌公司可能在搜索技術上擁有一定優勢,但它在BI前端應用方面落后,而擁有Cortana的微軟則在此擁有先機。谷歌公司GPU實例的缺失也是一個顯著的區別。
鑒于大數據產品服務如此繁多,而所有的產品都還處于生命周期的初期,它們之間的差異還會因用例或數據類型不同而不同。要在三巨頭中做出選擇將是比較困難的。確定最適合你自己的云服務的一個方法就是在沙箱中用幾個星期的時間來試用各種服務以便掌握它們的第一手使用體驗和價格信息。