當你已經準備好實施大數據,請仔細的評估云提供商提供的大數據功能,確保找到最合適的。下面我們來看一下四種云服務產品。
當談到在云端實施大數據戰略時,好消息是你會有很多選擇。但是,這同時也是一個壞消息。來自Forrester Research最近的一份報告強調,盡管大數據云服務很強大,他們也有可能造成混亂,從而需要企業采用比傳統的方式更加靈活,瑣碎的方法。該報告的結論是:在云計算領域中沒有一種服務是適合所有狀況的。
最大的三家公有云平臺—亞馬遜Web服務(AWS)、微軟的Azure和Google--提供了范圍廣泛的大數據服務,但每一種服務又完全不同。由于每個公司的大數據需求不同,技能集也不同,評估所有的平臺來確保你獲得的是正確組合的服務非常重要,Kirk Borne,喬治梅森大學的數據科學家,天文物理和計算科學教授同時也是一位知名的大數據專家這樣建議道。
“任何大數據的實施都必須從你試圖解決的問題開始,”Borne說。“你需要在花大把資金之前先了解企業的情況,確保你從可用的服務中選擇正確的那個。”
下面來看下這三大主流云平臺提供的大數據產品,以及第四家Altiscale,這是一家比較新的公司,有自己的Hadoop云平臺。
AWS:選擇和機遇
在每一項遷移到云的決策中,一個平臺的“生態系統”,即服務、合作伙伴、專家和系統集成師扮演了重要的角色。根據Ouoble,一家在 AWS,Google和Azure平臺提供大數據即服務公司的聯合創始人兼CEO Ashish Thusoo的觀點,AWS的生態系統要比其他的云平臺更大、發展得更好。AWS生態系統使得這個平臺對于想要將大數據遷移到云中的企業客戶來說非常引人注目和令人感到安心,他說。
這種吸引力的一部分原因是因為各種可用的服務。亞馬遜的一整套大數據服務包括了Hadoop的彈性MapReduce即EMR;用作數據流處理的 Kinesis;基于集群的數據倉庫RedShift;面向亞馬遜關系型數據庫RDS的Aurora和My SQL(等其他);NoSQL數據庫DynamoDB;超簡單存儲或者S3;還有全新的Amazon Machine Learning。
“AWS能夠提供過去的歷史報表和儀表盤,現有的數據流處理和分析,和現在未來預測的建模工具,”Mike Gualtieri,一名Forrester Research的分析師,Forrester大數據研究報告合著者說。他認為AWS的RedShift對那些已經厭倦了很慢的傳統數據庫環境中的報表的企業客戶來說尤其誘人。“RedShift是AWS服務中發展最快的,將你的數據遷移到那里運行所有的分析非常合理,”他說。“這真的是一種云的合理使用方式。”
Google BigQuery:開發者之夢
Google的大數據平臺BigQuery,是為流數據和持續分析而設計的。該平臺有一個預測性的數據API,一些其它的Google專屬API和標準的 Java產品。“關于Google的問題是它是非常面向開發人員的,比其他平臺更加如此,”Gualtieri說。“在Google,你必須接受他們專有的技術和API,并且足夠聰明到可以搞清楚。”Google平臺提供了Hadoop作為一個大數據的選項,但是Gualtieri提醒公司企業如果想在 Google上運行Hadoop的話需要具備企業內部的專業技能。“它就在那里,但你最好自己要知道如何獲得,具體到命令行的級別,”他說。
但對于某些公司,Ouoble的Thusoo說,Google則是最完美的選擇,尤其當價格和性能決定一切的時候。“我們對Google在價格和性能上做了基準測試,Google在這塊絕對是佼佼者,”他說,“性價比通常對創業公司非常重要,因此谷歌是他們的最佳選擇。”
Azure:Hadoop之力
Azure平臺的大數據產品HDInsight,和SQL數據庫以及存儲一起,旨在能夠同微軟流行的Excel電子表格無縫工作。這對于客戶來說是一個巨大的賣點,因為根據Forrester的報告表明,在大數據所在的地方處理大數據(也叫數據重力)會讓整個過程更輕松。“我真的認為Azure在混合領域里有其優勢,”Thusoo說,“很大部分是因為微軟可以利用自己本地應用的影響力。”
HDInsight是由Apache的Hadoop支持的,這也是一大吸引力,Forrester的Gualtieri說。“微軟有許多不同的工具,包括機器學習和預測分析,”他說。“而對于任何想要用Hadoop做大數據分析的人來說,Azure是一個非常好的選擇,因為它很容易獲得并且具有強大的控制面板。”
Altiscale:一直都是大數據
成立3年的Altiscale最開始是在自己的云里推出Hadoop即服務。這家公司的創始人,Raymie Stata,在創建Altiscale之前曾是雅虎的CTO并且為這家網絡巨頭開發了Hadoop即服務。“Altiscale的設計從本質上是獨一無二的,”Altiscale的COO Mike Maciag解釋道。用戶可以從三大云服務供應商獲得“通用的”大數據服務,但Altiscale的云是從硬件以上都進行了定制可以更高效地運行大數據,Maciag說。“大型云供應商為很多的縱向處理提供了良好的計算密集型的功能,但大數據更多的是大規模并行處理,這意味著它是橫向的。 Altiscape是專為Hadoop構建的來避免吵鬧鄰居的問題。”