云服務已經成為企業加快數字化活動的重要地點,以下便是評估HaaS提供商需要考慮的事項:
Haadoop是一個基于開放源代碼的軟件框架,能夠跨分布式集群高吞吐量處理大數據量。
利基市場幾年前就開始進入主流市場。隨著數字化運動的快速擴展,Hadoop提供了充足的使用案例,允許使用普通商品硬件進行大數據處理。
從單一服務器到多個服務器群也是高度可擴展的,每個集群都能夠自我運行計算和存儲。Hadoop在應用程序層就能提供高可靠性,因此集群硬件是現成的,能夠使得節點輕松互換,節約成本。
云化趨勢
盡管早期采用者通常能夠使用內部部署,利用多個Apache發行版中的一個進行設置,無可否認的是,企業正在越來越多的利用云服務。相比之下,自己DIY的方法便是乏味和耗時的。
由于市場需大于供,擁有資深Hadoop經驗的技術嫻熟的工程師便是非常罕見且昂貴的。購買硬件是一回事,但是在嘗試錯誤的猜想中構建分析平臺也是一段漫長而昂貴的過程。
由于數字化時代的上市時間分秒必爭,因此越來越多的公司正在利用Hadoop即服務(HaaS)產品,這些產品正在迅速出現,并且享有較高的采用率。
從用戶角度將云作為首選目標看待時間有意義的事情,由于規模經濟化,單位成本變得更加低廉,企業獲得高效率的同時減少了成本支出,并且獲得了更大的靈活性。
除了商業利益之外,云最重要的是開辟了一系列全新的數字用例,特別是在物聯網和其他需要實時數據處理的場景中。其中,AWS的Elastic Map Reduce(EMR)便是這個領域的開拓性產品之一。
雖然,基本上所有的大型服務提供商都在他們的產品組合中增加了一個基于云的Hadoop托管服務,但是發行商本身卻在努力“框化”他們的框架,而Cloudera的Altus就是最近的例子之一。Altus允許用戶使用MapReduce上的Hive或者Spark上的Spark按需運行數據處理作業。Cloudera already基本上宣布他們打算將服務擴展到其他領先的公有云(例如微軟Azure),而其他供應商可能會遵循這項規則。
市場發展
在強大的云需求面前,越來越多的企業開始接納Hadoop即服務。HaaS本質上是PaaS服務的一項子集,包括虛擬存儲和計算資源,以及基于Hadoop的處理和分析框架。服務提供商通常運行多租戶HaaS環境,允許在共享基礎設施上托管多個客戶。
聯合市場研究公司(Allied market Reserch)研究發現,隨著各組織越來越多采用“Cloud First”的戰略模式,預計到2020年哈斯商學院將獲得169億美元的收入。從2014年到2020年,該公司的年度復合增長了(CAGR)將達到70.8%。從收入角度來看,北美仍然位居首位,其次便是歐洲和亞太地區。
哈斯商學院的爆發預計將會在2020年使其在Hadoop市場上的增長相形見絀。根據IDC的研究,公共云部署已經占到全球商業分析軟件市場的12%,預計到2020年將達到25%的CAGR。除了大型企業,中小型企業也越來越多地選擇HaaS,以獲得可操作的見解,并創建以數據為中心的業務模型。
哈斯商學院預計會在2020中集中爆發,而此時Hadoop市場將會出現狀況。根據IDC的研究表明,公有云部署已經達到商業分析軟件市場的12%。預計到2020年將會達到25%的CAGR.
考慮HaaS時需要考慮的事情
雖然利用HaaS無疑有大量的用例,但也有一些缺點。將數據載入云中可能會產生延遲并需要額外的帶寬。雖然高度標準化的HaaS環境只需要點擊幾下便可以方便部署,但涉及權限將有服務提供商自行決定。此外,云中的數據將會展現重力并導致鎖定效應。以下便是評估HaaS提供商時需要考慮的一些示例:
1. 彈性
Hadoop支持針對各種工作負載的彈性集群,在考慮基于云的部署的時候將會更加重要。什么是可用的計算和存儲選項來支持不同的用例?例如,哪些額外的計算刀片可用于高I/O工作負載?環境的可擴展性如何,以及額外資源(計算,存儲)的調試容易度如何?
2. HDFS的持續使用
雖然不需要HDFS作為持久的數據存儲,但使用HDFS的時候發現了明顯的優化。HDFS使用商品直接附加存儲(DAS)并共享底層基礎設施的成本。此外,HDFS無縫的支持YARN和MapReduce,使其能夠本地處理查詢并充當數據倉庫。
3. 開票
服務提供商的底層價格指標是什么(按照訂單,消費等計費)?如果能力未能得到充分使用,服務如何能夠靈活退役?最重要的是,要記住數據湖的快速擴張,價格將如何隨著時間而快速擴大規模?
4. 高可用性
實現“零中斷”是一個微妙但是非常重要的問題。什么是提供商的SLA和故障轉移概念,冗余是如何完成的?例如,供應商能夠在不中斷整個作業的情況下隔離和重新啟動一臺機器(又稱“不間斷操作”)?
5. 互通性
由于隨著時間的推移使用案例將會變得越來越復雜,整合可能已經使用或計劃使用的其他服務是多么容易?支持哪些數據流和API,以及他們記錄的程度如何?
6. 需要人才
雖然建立HaaS環境所需的人力比DIY方法要少的多,但Hadoop并不是完全開箱急用,只需點擊幾下,節點就會運行,但這是實際工作開始的時間。定制仍然需要時間和精力。