Spark 是繼Hadoop之后新一代的大數據分布式處理平臺。它是一個基于內存的、容錯型的分布式計算引擎。與Hadoop MapReduce相比,Spark的計算速度要快100倍。即便同樣采用硬盤計算,Spark也比MapReduce快10倍。Spark卓越的用戶體驗以及統一的技術堆棧基本上解決了大數據領域所有核心問題,使得Spark迅速成為當前最為熱門的大數據基礎平臺。
Spark 提供了多語言支持,如Scala、Python、Java、R等,支持交互式操作。它在RDD(Resilient Distributed Datasets,一個容錯的、并行的數據結構) 基礎之上提供了Spark Streaming流式計算,結構化數據處理組件Spark SQL,機器學習庫 MLlib 以及圖計算GraphX等功能。
然而,對于一個快速發展中的開源項目來說,Spark的生產環境并不是一件容易的事情。有鑒于此,8月25日,青云QingCloud正式推出Spark即服務平臺。具體而言,青云QingCloud提供的Spark服務有如下特征:
一鍵部署:QingCloud用戶只需簡單的配置,就能夠在2-3分鐘內搭建出一個Spark集群,并且通過豐富的工具和服務,實現高效簡便的Spark運維管理。QingCloud提供多樣化、組件化的服務模式,用戶可以根據自己的業務需求,組建個性化的解決方案。
在線伸縮:Spark服務支持橫向和縱向在線伸縮,以滿足用戶對計算能力和容量的需求,橫向伸縮對用戶業務的連續性不會產生任何影響。后續還會配合AutoScaling,達到Spark集群自動伸縮的效果。
遷移成本低:QingCloud Spark服務采用原生開源解決方案,并且采用最新的版本(目前為1.4.1版本,未來還會持續更新,并保留三個最新版本),具有良好的向下兼容特性,便于用戶將自有Spark集群遷移至云端,也不限制用戶從Spark服務遷移至自有集群。使用QingCloud的Spark服務,用戶完全不必擔心產生Vendor lock-in的束縛。
監控告警:QingCloud提供了對每個節點資源的監控告警服務,包括CPU使用率、內存使用率、硬盤使用率、硬盤IOPS、硬盤吞吐量等,以幫助用戶更好的管理和維護Spark集群。
安全性:Spark集群運行于私有網絡內,結合QingCloud提供的高性能存儲和超高性能存儲,在保障高性能的同時兼顧用戶的數據安全。
青云QingCloud CEO 黃允松(Richard Huang)表示,Spark服務的發布標志著QingCloud完整的大數據基礎平臺已初步建立,接下來QingCloud還會陸續發布一系列大數據相關服務,如Hadoop、Cassandra、Hive、HBase和Storm等。未來,大數據、數據庫、緩存和對象存儲將同IaaS組件一起構成QingCloud完整的數據產品生態圈,提供一站式的計算、存儲和數據處理服務,更好地幫助用戶實現數據的價值。