本周三谷歌為Hadoop和Spark推出了Cloud Dataproc服務的beta版本,這項服務旨在幫助用戶快速創建和關閉Hadoop和Spark集群,因為很多企業用戶發現對Hadoop和Spark的安裝和使用比想象的困難很多,尤其是當兩者一起使用時。
谷歌聲稱使用Cloud Dataproc每一個集群操作至多只需要90秒,這對于企業用戶來說是很有吸引力的,因為企業可以花更多時間在真正有價值的數據分析上面而不用花太多心思在集群的各種操作。
傳統方式每次對Spark和Hadoop集群的啟動擴容或關閉等操作需要五至三十分鐘不等的時間,因此谷歌宣稱Cloud Dataproc相比本地部署或是其他云服務提供商都占有優勢。
價格方面是每個CPU每小時一分,可以精確到分鐘而不是慣例的四舍五入到小時,不過Cloud Dataproc有起步價十分鐘。此外谷歌還提供了搶占式虛擬機,雖然價格比普通虛擬機低70%,但最多可以使用24小時而且可能隨時被關閉。搶占式虛擬機主要適用于容錯性強的應用,比如用在批處理任務上,搶占式虛擬機被關閉時批處理任務只是速度變慢而不會完全停止除非你所有的實例都是搶占式虛擬機。
Cloud Dataproc可以與谷歌云平臺的其他服務如BigQuery、Cloud Storage、Cloud BigTable、Cloud Logging和Cloud Monitoring等進行無縫集成,它的出現使谷歌的云平臺生態更加完善。
用戶可以使用多種方式來管理集群如Web界面、Cloud SDK、RESTful API和SSH而不需要專業人士或者專門軟件的幫助。
現在beta版本的Cloud Dataproc針對的是Spark 1.5和Hadoop 2.7.1不過谷歌稱會根據Spark和Hadoop的版本進行動態更新。