近日,谷歌 發布 了Google Cloud Dataproc服務Beta測試版。Cloud Dataproc是一個托管的Spark與Hadoop服務,可以幫助用戶快速創建集群、簡化集群管理及降低使用成本。借助該服務,用戶無需考慮部署、擴展、監控等管理工作,可以將全部精力都集中到數據處理上。
與傳統的本地產品或其它存在競爭關系的云服務相比,Cloud Dataproc有如下優勢:
成本低 :Cloud Dataproc的定價為每顆虛擬CPU每小時1美分。它還可以包含 可搶占實例 ,使使用成本進一步降低。另外,Cloud Dataproc按分鐘計費,最小計費周期為10分鐘。
速度快 :在本地或IaaS提供商那里創建Spark與Hadoop集群需要5到30分鐘不等。相比之下,Cloud Dataproc啟動、擴展和關閉都非常快,每個操作平均大約只需要90秒。
一體化 :Cloud Dataproc內置集成了其它谷歌云平臺服務,如 BigQuery 、 Cloud Storage 、 Cloud Bigtable 、 Cloud Logging 和 Cloud Monitoring 。這相當于提供了一個完整的數據平臺。
托管 :Cloud Dataproc使用戶可以在沒有系統管理員或專門軟件的協助下就可以使用Spark與Hadoop集群。用戶可以通過谷歌開發者控制臺、 Google Cloud SDK或Cloud Dataproc REST API管理集群和Spark或Hadoop任務。
簡單熟悉 :用戶不用為了使用Cloud Dataproc學習新的工具或API。現有的項目無需重新開發就可以遷移到Cloud Dataproc上。Spark、Hadoop、 Pig 及Hive都會經常更新。目前,Spark的版本為1.5,而Hadoop的版本為2.7.1。
總之,正如Cloud Dataproc項目經理James Malone所言:
Cloud Dataproc讓你可以隨時訪問簡單、快速但功能強大的、托管的Spark與Hadoop集群。
感興趣的讀者可以查看Cloud Dataproc 官方網站 ,按照 入門指南 試用,或者在Stack Overflow 上提問及反饋。