Google Compute Engine 的虛擬機提供了一種快速、可靠的方式來運行 Apache Hadoop。如今,Google 正在努力通過Google Cloud Storage Hadoop預覽版更簡單的在 Google Cloud Platform 上運行Hadoop,這樣你就可以更加專注于數據處理邏輯而不是集群管理和文件系統。
下圖是Hadoop在Google Cloud Platform上的圖解。在Google Cloud Storage上存儲數據時HDFS、NameNode是可選的。
在十年前,從Google第一次介紹了Google File System (GFS)——Hadoop Distributed File System(HDFS)的基礎——Google一直在努力改善Google大數據處理的存儲系統。最新的成果是Colossus。
今天的發行版本提供了準確的——使用了一個簡單的連接器庫,Hadoop現在可以直接地在Google Cloud Storage運行——一個對象存儲創建在Colossus上。這意味著你在大數據處理時可以從Google的這項技術中獲益。
下面是用Google Cloud Storage運行Hadoop的優勢:
兼容性:Google Cloud Storage connector for Hadoop 代碼兼容Hadoop。只要將URL指向你的數據就可以。
快速啟動:數據準備處理。當你的數據復制到HDFS以及NameNode,你不必等待過長時間來結束這個安全模式。同時,你也不需要花費數據復制VM時間。
更高的可用性和可擴展性: Google Cloud Storage比HDFS具有更高的可用性,因為它有獨立的Compute Nodes和NameNode。如果虛擬機拒絕(或云禁止、崩潰)你的數據還在。
低成本:包括存儲和計算:存儲,因為沒有必要維護兩份數據,一個用于備份,另一個用于運行Hadoop;計算,因為你不需要僅僅為服務數據而保持VM一直運行。同時,它是以分鐘計費,你可以在多個內核上更快的運行Hadoop,并且你的成本不再是四舍五入為一個小時來計算。
沒有存儲管理開銷:鑒于HDFS需要日常維護——比如文件系統校驗、重整、升級、反轉和NameNode重啟——Google Cloud Storage只需要為計算付費。你的數據是安全和一致的,不需要更多的努力。
互通性:通過在Google Cloud Storage保管你的數據,你可以從Google上其它已經完美融合的服務中獲益。
性能:由于有了Google Cloud Storage,Google的基礎設施將會比HDFS提供更高的性能——因為它沒有管理和維護開銷。
如果想了解Google Cloud Platform到底有哪些優勢,可以訪問這個簡單指導 。 Google很樂意聽到你關于如何更好的在Google Cloud Platform運行Hadoop和MapReduce的反饋和想法。
寫在最后:為了與該領域的主要對手 AWS及其EC2競爭,Google已經通過增加一系列得新特性來鞏固其平臺優勢,包括更先進的路由、高達10TB的大型永久磁盤、更新App Engine托管服務以及降低成本等。可以預測,這些措施將使Google獲得數十億美元的基礎設施市場,同時,我們期待Google能夠為App繼續開放更大的空間。