對象存儲系統(tǒng) vs Hadoop 云存儲怎么選？

責任編輯：editor005 |來源：企業(yè)網(wǎng)D1Net 2015-03-04 14:06:18 本文摘自：TechTarget中國

選擇多如牛毛，為你的應用選擇最佳的云存儲系統(tǒng)并非易事。但是對象存儲系統(tǒng)是一個選擇，尤其是如果你的應用要求訪問控制。而那些使用云進行大數(shù)據(jù)分析的則要考慮Hadoop。

對象存儲系統(tǒng)，比如AWS S3、微軟Azure Blob和谷歌云存儲，可以在一個持久穩(wěn)固且高度可用的系統(tǒng)中存儲任意的對象，且獨立于虛擬機實例之外。應用和用戶可以在對象存儲中使用簡單的API訪問數(shù)據(jù)；這些通常都基于表屬性狀態(tài)轉(zhuǎn)移（REST）架構(gòu)，但是也有面向編程語言的界面。

對象存儲提供了數(shù)據(jù)上受限操作的訪問控制。數(shù)據(jù)管理員可以在bucket層級上（類似于目錄）或者對象層級上（類似目錄中的文件）應用訪問控制。存儲對象的授權(quán)/認證通過云提供商的身份認證管理系統(tǒng)或者你的目錄服務來管理。通過后者，你可能有一個本地的目錄，同基于云的目錄服務同步，鞏固所有的訪問控制角色和進入單一注冊庫的特權(quán)。

提及存儲，對于那些使用云進行大數(shù)據(jù)分析的還有額外的選擇考慮。比如AWS提供了彈性Map Reduce (EMR)，這是一項Hadoop服務。Hadoop旨在同期文件系統(tǒng)工作，以HDFS著稱。

當用戶用EMR創(chuàng)建了一個Hadoop集群，他們可以從AWS S3或者一些其他的數(shù)據(jù)存儲復制數(shù)據(jù)到集群上的HDFS，或者也可以直接從S3訪問數(shù)據(jù)。HDFS使用本地存儲，而且通常提供了比從S3恢復更好的性能，但是在運行Hadoop工作之前，也需要時間從S3復制數(shù)據(jù)到HDFS。如果EMR集群要運行一段時間，且針對多項工作使用相同的數(shù)據(jù)，可能值得額外的啟動時間來從S3復制數(shù)據(jù)到HDFS。

云存儲選擇適用于廣泛的需求，但是要針對你的需求找到正確的存儲類型，也意味著要找到延遲、易用性、數(shù)據(jù)完整性和成本之間的合適的平衡點。

控制歸檔成本

云存儲的另一個常用用例是歸檔。這個程序要需要較長時間復制數(shù)據(jù)來進行持久的存儲。下面是在控制歸檔成本時需要考慮的三個內(nèi)容：

歸檔數(shù)據(jù)一次寫入且很少讀取。因此，最優(yōu)先考慮的就是受限的歸檔成本。對象存儲可以用來歸檔，但是除非你需要低延遲檢索，開支可能要比所需高。AWS提供的Glacier歸檔存儲服務成本比S3大幅減少。從Glacier檢索數(shù)據(jù)用時數(shù)小時，因此并不適用于大多數(shù)應用。

原文鏈接：http://www.searchcloudcomputing.com.cn/showcontent_87943.htm

關鍵字：Hadoop 存儲系統(tǒng)