選擇多如牛毛,為你的應用選擇最佳的云存儲系統(tǒng)并非易事。但是對象存儲系統(tǒng)是一個選擇,尤其是如果你的應用要求訪問控制。而那些使用云進行大數(shù)據(jù)分析的則要考慮Hadoop。
對象存儲系統(tǒng),比如AWS S3、微軟Azure Blob和谷歌云存儲,可以在一個持久穩(wěn)固且高度可用的系統(tǒng)中存儲任意的對象,且獨立于虛擬機實例之外。應用和用戶可以在對象存儲中使用簡單的API訪問數(shù)據(jù);這些通常都基于表屬性狀態(tài)轉(zhuǎn)移(REST)架構(gòu),但是也有面向編程語言的界面。
對象存儲提供了數(shù)據(jù)上受限操作的訪問控制。數(shù)據(jù)管理員可以在bucket層級上(類似于目錄)或者對象層級上(類似目錄中的文件)應用訪問控制。存儲對象的授權(quán)/認證通過云提供商的身份認證管理系統(tǒng)或者你的目錄服務來管理。通過后者,你可能有一個本地的目錄,同基于云的目錄服務同步,鞏固所有的訪問控制角色和進入單一注冊庫的特權(quán)。
提及存儲,對于那些使用云進行大數(shù)據(jù)分析的還有額外的選擇考慮。比如AWS提供了彈性Map Reduce (EMR),這是一項Hadoop服務。Hadoop旨在同期文件系統(tǒng)工作,以HDFS著稱。
當用戶用EMR創(chuàng)建了一個Hadoop集群,他們可以從AWS S3或者一些其他的數(shù)據(jù)存儲復制數(shù)據(jù)到集群上的HDFS,或者也可以直接從S3訪問數(shù)據(jù)。HDFS使用本地存儲,而且通常提供了比從S3恢復更好的性能,但是在運行Hadoop工作之前,也需要時間從S3復制數(shù)據(jù)到HDFS。如果EMR集群要運行一段時間,且針對多項工作使用相同的數(shù)據(jù),可能值得額外的啟動時間來從S3復制數(shù)據(jù)到HDFS。
云存儲選擇適用于廣泛的需求,但是要針對你的需求找到正確的存儲類型,也意味著要找到延遲、易用性、數(shù)據(jù)完整性和成本之間的合適的平衡點。
控制歸檔成本
云存儲的另一個常用用例是歸檔。這個程序要需要較長時間復制數(shù)據(jù)來進行持久的存儲。下面是在控制歸檔成本時需要考慮的三個內(nèi)容:
歸檔數(shù)據(jù)一次寫入且很少讀取。因此,最優(yōu)先考慮的就是受限的歸檔成本。對象存儲可以用來歸檔,但是除非你需要低延遲檢索,開支可能要比所需高。AWS提供的Glacier歸檔存儲服務成本比S3大幅減少。從Glacier檢索數(shù)據(jù)用時數(shù)小時,因此并不適用于大多數(shù)應用。原文鏈接:http://www.searchcloudcomputing.com.cn/showcontent_87943.htm