公有云的前進腳步如同一股龍卷風,電光火石之間我們的數據已經為其所吞噬。
在激烈的云服務供應商市場營銷大戰當中,谷歌公司的云Nearline存儲服務已經成為其中一股新勢力,旨在將客戶的數據以及存儲投資轉移到谷歌的新戰線當中--從而成為其重要收入來源。
最近一段時間,云歸檔存儲、云接入網關以及混合內部/云數據管理等領域已經迎來了突破性進展,預計這一切都將加快企業數據向公有云轉移的腳步。
這一趨勢的基礎性思路在于,公有云當中的超大規模數據中心擁有突出的規模經濟效應,其足以憑借著相較于內部及管理機制極為可觀的成本優勢將企業客戶的數據吸引到其內部。當然,數據在實際轉移過程當中需要耗費一定網絡傳輸時間,而且在云當中進行數據檢索也幾乎不可避免,這就意味著公有云并不適合存儲那些內部應用程序需要使用的主要數據。
考慮到這一點,我們可以預測出以下五種適合由公有云負責承載的數據類型:
將內部備份數據交由云打理,目前大多數備份供應商都支持此類選項。
利用Box以及Dropbox等服務通過云實現文件同步與共享。
面向云環境的內部歸檔:其中以CommVault等廠商為代表。
云環境下的災難恢復方案。
面向云應用程序的主要數據。
雙重模式
此類模式分為兩種具體類別:其一將內部應用程序尚不需要處理的數據發送至云端,從而在本地數據丟失或者不可用時進行恢復。其二為將云應用程序正在處理的數據發送至云端。如果大家的應用程序本身即運行在云環境下,那么其需要訪問的數據自然也可以位于同一體系之內。
而從成本角度來講,在將無需本地處理的數據發送至公有云的同時,我們可能也需要保留一部分本地恢復能力。事實上,利用云存儲資源在成本方面要遠低于自行構建存儲體系。此外,使用公有云服務也能夠使我們只需要承擔運營成本--而不像過去那樣還要考慮整體擁有成本,因為大家不必再購置存儲陣列以及/或者磁帶庫來托管內部數據。
通過將這類數據遷移至云環境下,大家能夠徹底告別存儲陣列以及磁帶庫,從而空出這些設備在數據中心內部所占用的空間。與此同時,由于這些設備不復存在,我們也用不著再承擔由其配套供電及冷卻系統所帶來的內部總體持有成本。
公有云存儲資源的成本可以低到令人驚訝的水平。Amazon公司提供S3對象存儲、EBS塊存儲以及EFS文件存儲服務,而以保存歸檔存儲數據知名且于2012年8月正式上線的Glacier服務能夠將存儲成本控制在每月每GB 0.01美元。而作為其直接競爭對手,谷歌公司提供的同類服務方案則將成本進一步壓低到了每月每GB 0.007美元。
以往的數據檢索過程往往需要耗費數個小時,但那是因為原先的數據被保存在離線磁帶當中。
谷歌公司今年公布的Glacier競爭對手Nearline服務在使用成本上同樣為每月每GB 0.01美元左右,但其幾乎能夠瞬間完成數據檢索工作--其平均響應時長為3秒,這意味著我們在需要使用這類數據時幾乎無需刻意等待。
另一大令人驚艷的競優勢在于,谷歌公司宣稱用戶可以擁有高達100 PB--是的,就是PB--的免費存儲空間。數據的檢索成本為每GB 0.01美元,這一價格與Amazon公司的Glacier歸檔成本保持一致(超出每月固定的免費檢索量之后)。而谷歌公司在其TCO網站上就此與S3進行比較,因為只有S3能夠提供即時數據檢索,而Glacier并不具備這一能力。
事實上,Glacier單純從使用成本角度看要比谷歌Nearline更便宜--因為Amazon最近剛剛進行了服務價格下調,同時假設用戶的存儲數據總量為0.5 PB以下。如果數據量進一步增加,其檢索成本與數據存儲成本需要額外進行加法運算。Nearline勝在響應速度更快,而且我們發現已經有大量本地磁盤備份及歸檔數據流開始被轉移到Nearline當中,因為其在更低使用成本的前提下提供更具競爭力的訪問速度。
云主要數據訪問速度
目前已經有多種云存儲網關能夠將數據發送至Amazon以及谷歌的云環境。Avere公司的FXT方案能夠提供本地緩存,并將后端數據存儲設定為Amazon以及谷歌Nearline。根據該公司的說法,其Virtual Edge Filers以及相關技術能夠將云存儲轉化為適合承載主要數據的平臺。
Avere解決方案總體示意圖
這確實是種令人驚訝的能力,因此值得我們深入了解。Avere公司表示其FXT前端文件存儲方案立足于本地NAS文件存儲之前,采用WAN連接機制,且面向本地Cleversafe對象存儲(由Avere方面負責完成文件與對象之間的轉換)以及Amazon S3存儲云。該方案符合SpecFS基準規范,且在每秒操作以及ORT(即整體響應時間)方面擁有以下水平:
本地NAS:每秒180538次操作,0,88 ORT。
遠程NAS:每秒180043次操作,0.87 ORT。
Cleversafe:每秒180394次操作,0.89 ORT。
Amazon S3:每秒180141次操作,0.86 ORT。
這一結果已經相當明確。基本上,四種文件存儲機制在文件數據訪問速度方面的表現幾乎沒什么差別。
如果數據中心能夠通過閃存存儲機制的介入而使得主要數據存儲與計算更為貼近,即剝離網絡以及磁盤訪問所帶來的延遲,那么我們預計Avere的filer加速技術將能夠被用于將主要數據文件存儲轉移至云環境當中,并負責將其交付至服務器端的閃存體系。
另一種實現方式則是利用同樣的單一邏輯存儲資源池覆蓋整個混合私有/內部存儲與公有云體系,目前NetApp等廠商已經開始提供相關數據結構方案。
混合云數據管理
NetApp公司的內部FAS陣列由其ONTAP操作系統負責控制。云ONTAP是一套純軟件版本,其能夠運行在公有云環境當中。NetApp公司的數據結構概念在于利用ONTAP交付并管理通過無縫化方式由內部及公有云處訪問到的數據。
其能夠在內部與公有云之間提供效率出色的數據傳輸能力,從而實現對二者中數據的一致性管理。這套方案目前正處于研發過程當中,其目標在于盡可能發揮云直接接入機制的優勢,同時提升客戶數據中心與云環境之間的數據遷移速度--當下Amazon與Azure都已經成為受支持的云環境目標。
NetApp Private Storage、Azure與Equinix實現體系。
在NetApp公司Private Sotrage for Azure的幫助下,NetApp陣列能夠被安置在Equinix一級協同數據中心之內,并通過ExpressRoute與Azure建立連接。這是一套私有的低延遲高傳輸帶寬鏈接。數據通過快照技術由客戶的ONTAP陣列被移動至Equinix ONTAP陣列。NetApp公司表示,這部分數據將被存儲在鄰近的云環境下--而非隨機云環境--這意味著大家能夠保留對數據的控制權。
關注重點
保留對數據的控制權非常重要,特別是考慮到不同國家乃至不同州/省份對于數據監管擁有不同的政策要求。另一項關注重點則面向云可靠性:我們已經經歷過一系列公有云服務停機事故,而安全方面的關注亦同樣不容忽視。
作為云存儲網關供應商,Nasuni公司會定期對其客戶的公有云接入性能進行審查。在該公司今年5月發布的報告當中,其審視了谷歌、Amazon以及微軟Azure三大主要公有云方案,其中Azure與Amazon擁有最為出色的性能表現。該公司同時發現,IBM的SoftLayer出現了服務停機問題,這意味著其并不推薦客戶采用藍色巨人的云服務方案。
不過以Amazon、微軟與谷歌以及尾隨其后的惠普、IBM及其它廠商為代表的各云存儲供應商已經意識到了這一重要問題。每一次存儲容量方面的提升,由以往的數PB升級到數十PB、并最終增長至數百PB乃至數EB級別,都會給這些云服務供應商帶來新的可靠性保障挑戰。
那么故障域的規模應該擁有怎樣的水平?他們要如何以近乎完美的舉措防止數據丟失狀況?他們應該采用怎樣的區域數據中心基礎設施?他們又該如何在這樣的存儲成效前提下保證服務方案的可靠性與性價比?
新時代下的龐大遷移規模
目前我們尚處于大洲內部以及跨大洲規模化數據遷移趨勢的發展初期,而且整個發展周期可能需要耗時數十年。因此大家用不著急于將數據遷移至云端。云服務供應商未來仍將繼續存在,而且屆時其將擁有更出色的組織能力、優化水平更高的基礎設施以及更理想的使用體驗與可靠性表現。
數據面向云端的遷移趨勢類似于過去的移民潮--規模龐大而且不可阻擋,正如近現代眾多國家之內由于城市工業化轉型所引發的由農村向城鎮的人口轉移。這一過程過去幾十年中一直存在,而且目前仍在進行當中。換個角度看,這類似于人們開始把現金由自家保險箱轉移到銀行,或者電力能源由獨立發電機轉向作為公共事業重要組成部分的國家電網。
目前公有云正以可觀的規模與數據總量共同發展,其擁有著宏大且積極的發展意圖,我們認為這樣的趨勢將成為歷史潮流。為了實現更為顯著的規模化經濟效益,各供應商必然拿出更多具有吸引力的解決方案,而也會有越來越多的安全證明本地存儲機制已經失去經濟活力。隨著時間推移,這將成為必然的結果。
而無需滿足即時需求的應用程序數據將成為這股云遷移浪潮中的先鋒,換言之公有云正是其最理想的歸宿。而運行在云環境下的應用程序也將順理成章地傾向于直接從云內獲取數據--而非跨越網絡與內部數據中心相對接。
我們正處于混合云的時代,其中內部數據中心扮演的正是私有云要素的角色。除非具有壓倒性的成本優勢,同時提供足夠安全且便利的數據訪問機制,否則公有云與私有云將長期并存下去--當然,一旦這幾項條件得到滿足,私有云將很快成為空殼。