業界對云計算的定義多種多樣,不過,從公認的幾種云計算模型看,存儲是無論如何也繞不開的基礎支撐組件,云存儲作為云計算服務的分支之一,更是把存儲提到了首要的位置。與此同時,能夠在底層架構中很好的解決存儲問題的供應商恐怕并不多,要實現云計算,存儲還面臨諸多瓶頸。
在一次Intel組織的媒體訓練營上,Intel(中國)有限公司服務器平臺產品經理張振宇就曾表示:“今天談云計算以及云架構中的虛擬化,存儲是非常困難的問題。”
解決非結構化數據增長難題
在Intel規劃的云存儲系統中,把用戶實際的存儲需求分成了兩種類型,也就是我們所謂的結構化數據與非結構化數據。
結構化數據一般都存儲在數據庫中,通常又被叫做數據庫數據,通常企業的關鍵業務應用,如Oracle、SAP等應用中往往基于這種類型的數據。這類型數據可以用數據庫的二維表結構邏輯來表達與實現,每一次讀取的數據塊往往并不大,一般為4K或者8K,但是讀寫往往會非常頻繁,由于每次讀寫都會帶來硬盤磁頭換道尋址的讀寫延時,因此傳統的存儲系統往往采用了大規模并發、以及大量的讀寫優化來保障結構化數據的存取需求。
此外,擔當企業關鍵業務應用的數據存儲基石,數據安全性一定要保障,也因此,為結構化數據存儲而設計的存儲系統也往往采用大量的數據安全保護措施,保障企業關鍵業務運營數據安全。
衡量數據庫讀寫性能的IOPS性能指標一度成為企業存儲系統設計所追求的極致,然而隨著云計算日益走向普及應用,社交網絡興起,到如今移動互聯網與物聯網蓬勃發展,用戶突然發現,過去的結構化的數據在向非結構化與半結構化發展,大數據成為對傳統IT系統的另一個挑戰。
上圖為IDC發布的2010年至2014年間數據增長趨勢預測,其中,最底下的黃色數據塊代表傳統企業數據庫所產生的結構化數據增長量,年增長率僅為23.6%;黃色數據之上的紅色數據,代表企業系統中的備份以及數據倉庫等產生的備份數據,從圖中可看到,其增長趨勢并不明顯,年增長率為24.2%;紅色數據之上的灰色數據塊代表歸檔等非結構化數據的增長趨勢,在圖中可看到明顯的上升,年增長率達到了54.8%;最上面的綠色部分增長最快,這部分數據的年增長率甚至達到了75.6%,這部分數據來自于內容倉庫,具體包括了Web、電子郵件、社交網絡、文檔共享等應用產生的各種各樣的文件數據。
三大云存儲解決方案
隨著數據宇宙的爆炸式增長,傳統為結構化數據存儲而設計的存儲系統,已經無法應付云平臺系統龐大的數據存儲需求,在此背景下,集群存儲迎來其發展高峰。
集群存儲通過并發的分布式文件系統與算法,工作負載分布到集群中各節點的存儲方式,各集群存儲的節點相互配合并統一作戰,因而達到了1+1>2的效果,同時集群存儲提供單一的使用接口與界面,使用戶可以方便地對所有數據進行統一使用與管理。對于集群存儲來說,單個的數據節點是其上分布式文件系統以及管理軟件的硬件基礎,其性能與可靠性直接影響到了存儲系統平臺的整體性能。
針對不同的云存儲環境中非結構化數據的應用,Intel提出了三大不同的針對應用優化的解決方案。
一、 較大的對象存儲使用模式
對象存儲一般用于內容倉庫的數據存儲,通常Web、電子郵件、社交網絡、文檔共享系統中通常會采用對象存儲模式來存儲大量的文件數據。這類型存儲需求對系統性能要求總體而言并不嚴格,但同樣要求一定的響應時間和反應速度。此外,考慮到系統的規?;ㄔO,整體系統對系統能耗、成本方面都會進行一定的均衡。
針對對象存儲對節點硬件設計的需求,Intel推薦采用至強E5處理器產品家族,至強E5處理器是Intel針對雙路服務器市場的重要革新,采用全新Sandy Bridge微架構,最多支持8個內核,在舊金山閉幕不久的Intel秋季IDF大會上,Intel展示了采用Sandy Bridge微架構Xeon(至強)E5處理器以及Xeon E5服務器系統的工程樣品。上圖為該系統節點推薦配置示意。
二、 備份、歸檔存儲使用模式
相比對象存儲使用模式,備份和歸檔系統對于數據響應時延的需求更加寬松,這類型系統中,用戶更為關注的是數據可靠性,能耗、以及單位存儲空間成本,針對這類型存儲使用模式,Intel推薦了基于至強E3處理器,以及Intel賽揚/酷睿 i3處理器系列的節點優化方案。
三、 大規模分析(Hadoop)使用模式
Hadoop通常用于海量文件的數據分析與處理,往往要求系統有快速的反應時間和較強的處理能力,上圖為Intel基于E5處理器家族推薦的節點優化架構。