爆炸式增長的數據如何處理?
60秒的時間內可以做那些事呢?打字員可以打80個字,YouTube的用戶可上傳長達72小時的視頻……言歸正傳,60秒,也就是一分鐘內在互聯網上到底發生了什么事呢?
在一分鐘內,郵箱用戶總共發送了2.04億封郵件,亞馬遜官網上的銷售額約達到了8.3萬美元,再說說社交網絡上,Facebook的用戶約推送了246萬條的內容,Twitter用戶發推數量約為27.7萬條……
在這組數字表象的背后,不知道你有沒有發現需要哪些支撐?讓我們簡單算一下,按照目前3.2ZB的數據量,需要至少4.5億臺12盤位采用6T硬盤的服務器來支撐。但是按照現有資料來看,全球運行的服務器總量應該是5000萬臺左右,這其中有近一個量級的差距!而這是按照較高的存儲密度來算,何況有大量的服務器是用于計算而非存儲!
據分析稱,全球產生的數據量中僅有1%左右的數據能夠被保存下來!如何保存更多的數據?最簡單方法當然是,采購更多的存儲介質--磁帶、光盤、硬盤、SSD等,但是如何選擇存儲介質則成為了另一大難點。
冷熱分治,浪潮如何處理海量數據
Google所處理搜索查詢是極熱的數據處理,需要快速處理海量的并發,而Facebook所面臨的挑戰則是如何保存每天20萬張照片。Youtube似乎面臨的問題更為復雜,因為視頻的熱度不一。舉個中國的例子,最近熱播的電視劇與1983年的春晚錄像相比,熱播劇需要更低的延時,而早期春晚的錄像則由于熱度較低而成為冷數據。
浪潮將數據分為四個溫度帶
數據量的爆炸式增長以及數據類型的日益細化,讓數據分級和冷熱數據分治成為降低單位容量數據成本、提升數據存儲效率和密度的有效方式。在企業的數據中心中,只有10%~15%的數據是被經常訪問的,IOPS要求100K 級別,剩余的則訪問頻率急劇下降,在10k甚至以下。既然需求不同,那么是不是能夠將不同類型的數據存儲在不同的介質上,以最大化運用存儲的效率?
為了更進一步細分數據等級,能夠更好分配資源和提高收益,浪潮按照數據讀取的熱度,將數據分為寒帶、溫帶、亞熱帶和熱帶數據,并通過不同速率的存儲介質和不同處理速度的CPU的配比,實現數據存儲的成本最優,使數據存儲更適合上層業務應用。
高IOPS滿足熱數據高速、頻繁讀取
隨著數據量的持續增加,單位時間內需要處理的請求越來越多,SATA SSD也顯得力不從心,SATA接口6Gb/s的限制已經成為發揮SSD性能的瓶頸,因此各廠商將目光轉向擁有更高帶寬的PCI-E。
目前主流的PCI-E 3.0 x16的傳輸速度已經可達16Gb/s,而最新的PCI-E 4.0 x16將能夠達到32GB/s!實測數據顯示,采用了新的NVM SSD技術優化PCI-E SSD的連續讀取和寫入速度已經達到驚人的2.8GB/s和2GB/s!IOPS已經突破450000,是SATA SSD的6倍,單位IOPS成本降低71%!
經過測試,在熱數據處理應用中,采用PCI-E加速,性能將提升10倍,而投資將減少一半以上!
NVMe將最大化發揮SSD性能
PCI-E接口打破了SSD存儲速率上限,但其仍受到接口標準的限制。舉個例子,假如你有一輛豪車,時速能到300邁,在鄉間小道上,猶豫路窄且泥濘,你只能開到60邁,這就相當于SATA SSD;過了好久,終于開到了高速,由2車道變成6車道,但是路上車多,最高速限制120公里,這就相當于采用AHCI標準的PCI-E SSD;又開了一段時間,已經遠離城市,來到荒無人煙的大草原,這里的標準就是自由,限制車速的就是豪車本身。
當然,這個例子并沒有把NVMe的特性解釋全面,其實相對于AHCI,原生PCI-E主控與CPU直連,并且精簡了調用方式,因此延遲大大降低。由于將隊列深度從32提升至64000,NVMe提升了SSD的IOPS。另外,采用NVMe標準后,解決了不同PCI-E SSD之間的驅動適用性問題。
目前浪潮互聯網定制化服務器SA5112M4、SA5212M4均可支持 NVMe 。其中密度較高的1U機架服務器SA5112M4可支持 4片 NVMe SSD,提供 100k 級別 IOPS,滿足極熱數據的高并發訪問需求,完美解決被數據頻繁訪問的問題。
平衡的計算與存儲配比
對于亞熱帶數據,SATA SSD 的性能可以滿足,且在目前來看價格與PCIe SSD相比仍有一定的差距,因此對于每天訪問約幾十遍的數據可以使用SATA SSD存儲。所以浪潮服務器滿足單節點最多配置 8 塊 SATA SSD,單盤提供 10k 級別的 IOPS 響應能力。而溫帶數據相比熱數據體量陡然增高,所以相比較需要成本更低的存儲方案,使用Intel E5雙路服務器+大容量SATA硬盤是主流的配置。但是,溫帶數據存儲目前有了一種新的選擇。
去年3月,Intel官方宣布了基于14nm的Xeon首款單芯片產品,家族命名"Xeon D"。Xeon D基于Broadwell-DE架構,是真正的SoC系統,不僅有處理器,還整合了內存、I/O等子系統,定位介于Atom與Xeon E3之間。
Intel Xeon-D處理器
今年9月,浪潮在其第三屆互聯網應用技術峰會上,在業界率先發布了基于Xeon-D SoC處理器的一系列產品,專為溫數據存儲設計,低功耗和高集成度為構建高密度的云數據中心提供支持。此前,浪潮已經擁有1U8盤、2U12盤、4U36盤等較為完整的數據分級存儲產品,這次發布的Xeon-D新品,將為溫冷數據存儲提供了更多的選擇。
浪潮整機柜服務器SR系列
Xeon-D產品同樣會在浪潮整機柜服務器SR中應用,在1U的空間內支持18塊3.5英寸硬盤,單節點可擴展支持一個JBOD,存儲密度提升的同時,可進一步降低了存儲成本,且支持硬盤休眠,從而實現超低閑置功耗。
寒帶數據,更注重容量和能效比
目前,PCI-E SSD也可以做到超大的容量,但是對于溫數據和冷數據來說,性能是過剩的。對于冷數據采用SATA硬盤,就足夠滿足性能需求。以目前國內較大的云存儲--金山云為例。借助小米用戶的基礎,金山云已成為全國最大的云存儲服務提供商。預計未來可能每天新增1PB的內容,全年將有1000個PB內容需要存儲!如此海量的數據,不僅需要足夠的硬盤來存儲,也需要大量的機柜以及交換機、負載均衡等網絡層來支撐,大規模的服務器集群無疑會增加運維與管理方面的復雜度,使數據中心的TCO不斷攀升。
為此,金山選擇于浪潮合作,由浪潮為其定制一款專門的冷存儲服務器--SA5224L4,在4U的空間里支持36個3.5寸熱插拔硬盤,由單路CPU帶動多塊硬盤的設計,使單位空間存儲密度增加50%,平均每TB成本最多降低13%,每TB功耗最多降低10%。
浪潮SA5224L4服務器
在筆者看來,未來互聯網數據中心的存儲介質選擇上,PCI-E SSD將逐步替代SATA SSD成為熱數據和溫數據存儲的首選。而冷數據存儲上,大容量低成本的SATA HDD還將是最具性價比的選擇。浪潮根據互聯網客戶需求,推出業界首款基于SAS協議的資源池化產品--SAS Switch,將從機柜層面推動冷熱數據分離,并簡化存儲設備運維難度!