引言
在北京舉行的LUG(Lustre User Group)2015會(huì)議上,做為主辦方Intel的合作伙伴,戴爾公司高性能計(jì)算技術(shù)顧問凌巍才先生發(fā)表了主題為《面向高性能計(jì)算的Dell/Intel Lustre存儲(chǔ)解決方案》的演講。
在本文中,小編截取了演講里的一些精華內(nèi)容,并加入部分自己的理解和認(rèn)識(shí)。希望能夠?qū)Υ蠹矣兴鶐椭?/p>
Lustre并行文件系統(tǒng)的優(yōu)勢和挑戰(zhàn)
根據(jù)上面的圖表,IDC在2014年5月的統(tǒng)計(jì)數(shù)字顯示50%的高性能計(jì)算存儲(chǔ)使用了Lustre文件系統(tǒng),GPFS和NFS的份額分別為21%和17%。而在2013年另一家分析機(jī)構(gòu)的存儲(chǔ)管理軟件調(diào)查中,Lustre也高居第一位。
開源的Lustre屬于一種分布式文件系統(tǒng),同時(shí)也是并行文件系統(tǒng)。它的優(yōu)勢包括提供單一命名空間;可增加節(jié)點(diǎn)數(shù)來擴(kuò)展容量和性能,并支持在線擴(kuò)展;支持多個(gè)客戶端并發(fā)讀/寫,通過分布式鎖機(jī)制保障數(shù)據(jù)一致性等。
有人說與開源伴生的一個(gè)名詞是折騰。筆者很早就聽說過Lustre對設(shè)計(jì)、部署和調(diào)優(yōu)的技術(shù)要求較高;其實(shí)別的一些文件系統(tǒng)(乃至商業(yè)文件系統(tǒng))也類似,用起來不難,但真正用好了不容易。
如上圖,存在挑戰(zhàn)之處可能包括:應(yīng)用設(shè)計(jì)、工作負(fù)載模型、網(wǎng)絡(luò)帶寬、IO模型(主要影響元數(shù)據(jù)性能)、OSS(對象存儲(chǔ)服務(wù)器)和LUN的負(fù)載均衡、故障切換以及I/O優(yōu)化等方面。那么對于在Lustre技術(shù)上積累還不夠的用戶,怎樣快速有效地解決這些問題呢?
戴爾HPC方案架構(gòu)、存儲(chǔ)配置建議
Lustre最主要的用途是高性能計(jì)算,上圖為戴爾的HPC方案架構(gòu),存儲(chǔ)是其中的一個(gè)部分。關(guān)于計(jì)算節(jié)點(diǎn)的選擇,刀片服務(wù)器有著靈活的配置和可管理性;傳統(tǒng)機(jī)架服務(wù)器可以提供大內(nèi)存節(jié)點(diǎn);云服務(wù)器兼具密度和性價(jià)比,還有專門針對GPU設(shè)計(jì)的機(jī)型;工作站用于高性能計(jì)算通常為視覺效果要求高,配置專業(yè)顯卡。
如上圖,除了IB交換機(jī)來自合作伙伴Mellanox之外,在Lustre存儲(chǔ)典型配置“Boulder”中戴爾能提供全部的服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備,包括MDS元數(shù)據(jù)服務(wù)器+MD3420雙控SAS陣列,OSS對象存儲(chǔ)服務(wù)器+ MD3460雙控高密度SAS陣列+MD3060e高密JBOD擴(kuò)展柜;還有管理節(jié)點(diǎn)、千兆/萬兆以太網(wǎng)交換機(jī)。
戴爾不僅是簡單地提供設(shè)備,在磁盤陣列RAID配置等方面都有具體的建議。比如連接到OSS的MD3460/MD3060e,其中60塊硬盤建議做成6組RAID,每組10塊盤配置為RAID6(8+2),這樣LUN(OST)可以達(dá)到比較理想的性能。在這里未配置熱備盤,應(yīng)該是HPC系統(tǒng)的可控性比OLTP等關(guān)鍵業(yè)務(wù)要高,在有硬盤故障Rebuild時(shí)可以酌情安排出停機(jī)時(shí)間,或者減少用戶對存儲(chǔ)的訪問。由于采用了RAID10(MDT元數(shù)據(jù)存儲(chǔ)) 和RAID 6 技術(shù),所以可以采用冷備磁盤的方式,來處理磁盤故障問題。
性能測試:吞吐量和元數(shù)據(jù)
上面是Boulder配置的IOzone性能測試結(jié)果,單一客戶端讀寫性能分別達(dá)到0.75GiB/s和0.63GiB/s,24客戶端時(shí)的最大聚合性能,讀寫分別達(dá)到10.04GiB/s和5.68GiB/s。用戶可以此對比自己的實(shí)際需求,戴爾能夠幫助給出適合您的配置建議。
MDtest元數(shù)據(jù)測試主要用于評估小文件較多的應(yīng)用場景。Boulder配置在單客戶端測試中,每秒文件創(chuàng)建操作500次,文件狀態(tài)(列表)2000次,文件刪除1800次;而到了240線程,每秒總文件創(chuàng)建達(dá)到15K,文件狀態(tài)(列表)400K;文件刪除性能在192線程時(shí)最高為100K操作每秒。
企業(yè)版Lustre:融合HPC和大數(shù)據(jù)
在2013年春季IDF期間,筆者曾簡單總結(jié)過Lustre的歷史:“Lustre項(xiàng)目從1999年起始,2003年成立CFS公司并發(fā)布1.0版本。2007年開始屬于Sun,并于2009年發(fā)布版本1.8。2010年,隨著Sun被Oracle收購而加入甲骨文,發(fā)布了2.0版本。同一年,Lustre團(tuán)隊(duì)?wèi)?yīng)該是從Oracle獨(dú)立出來,并成立了Whamcloud公司。Lustre建立OpenSFS和EOFS兩個(gè)開源社區(qū)。去年,Whamcloud被Intel收購,之后發(fā)布了2.3版。”(引用自:《Lustre:Exascale文件系統(tǒng)的前世今生》)
Intel在保持Lustre開源的同時(shí),也推出了自己的企業(yè)版軟件(IEEL),上圖中的綠色和紅色方框里就是企業(yè)版才有的部分。其中包括生產(chǎn)級質(zhì)量的文件系統(tǒng)增強(qiáng);專用的Intel管理器;針對Apache Hadoop和Cloudera Hadoop的適配器能夠提供MapReduce訪問數(shù)據(jù)所需的HDFS接口;分級存儲(chǔ)管理支持,包括POSIX拷貝工具和強(qiáng)大的策略引擎;使用ZFS最大化數(shù)據(jù)保護(hù)(數(shù)據(jù)完整性和快照);針對Xeon Phi的客戶端及優(yōu)化;使用不同的存儲(chǔ)服務(wù)改進(jìn)小文件性能;24x7企業(yè)級支持、專業(yè)服務(wù)和培訓(xùn)等。
戴爾正是憑借著和Intel的緊密合作,支持在IEEL軟件的戴爾存儲(chǔ)上運(yùn)行Hadoop(相當(dāng)于Lustre文件系統(tǒng)代替了HDFS)。目前該方案已經(jīng)至少在兩所大學(xué)有成功案例,它主要的好處就是將HPC和Hadoop的數(shù)據(jù)融合到了一套存儲(chǔ)系統(tǒng)中。
綜上所述,戴爾不僅是一家數(shù)據(jù)中心硬件設(shè)備提供商,還擁有自己的軟件部門,并與眾多合作伙伴聯(lián)合提供各種行業(yè)應(yīng)用解決方案的咨詢等增值服務(wù)。