利用45塊磁盤驅動器、10塊奇偶校驗驅動器外加33塊備用磁盤構建陣列方案。根據發表在Arxiv之上的研究成果,這樣的最佳陣列規模能夠在四年周期當中以無需服務介入的前提實現數據保護。
本次研究所解決的問題在于,目前全世界都在向超大規模數據中心路線進軍、并將數量龐大到驚人地步的磁盤集中于一處,而由此帶來的故障驅動器更換成本甚至遠遠高于磁盤自身的銷售價格。
此次研究由休斯頓大學的Jehan-Fran ois Paris負責主導,整個研究團隊提出了一套全新磁盤組合方案,并認為這套方案能夠在四年正常使用周期內為商用磁盤驅動器帶來高達“五個九”的穩定可用性表現。
根據他們的說法,如果擁有正確的模型作為支持,那么經過良好設計的驅動器陣列能夠保證整個磁盤生命周期內不會出現任何需要更換故障驅動器的狀況——他們表現這樣的成果“利用RAID 6組織方式絕對不可能實現,而且能夠容忍三塊磁盤發生故障”。
標準RAID架構采用奇偶校驗磁盤對陣列整體加以保護,旨在幫助其免受故障的侵擾。但他們同時指出,在利用四塊奇偶校驗磁盤保護六塊數據磁盤時,可能出現的三磁盤故障狀況仍會導致陣列徹底陷入癱瘓,例如一塊數據磁盤與兩塊備用磁盤出現問題; 或者總計損壞三塊數據磁盤。
然而,即使是規模更小的故障也可能給數據中心運營人員帶來巨大困擾。在技術方案能夠將新驅動器接入插槽之前,RAID陣列在缺少一塊驅動器情況下的運行過程中將始終處于保護匱乏的狀態之下——對于那些相對位置偏遠的基礎設施位置,更換故障驅動器將帶來高昂的運營成本。
這份研究論文提出了一項雙重結論。研究人員們建議稱,運營者應當將備用磁盤構建成一套新的驅動器陣列。在此基礎之上,他們嘗試構建并最終獲得了一套最優陣列配置。
為了構建這套模型,研究人員采用了Backblaze磁盤的平均故障比例數據——前十八個月內為5.1%,接下來十八個月中為1.4%,而第三年中的比例則為11.8%。除此之外,假定采用4 TB驅動器與200 MB每秒平均數據傳輸速率,那么陣列在進行自身修復時需要耗費24個小時。
這套模型表明,在可靠性與低存儲容量消耗之間找到的最佳陣列平衡點為設置45塊數據磁盤、10塊備用磁盤以及33塊奇偶校驗磁盤; 研究人員充滿信心,表示這套陣列模型能夠提供高達“五個九”的出色可靠性,而且與不設備用磁盤的RAID陣列相比、其存儲容量浪費水平降低了49%。
由于數據磁盤數量更少,達成五個九可用性水平所需要的備用磁盤比例有所上升,因此這套模型中的備用磁盤容量增幅超過56%——而令人驚訝的是,這套模型指出即使將陣列中的備用磁盤數據提升至“無限”、也幾乎不會再對四年周期內的可用性預期帶來明顯提升。
研究人員們指出,他們的設計方案只有在單一陣列當中多塊驅動器出現批量故障時才有可能帶來低于五個九的可靠性表現。