如今,閃存已經在一些互聯網數據中心中大量采用,然而,對于用戶來說,閃存與傳統硬盤有著很大的區別,而在應用過程中,則會出現不同的挑戰。
前段時間卡耐基梅隆大學基于Facebook數據中心大量的PCIe閃存使用環境寫過一篇論文《Facebook閃存失效大規模研究》。這個研究的結果時間跨度非常長,而且監控的數量也足夠大,非常具有代表意義。
閃存數據中心的應用
下面我們來看一下這個研究結果的幾點重要結論:
(1)閃存與傳統硬盤的失效性不同。
在傳統磁盤的應用環境中,一般開機故障率比較高,然后是穩定期,故障率維持恒定,最后經過長時間使用,故障率又上升。
而閃存的失效與傳統的餓磁盤并不相同,閃存的失效并不是單純地隨閃存芯片磨損增加。它們歷經幾個明顯的時期,與失效如何出現和隨后如何被檢測到相一致。如下圖,閃存是開機故障率低,之后故障率有所提高,然后又是穩定期,最后故障率又提高。
,
這種情況的出現是因為當閃存大規模使用時,質量不好的顆粒就會出現損壞,故障率上升。這時閃存可以通過OP(Over-provisioning,是指SSD給壞塊預留的空間)的顆粒替換質量不高的顆粒,替換之后,閃存逐步進入穩定工作的狀態,故障率降低,直至生命周期的末端,故障率提升。
(2)閃存讀操作干擾情況并不普遍。
即閃存的故障率與閃存單元讀取數據的操作關系不大,也就是閃存的壽命也幾乎不受讀操作影響,這一點是一致的。
閃存
(3)高溫會帶來高的失敗率。
通過截流SSD操作看來可以極大地減少高溫帶來的可靠性負面影響,但是會帶來潛在的性能下降。
溫度過高會帶來錯誤,導致失敗。溫度過低,也并不利于SSD性能的發揮。并且,在閃存產品的生產過程中,由于焊接等操作,也會對閃存產生直接的高溫威脅,造成閃存出廠時就有了很高的故障率。
Greenliant通過對生產過程的技術把控,并且在生產前和生產后進行反復檢測,保證在生產環境中不會出現像論文中提到的,如同facebook使用過程中由于溫度升高,出現大量無法修復的錯誤造成設備故障。
以上這三點就是通過《Facebook閃存失效大規模研究》這篇論文,聯系到實際的閃存使用中的一些總結。閃存產品的穩定性和可靠性是完全可以通過技術的手段來完善的。這就與不同廠商的技術有很大關系,目前國內的閃存廠商很多,但是整體來說,在技術方面還有很大的空間。但值得我們關注。