盡管NVMe SSD硬盤(pán)是一種高度可靠的存儲(chǔ)技術(shù),但它們?nèi)匀蝗菀装l(fā)生偶發(fā)故障。以下是使SSD硬盤(pán)保持最佳狀態(tài)的一些最佳做法。
與機(jī)械硬盤(pán)相比,SSD硬盤(pán)十分可靠。然而,沒(méi)有一種存儲(chǔ)技術(shù)是完美的。即使是最新的NVMeSSD硬盤(pán),也可能會(huì)突然損壞或逐漸崩潰。
人們需要了解即將發(fā)生的SSD硬盤(pán)故障的跡象,以及了解如何對(duì)出現(xiàn)故障的SSD進(jìn)行故障排除,可以標(biāo)記出永久性數(shù)據(jù)丟失和無(wú)故障恢復(fù)之間的區(qū)別。像任何存儲(chǔ)設(shè)備一樣,NVMeSSD最終將失敗。唯一的變量是何時(shí)。與機(jī)械硬盤(pán)不同,固態(tài)硬盤(pán)無(wú)法發(fā)出聲音警告,以提示可能出了問(wèn)題。然而,雖然SSD硬盤(pán)可能已經(jīng)損壞,但不一定全部丟失數(shù)據(jù)。
這里介紹了SSD硬盤(pán)故障的四個(gè)主要原因,以及如何解決這些問(wèn)題。
1. 過(guò)熱
NVMeSSD硬盤(pán)雖然是新興產(chǎn)品,但困擾它們最多的問(wèn)題卻是計(jì)算技術(shù)中最古老的問(wèn)題之一:熱量。IT管理軟件和監(jiān)視工具提供商Solar Winds公司首席技術(shù)官Leon Adato表示:“NVMeSSD硬盤(pán)可能會(huì)瘋狂運(yùn)行,特別是如果正在執(zhí)行諸如高級(jí)計(jì)算之類(lèi)的密集操作時(shí)。即使在常規(guī)操作下,NVMeSSD硬盤(pán)也會(huì)產(chǎn)生引起問(wèn)題的溫度。”
提供足夠的冷卻可以確保SSD硬盤(pán)不會(huì)過(guò)熱,從而防止其發(fā)生故障或節(jié)流到較低的速度。其挑戰(zhàn)在于尋找一種從驅(qū)動(dòng)器中散熱的方法。有多種解決此問(wèn)題的方法。Adato說(shuō),“您可以使用大型機(jī)箱,在其中可以確保芯片上有大量直接的外部氣流,或者可以安裝散熱器,風(fēng)扇或液體冷卻系統(tǒng)。”
將室溫降低到較低的溫度還可以顯著解決與SSD硬盤(pán)熱量相關(guān)的問(wèn)題。Adato說(shuō):“無(wú)論采用哪種方法,其想法都是要采取一些措施來(lái)增加冷卻和/或降低系統(tǒng)機(jī)箱內(nèi)部的環(huán)境溫度。”
2. 固件故障
SSD硬盤(pán)固件異常復(fù)雜,許多SSD硬盤(pán)故障往往只是一個(gè)極端情況,僅在正常運(yùn)行參數(shù)范圍之外才會(huì)出現(xiàn)此問(wèn)題。幸運(yùn)的是,當(dāng)出現(xiàn)嚴(yán)重的固件問(wèn)題時(shí),大多數(shù)SSD硬盤(pán)會(huì)自動(dòng)進(jìn)入故障保護(hù)模式。英特爾公司高級(jí)戰(zhàn)略規(guī)劃師兼產(chǎn)品經(jīng)理,負(fù)責(zé)開(kāi)發(fā)NVMe規(guī)范的財(cái)團(tuán)NVMExpress的工作組聯(lián)合主席JonmichaelHands說(shuō),“如果SSD硬盤(pán)無(wú)法保證數(shù)據(jù)的完整性,那么通常賣(mài)方會(huì)實(shí)施'斷言'或其他故障模式,使名稱(chēng)空間脫機(jī)或置于只讀模式,以保護(hù)主機(jī)軟件免于讀取不良數(shù)據(jù)。”
固件問(wèn)題時(shí)有發(fā)生。例如,去年11月,惠普企業(yè)發(fā)布了客戶(hù)公告,警告其SSD硬盤(pán)固件版本HPD8需要嚴(yán)重修復(fù)。無(wú)法應(yīng)用此修復(fù)程序的組織將在32,768小時(shí)的運(yùn)行時(shí)間下看到其驅(qū)動(dòng)器發(fā)生故障。結(jié)果,恰好在3年270天零8個(gè)小時(shí)后,存儲(chǔ)在驅(qū)動(dòng)器上的所有數(shù)據(jù)都將丟失。
3. 濫用
SSD硬盤(pán)濫用最常見(jiàn)的形式是硬盤(pán)過(guò)早磨損,因?yàn)樗c數(shù)據(jù)中心的工作負(fù)載不匹配。Hands說(shuō):“例如,具有較低耐久性的[四級(jí)單元]驅(qū)動(dòng)器用于橫向擴(kuò)展存儲(chǔ)或?qū)ο蟠鎯?chǔ),而不用作具有大量隨機(jī)寫(xiě)入的緩存硬盤(pán)。”
幸運(yùn)的是,可以準(zhǔn)確地預(yù)測(cè)和建模耐久性,因此很容易提前計(jì)劃以減輕SSD硬盤(pán)故障。Hands說(shuō):“知道SSD硬盤(pán)支持什么DWPD(硬盤(pán)每天寫(xiě)入的數(shù)據(jù))和TBW(寫(xiě)入的兆字節(jié))。對(duì)企業(yè)的工作量進(jìn)行建模,并確定哪種SSD硬盤(pán)最好。”為了預(yù)測(cè)驅(qū)動(dòng)器的失效日期,可以使用有用的工具,例如英特爾的SSD硬盤(pán)久性估算器。
4. 潛在問(wèn)題
在開(kāi)始引起重大麻煩之前,SSD硬盤(pán)問(wèn)題通常不會(huì)變得明顯。越早知道存在問(wèn)題,企業(yè)就可以更快地響應(yīng)情況并最大程度地減少影響。阿達(dá)托說(shuō):“確保使用硬件監(jiān)視軟件來(lái)跟蹤...組件的I/O速度,壞塊和其他故障模式,以便在出現(xiàn)問(wèn)題時(shí)盡快知道。”
Adato指出,創(chuàng)建一個(gè)商業(yè)環(huán)境也很重要,在該商業(yè)環(huán)境中,最終用戶(hù)可以輕松地報(bào)告運(yùn)行不佳,欠佳或異常的基于SSD硬盤(pán)系統(tǒng)。他說(shuō):“IT部門(mén)需要迅速了解故障,而解決故障遠(yuǎn)比找罪責(zé)方重要得多。”
當(dāng)涉及SSD硬盤(pán)故障時(shí),快速解決問(wèn)題是防止過(guò)多損壞的關(guān)鍵。Adato說(shuō):“企業(yè)所希望的最好的結(jié)果是失去了對(duì)該驅(qū)動(dòng)器進(jìn)行寫(xiě)入的能力,但保留了對(duì)其進(jìn)行讀取的能力。因此,企業(yè)可以在將設(shè)備發(fā)送到廢料堆之前將所有數(shù)據(jù)復(fù)制到另一個(gè)SSD硬盤(pán)。”