相對已有近60年歷史的硬驅技術而言,SSD是相對較新的技術。不過,對于硬驅技術,我們了解幾分呢?從兩個重要的試驗中或許可以看到些端倪。時間回到2007年,Google公布了一項針對10萬用戶的PATA和SATA驅動可靠性的調查。Bianca Schroeder博士與Garth Gibson博士計算了一些大型國家實驗室中的10萬多個驅動的替換率。差別只在于他們還覆蓋到了企業SCSI,SATA和光纖通道驅動。
MTTF 速率
還記得MTBF意味著什么么?我們以希捷Barracuda 7200.7為例,它的MTBF速率達到60萬小時。在數量較大的時候,我們預計有一半的驅動會在第一次60萬小時的操作中出現故障。假設這些故障在時間上平均分布,即每小時出現一次。我們就可以將其轉換為1.44%的年度故障率(AFR)。
但這并不是Google或Schroeder博士的發現,因為故障并不等同于更換磁盤。這就是為什么Schroeder博士要對年更換率(ARR)進行統計的原因。因為這一數據是根據服務記錄統計,基于實際磁盤更換數量
雖然數據表的AFR介于0.58%到0.88%之間,ARR值介于0.5%和13.5%之間。所以數據集和類型的ARR是數據表AFR的15倍。
驅動制造商對故障的定義與我們的不同,所以他們強調驅動的可靠性也就不足為奇了。通常,MTBF速率是基于加速壽命測試,返回單元數據或是被測驅動池。不過供應商返回的數據值得懷疑。
大多數人以為硬驅的故障率就像澡盆曲線。首先,在早期故障期,你會看到許多驅動出現故障。過了這段時期,故障率便會降低。另一方面,驅動耗盡前故障率呈穩步上升的趨勢。沒有任何研究表明這種假設成立??傮w而言,人們認為驅動故障會隨著使用時間的延長而增加。
對比兩個研究,就會發現100萬 MTBF Cheetah驅動與30萬小時MTBF數據表更為接近。這意味著企業和客戶驅動在年故障率方面很相似,特別是當二者的量相當時。據NetApp的技術策略總監透露,存儲數列控制驅動類型故障的方式讓顧客一直抱著這樣的想法:越貴的的驅動越可靠。存儲行業不可告人的秘密之一便是大多數企業級與用戶級驅動的大部分組件都相同。不過,他們的外部接口(FC, SCSI, SAS或SATA)以及固件設計的優先級別在實際使用有助于對二者進行區分。
數據安全性和RAID
Schroeder博士的研究覆蓋了最大的高性能計算實驗室中大型RAID系統中所使用的企業驅動。通常,我們主觀上認為這類數據在精選過的RAID模式中更安全,不過該研究的結果卻有點出人意料。
磁盤更換的時間分布顯示了正在下降的風險率,即磁盤更換前預期的使用時間隨時間增長。
這意味著數列中一個驅動出現故障會增加其他驅動出現故障的可能性。距離前次故障的時間越長就意味著距離下次更換的時間越長。當然,這關系到RAID的重建進程。經歷第一次故障之后,在一小時內出現另一次驅動故障的幾率增加了四倍。而在十小時內,出現故障的幾率就將下降到兩倍。
最離奇的報道之一來自谷歌。調查者從SMART——內置于大多數硬驅中的自我監控,分析和報告技術——中獲取溫度讀數,繼而發現較高的溫度與較高的故障率并無關聯。溫度似乎對較舊的驅動的影響并不大。
SMART足夠智能嘛?
答案是否定的。SMART旨在盡早捕獲磁盤錯誤,以便用戶可以備份數據。不過,據谷歌透露,出現故障的硬盤中有三分之一以上都沒有觸發SMART警報。這并不奇怪,許多業內人士早就料到了這一點。SMART被優化的目的是捕獲機械故障,可是很多磁盤仍然是電子的。這就是為什么在出現數據一致性問題的時候無法察覺一些操作和環境方面的故障。如果你正使用SMART來告知可能出現的故障,又想確保數據安全,恐怕要另外再部署冗余層。