存儲系統作為如今大數據云計算時代的根基,它的穩定才是支撐起如此海量數據的根本。所以各大相關行業對于這部分非常重視,所以在此針對存儲系統的故障處置簡單提出自己學習總結的一些思路。
首先在處理存儲系統發生的可能故障前必須對于整個存儲系統的架構以及原理有一個清楚的了解。普遍來說存儲系統由主機、交換機及存儲設備組成。它們之間可以是直連或者是IP網絡或FC網絡的方式進行連接。整個系統的穩定性跟每個組成部分都息息相關。
其次了解故障的分類,故障分類大致分為硬件故障、配置故障或者license類問題,先外部后內部,先處理高級警告后處理低級警告,先共性后個性。
面對故障的發生,第一步永遠都是先進行必要的信息收集,對于整個存儲系統的基本信息,故障信息、存儲設備信息以及組網、主機服務器信息要有了解。這些部分可以直接管理到主機、交換機或存儲設備中進行收集,如今廠商也都有專門研發維護工具來幫助管理者做這些事情。收集清楚這些信息之后,才能對整個存儲系統有一個普遍清晰的認知。至少對如今的故障可能發生原因有一個了解,然后再細化到每個組成部分上排查可能問題。
一、主機層
在主機層面大多需要檢查的是操作系統版本,相應的HBA卡是否達到合適的標準,如速率、IOPS及帶寬等。其次是在主機上安裝的多路徑軟件,查看一下與存儲設備連接的物理路徑的狀態以及存儲LUN等信息。
二、網絡層
網絡層次可能發生的問題大多是連通性問題,由于鏈路故障導致的丟包或者誤碼率上升等現象,此現象可以在交換機上觀察端口的信息,觀察誤碼率是否在持續增長,如有,則可能存在鏈路部件異常或接觸不良的現象。其次可能是端口速率或帶寬未達到標準,查看端口配置及協商狀況,這些都有可能導致故障或者性能問題。
三、存儲層
存儲設備可以在導出相關告警,事件或者運行數據、系統日志和硬盤日志來進一步分析可能發生故障的原因,到底是存儲控制器問題還是底層的硬盤問題都需要一一排查。在底層存儲方面主要考慮存儲模塊的配置,指示燈狀態等信息,從指示燈狀態我們可以分析出是否存在硬件故障等,其次在配置方面:RAID級別、分條深度、LUN讀寫策略、cache策略,LUN歸屬、硬盤類型等是否符合業務的特點以及不符合時可能導致的問題。都是需要我們在故障排查處理時需要考慮的。
總之面對存儲系統的故障,一定要具備一個清晰的思路,不要盲目的去做。盲目的去做可能會惡化故障,從而使得排查難度進一步加大。