存儲(chǔ)區(qū)域網(wǎng)絡(luò)可能很復(fù)雜。如果管理不善時(shí),情況更加嚴(yán)重。故障排除非常困難,因?yàn)楹苌儆泻玫脑O(shè)計(jì),而且光纖通道標(biāo)準(zhǔn)的寬松程度會(huì)使互操作性成為問題。
光纖通道(FC)存儲(chǔ)區(qū)域網(wǎng)絡(luò)已被iSCSI SAN取代,成為很多數(shù)據(jù)中心的塊存儲(chǔ)選擇。然而,盡管iSCSI是成本更低的替代方案、更易于管理,還可使用熟悉的以太網(wǎng)網(wǎng)絡(luò)技術(shù),并且可以共享現(xiàn)有的LAN,但是當(dāng)需要高性能塊存儲(chǔ)時(shí),F(xiàn)C仍然是首選協(xié)議。因此,盡管出現(xiàn)其他替代方案,它仍然是大多數(shù)企業(yè)中重要的存儲(chǔ)替代方案。
對(duì)于FC SAN,重要的是要了解常見問題,以便弄清楚如何診斷和解決問題,或者首先是如何防止出現(xiàn)問題。
常見問題
在復(fù)雜的存儲(chǔ)網(wǎng)絡(luò)中,很多事情都可能出錯(cuò)。FC是從零開始構(gòu)建,以支持網(wǎng)絡(luò)存儲(chǔ)系統(tǒng),因此,對(duì)于管理,除了需要常規(guī)網(wǎng)絡(luò)知識(shí),還需要大量的專業(yè)化知識(shí)。同時(shí),還應(yīng)注意,在過去的幾年中,通過自動(dòng)化某些功能并減少LUN配置等的所需步驟,F(xiàn)C SAN供應(yīng)商已經(jīng)簡化陣列管理。
也就是說,保持FC SAN的性能仍然是一個(gè)挑戰(zhàn),但是根據(jù)問題的不同,你可以將問題縮小到潛在的原因,以加快故障排除和解決的速度。主要常見問題包括以下:
1. 兼容性問題
盡管FC SAN已經(jīng)存在近三十年,但并不是所有設(shè)備都能很好地兼容。我們經(jīng)常會(huì)看到很多SAN問題源自不兼容的組件。所有存儲(chǔ)供應(yīng)商都會(huì)發(fā)布某種形式的支持矩陣(通常稱為硬件兼容性列表(HCL)),其中他們會(huì)記錄存儲(chǔ)陣列微碼、SAN交換機(jī)固件和主機(jī)硬件/軟件的經(jīng)過測試和受支持的配置。使用HCL以外的硬件或軟件,SAN可能會(huì)在一段時(shí)間內(nèi)正常運(yùn)行,但是這種做法存在風(fēng)險(xiǎn),這會(huì)使故障排除性能問題變得更加困難。
2. 超出容量限制
顯然,飽和的SAN端口會(huì)導(dǎo)致瓶頸問題,而這些瓶頸問題可能會(huì)轉(zhuǎn)變成難以診斷的應(yīng)用程序問題。通常,我們很容易查看SAN的主機(jī)或存儲(chǔ)端口,并確定它是否100%繁忙,但我們很難確定過載的交換機(jī)間鏈接(ISL)是否是問題根源。有時(shí)I / O本身不是瓶頸,而是限制問題(例如風(fēng)扇比率-分區(qū)到存儲(chǔ)端口的主機(jī)總線適配器(HBA)的數(shù)量)-以及超過架構(gòu)中交換機(jī)的數(shù)量,從而導(dǎo)致連接問題。
FC交換機(jī)供應(yīng)商通常會(huì)提供軟件,以幫助檢測瓶頸問題,甚至可能提出解決方案。另外還有可用的第三方應(yīng)用程序,例如SolarWinds系列產(chǎn)品、NetApp的OnCommand應(yīng)用程序和用于SAN的IntelliMagic Vision,它們可以洞悉SAN的運(yùn)行情況以跟蹤和緩解瓶頸。這些第三方工具通常支持多種不同的存儲(chǔ)品牌和型號(hào),因此它們在混合供應(yīng)商環(huán)境中可能特別有用。這類工具已經(jīng)存在一段時(shí)間,最初統(tǒng)稱為存儲(chǔ)資源監(jiān)視器;這些工具在開始時(shí)并沒有引起關(guān)注,因?yàn)樗鼈兒軓?fù)雜,但現(xiàn)在它們已經(jīng)精簡,并已增加功能和提高可用性。
3. 錯(cuò)誤配置或分區(qū)
糟糕或不正確分區(qū)是SAN問題的最常見原因之一。也許是因?yàn)槲覀冏罱?jīng)常更改SAN分區(qū)。這也可能很常見,因?yàn)閰^(qū)域包含那些棘手的16位十六進(jìn)制全球通用名稱(WWN)。
4. 易出故障的連接和電纜
當(dāng)光纖電纜發(fā)生故障時(shí),似乎很少會(huì)完全失效。通常它們會(huì)出現(xiàn)間歇性問題,并緩慢失效。在這個(gè)過程中,應(yīng)用程序和管理員會(huì)適應(yīng)間歇性問題。由于大多數(shù)SAN環(huán)境支持多種電纜類型,這些問題可能會(huì)更加復(fù)雜,因此監(jiān)控工具會(huì)有所幫助,它們可從各種電纜介質(zhì)返回準(zhǔn)確結(jié)果。
5. 存儲(chǔ)陣列配置問題
每個(gè)品牌的存儲(chǔ)陣列的管理方式略有不同,但是它們都基于一些基本概念。LUN必須通過前端SAN端口創(chuàng)建并分配給HBA。當(dāng)存儲(chǔ)管理員在配置陣列時(shí)輸入錯(cuò)誤時(shí),經(jīng)常會(huì)出現(xiàn)問題。手動(dòng)創(chuàng)建LUN是繁瑣的過程,因此容易出錯(cuò)。
6. 主機(jī)配置問題
服務(wù)器方面很容易出現(xiàn)問題。網(wǎng)絡(luò)環(huán)境中的服務(wù)器代表著SAN組件堆棧的很大部分,其中包括卷管理器、操作系統(tǒng)、多路徑軟件、HBA驅(qū)動(dòng)程序、HBA固件和HBA硬件。所有組件都必須根據(jù)存儲(chǔ)供應(yīng)商的規(guī)范進(jìn)行配置;與供應(yīng)商規(guī)范的任何偏差都可能導(dǎo)致問題。在大多數(shù)企業(yè)中,服務(wù)器虛擬化顯著增加運(yùn)行服務(wù)器的數(shù)量。除了增加服務(wù)器配置問題外,由于有大量其他服務(wù)器,虛擬服務(wù)器可能還需要服務(wù)器管理員進(jìn)行一些特殊設(shè)置。
7. SAN硬件故障
在常見的SAN問題中,硬件故障排在最后,這是因?yàn)椋M管它通常是我們關(guān)注的首要問題,但實(shí)際很少發(fā)生這種問題。現(xiàn)在的SAN硬件非常可靠,但硬件確實(shí)偶爾會(huì)出現(xiàn)故障。影響主機(jī)訪問的常見故障是SFP端口故障、端口卡故障和整個(gè)交換機(jī)故障。
8. 緩慢的存儲(chǔ)響應(yīng)時(shí)間
存儲(chǔ)網(wǎng)絡(luò)是復(fù)雜的環(huán)境,其中包含很多組件,必須正確設(shè)置和仔細(xì)監(jiān)視,但是性能問題也可能是由存儲(chǔ)設(shè)備本身引起。數(shù)據(jù)存儲(chǔ)介質(zhì)將對(duì)整體SAN性能產(chǎn)生深遠(yuǎn)影響。現(xiàn)在,大多數(shù)存儲(chǔ)陣列至少都包含SSD,因此,性能調(diào)整可能涉及切換到固態(tài)存儲(chǔ)或添加更多的SSD。如果很多應(yīng)用程序都需要高性能,則可能需要使用全閃存陣列。如果你堅(jiān)持使用僅硬盤驅(qū)動(dòng)器的陣列,那么就需要擠出額外的性能,但傳統(tǒng)的調(diào)整(例如,短暫敲擊磁盤驅(qū)動(dòng)器)可能會(huì)帶來額外的麻煩。
問題確定
當(dāng)你對(duì)SAN進(jìn)行故障排除時(shí),你需要深入了解特定系統(tǒng)的所需配置和預(yù)期行為。當(dāng)發(fā)生問題時(shí),通過排除SAN、主機(jī)和存儲(chǔ)中正常運(yùn)行的組件,可以更好地瞄準(zhǔn)問題。
· SAN。最近是否發(fā)生SAN變更?詢問一下其他人員,檢查SAN日志,然后將正在運(yùn)行的配置與文檔進(jìn)行比較。SAN報(bào)告時(shí)間或錯(cuò)誤是否相關(guān)?查找失效端口、最近端口注銷或架構(gòu)重建。
· 主機(jī)。其他主機(jī)能否看到有問題的存儲(chǔ)?該主機(jī)能否看到其他存儲(chǔ)?HBA是否日志記錄在架構(gòu)中?最近是否發(fā)生任何主機(jī)更改?主機(jī)的系統(tǒng)消息日志中是否有與SAN相關(guān)的消息?
· 存儲(chǔ)。其他主機(jī)能否看到有問題的存儲(chǔ)?存儲(chǔ)端口是否日志記錄到架構(gòu)中?最近是否發(fā)生任何存儲(chǔ)更改?是否有存儲(chǔ)陣列日志報(bào)告錯(cuò)誤?
如果使用變更管理軟件,則將顯著簡化上述所有檢查工作。變更管理應(yīng)用程序還可以幫助提醒支持人員注意可能被孤立或不包含在備份操作中的任何服務(wù)器或數(shù)據(jù)存儲(chǔ)。
避免將來出現(xiàn)問題
檢查支持矩陣
請(qǐng)定期檢查存儲(chǔ)供應(yīng)商的HCL和其他支持材料,以對(duì)比當(dāng)前支持的內(nèi)容與你的配置。并且,制造商不斷通過新代碼修復(fù)漏洞,你還應(yīng)檢查是否有任何更新,并保持軟件版本最新和受支持-這將有助于避免很多問題。
(1) 記錄SAN
這個(gè)很重要。在解決問題時(shí),了解原始的SAN環(huán)境設(shè)計(jì)意圖非常重要。請(qǐng)確保文檔記錄了主機(jī)、HBA、WWN及其連接位置。其中應(yīng)包括存儲(chǔ)、存儲(chǔ)端口及其WWN。最后,SAN文檔應(yīng)描述架構(gòu)、ISL、區(qū)域集、區(qū)域和區(qū)域成員。
如果沒有原始設(shè)計(jì)文檔,則你應(yīng)該能夠使用SAN管理或變更管理應(yīng)用程序來發(fā)現(xiàn)和記錄所有網(wǎng)絡(luò)設(shè)備-而且,在很多情況下,還應(yīng)該記錄關(guān)鍵配置信息,例如網(wǎng)絡(luò)地址。
(2) 基準(zhǔn)化SAN性能
除非你記錄每天發(fā)生的事情,否則很難確定繁忙的端口是正常情況還是問題的罪魁禍?zhǔn)住U?qǐng)至少記錄SAN中每個(gè)端口的平均端口利用率。如果你使用SAN監(jiān)視工具,則它可能可以做到這一點(diǎn)-實(shí)際上,在建立可接受的性能閾值后,當(dāng)出現(xiàn)異常時(shí),大多數(shù)監(jiān)視應(yīng)用程序都會(huì)發(fā)送電子郵件或文本警報(bào)。SAN監(jiān)視應(yīng)用程序還提供儀表板,以實(shí)時(shí)了解網(wǎng)絡(luò)狀態(tài)和單個(gè)網(wǎng)絡(luò)組件。
(3) 計(jì)劃你的變更
為避免管理員引起的中斷,請(qǐng)使用SAN文檔來定義變更,然后再進(jìn)行變更。如果你在執(zhí)行變更時(shí)才決定要做什么,那么你就錯(cuò)了。而且,在變更發(fā)生后很容易忘記記錄變更。某些變更管理應(yīng)用程序還將使你能夠進(jìn)行“假設(shè)分析”,以測試預(yù)期的變更對(duì)SAN環(huán)境或與其連接的存儲(chǔ)系統(tǒng)的影響。
(4) 備份配置
在每天SAN變更后,請(qǐng)備份并安全地存儲(chǔ)交換機(jī)配置。當(dāng)交換機(jī)出故障或在變更期間完全混亂,這將確保你可以從備份中快速回滾變更。為了更加安全,請(qǐng)配置備份應(yīng)用程序,以在日常數(shù)據(jù)備份操作期間定期備份所有關(guān)鍵配置文件。
當(dāng)某些事情在控制之中且網(wǎng)絡(luò)環(huán)境被很好地映射,解決SAN問題可能是相對(duì)容易的過程。 請(qǐng)將這些最佳做法作為日常SAN健康方案的一部分,以避免當(dāng)出現(xiàn)故障時(shí)造成更大的問題。