數據中心的高可用性是指長時間的一個平均數值,用這個數值來表示某一運行中可修復設備或系統在這段時間內能按其功能穩定運行的時間。一般用平均無故障時間表示。可靠性是一個概率值,支某個設備或系統在一個制定運行的時間內能夠穩定無故障運行的概率。可靠性隨著時間變化,時間越長,可靠性越低。這通常意味著系統已經完成全部測試, 定期維護和安裝了冗余組件, 以確保連續操作。
停機時間可能是因斷電,設備故障、自然災害、人為錯誤、火災、洪水或其他原因導致。它會導致收入損失、客戶、生產力、設備和品牌忠誠度。作為一個數據中心的領導者,你的目標是讓你的設備在任何情況下可以連續操作。數據中心可靠性包含許多因素。在提高可用性上,人員、流程和設備都起到重要的作用。
數據中心經理通過許多措施解決可靠性,如正確的員工的招聘、培訓和發展, 實施和測試過程。他們也確保數據中心基礎設施有內置冗余和可靠的電力、網絡連接、火災探測、水分檢測、防雷、復雜的監控系統,發電機和UPS后備系統,火警探測和滅火系統,水分檢測系統和防雷。
創造更高水平的冗余例如,您可以配置服務器可切換到遠程服務器。這個備份過程被稱為故障轉移。故障轉移是一種備份方法,它使用一個次要組件接管,主要組件的功能變得不可用時。次要組件可以假設在預定的維護操作,當發生意外停電時。
故障轉移技術使系統容錯性更強和是必要的關鍵操作, 以確保持續的可用性。當一個主要組件可以卸載任務第二個組件,終端用戶的過程是無縫的。
除了配置故障組件,高可用性也包括良好的設計因素。數據中心基礎設施的各個方面必須對耐久性評估,開始全面了解每個組件的標準發布的制造商,包括容量限制和壽命。
讓我們看看三個系統領域,數據中心經理應該考慮當尋找提高可靠性。
冗余系統和組件提供冗余系統和組件可以幫助IT基礎設施消除單點故障。但每個數據中心經理必須確定適當的冗余級別的操作。需要深入分析到達一個有效的冗余策略。
當然,將冗余合并到一個數據中心的操作是至關重要的。但是,實現100%的冗余也有著巨大的代價。更要注意的是,不要總是覺得高水平的冗余系統意味著更可靠。雖然這一點似乎違反直覺, 增加冗余組件也是在創建一個更復雜的基礎設施。隨著復雜性的增加,管理的基礎設施變得更具挑戰性。使用本地數據中心專家可以幫助你到達合適的冗余策略組織。
備份系統備份系統包括發電機的正確配置單位和不間斷電源(UPS)系統。在這個系統中,每個發電機組可以被編程自動啟動在功利性權力的喪失。只要足夠的燃料是可用的,發電機功率整個數據中心的負載,直到實用電源恢復。
常規電力恢復時,發電機負載轉移回市電供電和停止操作。過渡到從備用發電機功率時無縫配置正確。最有效的設計將結合必要的發電機供電,以及防止備用發電機應任何一個單位啟動失敗。
還應該建在冗余UPS系統,一個失敗的模塊不會影響系統的整體能力。發電機和UPS系統可以配置為自動和手動操作交接。在意外斷電自動傳輸是至關重要的。手動轉移用于數據中心設備的定期維護和測試和程序而不干擾正常操作。
監控系統雖然網絡攻擊得到大量的宣傳,環境因素可以同樣毀滅性的設備和數據中心設施。最小化停機時間的影響,數據中心操作必須檢測系統集成。這些系統會提醒你在一個問題發生之前, 避免它成為一個嚴重的事件。
動環系統將監測環境因素如以下:
溫度: 傳感器將測量設備所產生的熱量以及空調系統的進水和排水
濕度和漏水: 傳感器確保高濕度不會腐蝕電子組件和低水平不會引起靜電。他們還監視泄漏內部冷卻設備,在管道泄漏和洪水災難。
氣流組織: 傳感器確保正常空氣流經架/從空調系統。
電壓: 利用傳感器測定電壓,檢測電纜線路安全狀況
供電: 電力故障發生時監測系統檢測電流?煙感: 除了火災、煙霧報警器也可以配置為向當地消防部門報告。
視頻: 實時監測數據中心的活動,特別是在敏感地區,為數據中心經理提供第一手圖像,看著所發生的一切的設施,包括人員的進入和退出。
以滿足組織的需求,避免昂貴的后果,數據中心必須保證連續的正常運行時間。任何計劃外停機,即使只有幾分鐘,可以破壞你的業務操作,導致可怕的后果。即使安裝市場上最好的設備也不能保證業務連續性。