數據中心是很多復雜的高度相互關聯的系統,需要許多不同的子系統功能都維持正常,才能確保設施可以提供服務。不幸的是,往往一個看似微小的錯誤往往會導致整個系統癱瘓。最近,維基百科的宕機是因為數據中心的光纖被意外切斷,Twitter之前在奧運會期間的中斷,是由于數據中心主系統和備份系統同時出現故障。
從中我們可以吸取的教訓是,不僅僅是颶風、地震、公共設施中斷、惡意攻擊會造成數據中心宕機。任何事情,包括一個相對較小的網卡故障,也可能會破壞您的數據中心。
因此,我們對待較小的程序中斷也需要像大型故障一樣慎重。在這兩種情況下,最關鍵的是做好充分的準備,以減少業務損失。以下有一些建議。
把安全作為首要任務。通常數據中心宕機是由一些很煩人的,但是對人身安全無害的事件所引起。但是當出現危險情況時(比如裸露的電導體),必須確保安全第一。不要以人民幣的名義讓您的員工處在危險中。另一方面,當然,你也要知道什么時候是過度保護了,避免一些不必要的安全措施。關鍵是要找到正確的平衡點,在盡量減少人員傷害的同時降低安全措施的成本。
未雨綢繆。這也許是最重要的一步。如果等到中斷發生了,才制定行動計劃,那你已經處在劣勢了。提前確定應該聯系誰(應該誰在現場)。制定流程來確認和解決這個問題。一份服務提供商的名單是需要準備的,因為你可能需要聯系他們以尋求幫助,比如冷卻裝置等系統出現故障。也許最重要的是,有條有理地整理所有這些信息,方便讓需要它的人能及時獲取。通過提前規劃,你可以更迅速地讓數據中心和業務再次運行。
備份您的數據。對于大多數人來說,在大部分的時間里,保險費是討厭的費用,看起來沒有任何回報。但是,當災難襲來時,購買的保險就派上了用場。備份你的重要數據也是一樣的道理。在你沒有丟失數據之前,這似乎是在浪費時間。但是你必須定期在正常運作期間進行備份,否則當中斷已經發生時,就來不及了。
部署數據中心基礎設施管理/監控(DCIM)解決方案。迅速解決宕機事故的關鍵是搞清楚問題出在哪里。手電筒和萬用表可能不會奏效,你需要(最好)能集中訪問您系統的信息和狀態,以發現故障區域。一個DCIM解決方案可以在宕機事故發生之前,幫助確定這些麻煩的區域。
跟蹤您的數據中心服務的使用率。高峰使用時間對系統會造成壓力,而這可能是發現潛在問題的最佳時間。你應該在這段時間內為宕機做好最佳準備。這時最有可能發生斷路器翻轉或者冷卻裝置失效。這也是客戶最需要你的時候。
結論:小故障和大故障都要做同樣的準備。小故障可能對業務產生比較小的影響,但是仍然必須解決掉它,以免它以滾雪球的形式造成更大的問題。小故障可能是大問題的征兆。