大多數人在生活或工作領域中都不希望出現連接中斷的情況,尤其是在以數字生活方式為主的今天,所以數據中心基礎設施變得越來越重要。對于許多消費者來說,他們希望自己的數字產品和服務能保持正常工作,所以當發生宕機事件時,他們就會開始抱怨甚至投訴。
以最近的航空數據中心宕機事件為例,如美國達美航空、西南航空和英國航空公司,由于一個簡單的電氣故障或不當的維修程序,導致服務器遭到災難性損壞,航空公司損失數億美元,數以萬計的乘客被滯留在全球各地的機場。
這些大規模的宕機事件總能成為新聞頭條,而且數據中心宕機事件比人們想象的更為常見。根據Uptime Institute調查顯示,25%的受訪企業在過去一年內都發生了數據中心宕機事件,無論是在自己的數據中心還是在服務提供商的網站上。此外,90%的數據中心和IT專業人士表示,他們的企業管理人員比一年前更加關注數據中心中斷事件。
然而,并不是每次宕機事件與航空公司停運事件一樣具有破壞性或公開性,但是宕機事件會對企業造成一定的經濟損失。根據Uptime Institute的調查表明,只有60%的企業會測量停機成本來作為其業務指標,而在2017年,測量停機成本成為了所有企業都必須采取的措施??紤]到幾分鐘或幾小時的停機可能帶來的經濟損失,IT專業人員和設施管理人員將會更加注重基礎設施的維護。
當然,意識到數據中心的風險與采取措施預測潛在的風險,這是兩個截然不同的問題。那么,企業該如何做才能降低數據中心宕機事件的影響呢?
效率的定義
每個數據中心管理人員都希望他們的數據中心能夠高效運營。效率是指提供給數據中心IT設備的電源和冷卻措施能夠滿足IT需求且不會產生不必要的成本。從更加商業的角度來看,數據中心必須能夠在滿足業務需求的同時保持這種平衡。這意味著數據中心的基礎設施,計算能力和性能需要經常有效地擴展,以降低停機的風險。
然而,對于現在大多數的數據中心來說,缺少考慮數據中心環境變化帶來的影響,如推出的新技術,這些都沒被考慮在內。對于IT團隊來說,除了知道他們部署將使用的數量,空間,網絡和電源之外 ,他們對數據中心環境的影響往往不了解甚至不關心,這是數據中心管理人員的責任,如果IT配置對IT的有效性產生了負面影響,那么管理人員將會立即作出反應。問題在于IT團隊和數據中心管理人員這兩個團隊是獨立運作的,許多企業已經部署了DCIM技術,其目的是通過數據中心的業務來縮小數據和處理流程之間的差距。
模擬每種事件的可能性
從機架上安裝單個擋板到將設備的功率提高到300kW,如果能夠準確預測這中間的所有變化,那么將會影響數據中心的彈性。這不是想象的而是實際存在的,它采取工程仿真的形式,允許數據中心設施管理人員通過創建虛擬原型,對現有設計進行故障排除,以及分析未來數據中心配置的假設場景,并且可以在離線環境中進行實驗。
這意味著當業務需求涌入時,數據中心能夠以絕對的彈性處理工作負載,或者可以減少這些要求,直到基礎設施升級完成。數據中心人員應該積極應對這種變化,這樣可以杜絕停機事件發生,或將其減輕到無害水平。
從運營連續性的角度來看,還可以模擬運行其他事件,例如,如果電源故障啟動并且由備份電池在供電,那么任何關鍵系統能夠脫機嗎?在重新啟動電源系統時,工程師如果沒有遵循正確的協議,會對數據中心產生不利影響嗎?如果是這樣的話,怎樣才能減輕造成的損失呢?所有這些問題和更多的問題都可以通過仿真來解決,幫助數據中心管理人員創建戰略,使關鍵硬件能夠以這樣的方式進行定位,以確保其堅持到最后。
如果90%的數據中心和IT專業人士說,他們的企業管理人員比一年前更擔心宕機事件發生,那么運營彈性則是IT團隊和數據中心設施管理人員最應該考慮的事情,而運營彈性通過上面提到的策略和工具就可以實現。
至于其他10%的管理層,難道他們對數據中心宕機事件不關心?如果他們的團隊盡了一切努力去防止宕機事件發生,但結果還是發生了的時候,他們將會很快改變想法,因為他們了解這將會對公司聲譽造成多大的影響,并且這也是其業務運營的底線。