2015年8月6日晚上,部分QQ用戶出現無法登錄故障,這直接影響到了騰訊旗下多款產品的連接使用,直到22:30左右才恢復正常,事后據騰訊確認是因QQ服務機房故障而導致。而在此之前的半年多時間里,多家知名互聯網企業因服務器、網絡設備產生的大大小小各種故障已有數十例。對于像互聯網公司這樣依賴優質的網絡體驗而生存的企業,如果出現故障,其產生的影響和后果非常嚴重。
既然網絡故障帶來的負面作用如此之大,可如何消除這種故障呢?沒有任何一家企業愿意出現這種故障,而出了故障則說明其數據中心必定存在健康問題和隱患。因此我們有必要仔細分析數據中心運行故障高發的成因,選擇更加完善的監控管理方案,以保證數據中心的健壯穩定。
數據中心作為提供各種數據處理的核心場所,對于IT系統的重要性不言而喻。尤其是對于互聯網公司等,包括核心業務在內的所有網絡業務都是通過其數據中心提供訪問和處理的,數據中心的穩定運行是這些業務正常運行的前提。試想一個電商企業的數據中心如果中斷1小時,可能會帶來上千萬元的損失,而在市場競爭激烈的當下,業務的中斷除了遭受經濟損失之外,還會流失大量的客戶,這對企業未來的發展是非常不利的,所以提供連續的優質網絡服務對于一個互聯網企業至關重要。
當然,企業也清楚這點,每年花在數據中心上的投入也非常大,除了人員方面的投入,基礎設施的建設投入占據了最大的比重,但是到頭來還是會出現這樣那樣的故障,為什么?這很大程度上是由于企業業務增長太快,而導致數據中心的負擔愈加沉重,在不斷擴容或者改造過程中比較倉促,隱藏著不少安全隱患,即便是像騰訊這樣的大型企業也在所難免。高速擴張的結果就是系統架構總是要改變,從而帶來運維管理上的局促,隨著業務量的增長,危機四伏。
數據中心歷來都是一個對新技術渴求最強烈之地,都希望可以引入先進的技術和設備,從而更好地為業務服務,同時在行業競爭中不落后于人。不過,引入新技術雖然解決了原有系統存在的問題,為業務提供了有效的支撐,但往往給數據中心帶來了新的運行風險。因為新技術、新系統可能還有很多不夠完善的地方,如果運維管理工作沒有跟上,則運行起來就容易出問題。為了保證業務的長期穩定運行,數據中心從應用、服務器、網絡、防火墻、物理鏈路等等都要有生產系統和備份系統,這也會將數據中心設計得過于復雜,實際運維起來非常麻煩,一旦出現問題反而不知道問題出在哪里。因此,再好的技術,也還是會出故障。所以必須要加強對數據中心的監控管理,如此才能降低數據中心出現故障的風險。
實際上,絕大部分數據中心都無法做到常年業務不中斷,但是盡可能地減少故障,確保其運行過程中隨時監控管理,預、告警任何錯誤故障,不放過任何相似的問題,將風險降至最低,這也是監控管理軟件的最大使命。