2015年8月6日晚上,騰訊QQ出現無法登錄的問題,影響到16款旗下產品出問題,直到晚上22:30才恢復正常。經過騰訊的技術人員排查,確認是QQ服務機房故障導致。在2014年11月7日騰訊的微信曾出現過大面積故障,還有在2014年10月20日,微信也出現過故障,2013年之前故障次數就更多了。騰訊作為中國三大互聯網公司之一,是互聯網企業中的標桿企業,每年從名牌高校招聘大量的高技術人才,技術實力毋庸置疑,可為何還總是會出現這樣那樣的問題。騰訊尚且如此,那其他的互聯網企業就更不用提了。就拿2015年來說,才剛剛過去半年,大大小小的各種故障不下10例。對于一個互聯網企業,提供優質的網絡體驗是其生存的根本,所以這次騰訊QQ出現無法登錄后,有不少的QQ用戶申請百倍的賠償,當然在當前的網絡環境下,這種得到賠償的概率很小,絕大多數的情況下只能是客戶自己買單。既然網絡故障帶來的負作用這么大,可為何依然還是故障不斷呢。我想沒有任何一個互聯網企業愿意出現這種故障,出了故障那說明其運行的數據中心一定是沒有做好,存在一定問題,下來我們就來仔細分析數據中心運行故障高發的成因,供廣大的數據中心從業人員學習、參考。
數據中心作為提供各種數據處理的場所,是非常重要的。尤其對于互聯網公司,所有的網絡業務都是通過訪問其數據中心提供的,數據中心的穩定運行是前提。亞馬遜的數據中心如果中斷1小時,都可以帶來上千萬美元的損失,還有淘寶,試想中斷一會兒就會損失數百萬的訂單,而現在互聯網競爭也很激烈,如果你的網站上買不了,對不起,客戶可不會等,就會到別的網站去買,甚至以后都不會再回來買,所以業務的中斷不僅是收入的損失,還會流失不少潛在的客戶,這對企業未來的發展是非常不利的,所以提供連續的優質的網絡服務對于一個互聯網企業至關重要,互聯網企業當然清楚這個,所以每年在數據中心上的投入也是非常大的,除了人才的投入,就是數據中心的建設投入占企業的最大頭,但是到頭來還是會出現這樣那樣的故障,為什么呢?首先,數據中心的業務增長太快,全球數據量每兩年就會翻一倍,就拿騰訊來說,每年都保持著超過40%的銷售額增長率,客戶數增長很快,而這些客戶都要訪問數據中心,就給數據中心帶來沉重的負擔,數據中心就需要不斷進行擴容或者新建,很多數據中心機房建設都是倉促上馬,這樣隱藏著不少的安全隱患,即使是像騰訊這樣的大企業也再所難免,高速擴張的結果就是系統架構總是要變,總有不合理的地方,但是根本沒有時間和機會去整改,隨著業務量的增長,危機四伏。其次,數據中心是一個對新技術渴求最強烈的地方,哪個數據中心都希望可以引入一些先進的技術和設備,從而更好地為業務服務,同時在與其他數據中心競爭時不落后。要知道同樣都花1000萬來優化數據中心,誰用的技術牛,誰設計的架構先進,往往就可以抓住客戶,還能為數據中心節省投資,不過引入新技術,往往給數據中心帶來了運行風險。新的技術,雖然可以解決一些老系統固有問題,為業務提供有效支撐,但是畢竟是新技術,還有很多不夠完善的地方,運行起來就容易出問題。我們很少聽到銀行系統中斷,銀行系統里大量的數據中心使用的還是最基本的技術,有些現在看起來甚至過于陳舊,但是運行穩定,所以銀行整體的數據中心運行穩定性就比較好。再次,數據中心備份系統設計存在問題,為了保證業務的長期穩定運行,數據中心都會設計各種備份技術,從軟件、服務器、網絡、防火墻、物理鏈路等等都有備份,當出現故障時,業務自動或者手工切換到備份系統上來,讓業務上無感知。但是備份系統是要耗費大量資金來建設的,有時引入過多備份系統,也會將數據中心設計得過于復雜,實際維護起來非常麻煩,一旦出現問題反而不知道問題出在哪里,可恢復的時間要更長,這樣的備份系統就得不償失了。有了備份系統,還要平時進行業務演練,確認備份系統是好的,以免以后真的出問題,備份系統起不了作用。最后,數據中心里70%的故障都是人為故障,很多時候是維護人員的誤操作導致的問題,這樣即使有再完美的備份系統,再好的技術,也還是會出故障。所以要加強對數據中心運維人員的管理,這樣才能降低數據中心出現故障的風險。
由此可見,數據中心要保證常年業務不出任何中斷,做到了的話,那是非常了不起的事情。實際上,絕大部分的數據中心都無法做到,只能是盡可能地降低這種故障風險,技術再強的數據中心也無法確保其運行不出任何問題。連飛機這樣安全性這么高的設備,每年還都會發生墜機事故,更何況是數據中心呢?所以我們要對數據中心出現的故障保持一顆容忍的心態,當然這決不是對故障的放縱,忍無可忍時,就無須再忍。頻繁地出現各種業務中斷故障,數據中心將最終為自己買單,最終損失最大的就是數據中心自己。騰訊QQ 這次出現故障,決不會是數據中心故障的最后一次,以后還會有。但是每出現一次故障,就應該吸取教訓,至少相同的故障不應該重復出現,這對于任何的互聯網企業,任何的數據中心都一樣,總結經驗教訓,在技術能力范圍內,降低數據中心運行故障的風險。