既上個月支付寶出現斷網故障之后,阿里巴巴旗下手機淘寶業務又出現了中斷。6月24日中午,淘寶客戶端、手機頁面出現了癱瘓,表現為登陸失敗、搜索物品出現網絡連接失敗提示,造成此時故障的原因還是網絡系統故障。而就在6月21日,阿里巴巴旗下的阿里云位于香港的數據中心剛剛發生了長達12小時的業務中斷,造成業務中斷的原因是電力故障。作為中國互聯網的排頭兵,阿里巴巴收獲了諸多榮譽,其業務能力一直受人所稱道,然而最近連續的數據中心斷網事件已經讓我們對其數據中心的穩定性產生了擔憂。財大氣粗的阿里向來在數據中心建設上舍得投入,每年都要在世界各地新建一些數據中心,同時也保持著高額的數據中心設備采購額,數據中心也不斷采納新的技術,比如VXLAN、虛擬化、大數據等技術都有實際應用,阿里整個數據中心就是一個非常先進、復雜的IT生態環境,這樣的數據中心有些故障再所難免,但是頻繁的,長時間的出故障那就是阿里的不對了。阿里的技術水平,數據中心的建設管理水平都是無庸質疑的,在中國的所有數據中心里是非常靠前的,較為先進的,但即便如此依然發生了這么多嚴重故障,值得人們深思。阿里表現尚且如此,那其它的數據中心豈不更差了。其實就在昨天中午,知乎網也突然打不開了,大概經過了1個多小時,基本功能才逐步恢復,并且主頁長時間一直沒有恢復,造成知乎網故障的原因是機房出了問題,再往前了說還有攜程、網易都在上個月出現數據中心故障,造成業務的長時間中斷。除了互聯網,再看其它行業,6月23日山東聯通出現大規模網絡故障,3G、4G用戶都受到影響,寬帶網絡完全中斷無法連接;6月24日泉州移動網絡故障,導致手機打不通;不僅在國內,在美國故障同樣再所難免,美國務院官員稱,由于計算機硬件故障,近兩周內無法向全球各地的旅行者發放簽證,還有很多就不列舉了。這些都是在近一個月發生的各種網絡故障,影響范圍廣泛。
隨著人們對數據中心網絡的依賴,使得這類斷網事件受到廣泛關注,畢竟斷網給人們的工作和生活帶來了諸多不便,這也從側面反映了人們的所有活動均和數據中心密切相關,人們從來沒有像現在這樣如此關注數據中心的斷網。現在是只要哪里有數據中心中斷,立即就會在新聞中出現,這也說明這類事件已經受到了人們的廣泛關注,這樣就對數據中心的穩定性提出了更高的要求,當然頻繁的中斷是不可接受的。按照數據中心等級的定義,全年業務中斷超過2小時,就達不到4A的高等級數據中心的要求,然而我們很多數據中心依然可以評為4A;我們部署有各種各樣的備份技術,但是關鍵時刻依然起不到作用;我們每年在數據中心上投入大量投入、擴張,穩定性天天掛在嘴邊,卻時不時地依然有中斷發生,理想總是很豐滿,現實卻是很殘酷。現在很多數據中心其實已經將業務的穩定性擺在第一要位,很多數據中心的運維人員的工作考核就是和數據中心的穩定性有關,如果數據中心一年內發生了長時間的業務中斷,那么收入和獎金都會大幅度下降,所以從數據中心運維人員角度來將,是非常不希望數據中心出現中斷故障的,那么為何避免不了呢?
其實,數據中心的運維人員只是數據中心里的其中一個環節而已,這些人員也只是做一些系統的日常維護,故障的定位處理。數據中心里實際上是非常復雜的系統,涉及到供電、空調、布線、各種各樣的電子設備,一個數據中心擁有幾千臺設備都很正常,像阿里的數據中心在全國各地以及海外都有,數十萬的各種服務器、網絡設備、存儲設備等,這樣龐大的系統,實際上幾乎天天都會出現這樣那樣的問題,相比長時間中斷事件,每天內部數據中心也要處理各種各樣的故障。然而,大家并不知道下一個故障點在哪里,在設計之初考慮的可能故障,卻未必出現,總是在大家的意料之外,所以遇到有些故障時,恢復、切換備用鏈路等工作就無法很快實施,造成業務的長時間中斷。其實很多的數據中心都有各種各樣的業務備份,有時故障可以幾秒鐘就完成切換,業務上根本感知不到,但在實際操作中,由于無法很快知道故障位置,備份就沒法很快實施。還有就是不少的數據中心是沒有備份的,因為備份意味著要投入雙份或者多份的資金建設,對于數據中心是不小的開支,有時甚至是一種投資浪費,所以很多數據中心寧愿冒險,對于頻率不高的故障點不做備份。當然,也不是哪里都有備份就好,過多的部署備份系統會使得整個數據中心變得臃腫,反而會降低數據中心的運行效率,所以采用什么樣的備份系統和方式,考驗著數據中心人員的智慧。數據中心里的所有設備都是采購的,所以只有這些設備廠商的技術人員才對這些設備最了解,一旦設備發生故障后,也只有原廠的人員解決的速度最快,因此一些數據中心的故障恢復,由于可以得到原廠的技術支持就可以縮短故障恢復的時間,但并不是每個數據中心都能享受到原廠技術服務的,這可能要支付高額的服務費用。這樣看來,要保證數據中心業務的穩定性,并非易事。涉及的系統太多,技術太廣泛,我們只能期望這類斷網事件能少發生些,但是根本無法避免,那么誰會是下一個呢?相信很快又會出現。