接踵而來的宕機事件
對于云服務提供商和他們的用戶來說,2015年的夏天就像當前的股市一樣,顯得極不尋常和讓人心驚肉跳。
在經歷了接踵而來的陌陌、網易、支付寶、攜程網、藝龍網、招商證券、同花順、齊魯證券網絡故障之后,2015年的5月被不少圈內人士揶揄為“黑色五月”。然而在“黑色五月”過去之后,宕機事件卻并沒有就此平息。
2015年6月6日下午,青云的服務商睿江科技機房因雷暴天氣引發電力故障,導致青云廣東1區全部硬件設備意外關機重啟,青云官網及控制臺短時無法訪問、部署于GD1的用戶業務暫時不可用。
2015年6月21日,阿里云香港節點出現全線宕機,業務中斷超過12小時,甚至有部分用戶數據出現損毀,在業界引發轟然大波。
阿里云事故發生伊始,坊間就傳出了令人眼花繚亂的各種解釋,包括光纖挖斷、電力故障、消防警報等等,不一而足,讓一起機房宕機事故演變成了一出“羅生門”。
6月21日晚,阿里云發布公告稱,本次故障因香港運營商IDC電力問題所致,阿里云已責成香港運營商盡快完成機房整改措施,規避此類問題的再次發生。
阿里云的香港數據中心服務商名氣通則聲稱,其香港二號數據中心于2015年6月21日上午9點40分因電力故障導致部分客戶服務中斷。名氣通第一時間啟動應急方案進行緊急搶修,下午2點恢復部分客戶服務,晚上9點50分完全恢復電力供應,客戶服務全部恢復正常。
對于這起宕機事故,業內人士普遍表示“難以置信”。因為對于中斷1分鐘都可能讓客戶難以忍受的云服務來說,這類故障通常在幾分鐘之內就能解決,12個小時顯然有些不可思議了。
但是,阿里云還不是最慘的。有用戶反映,其租用的恒創主機在本次事故中癱瘓超過24小時。對此,我們也許只能用“沒有最慘,只有更慘”來形容了。
為什么香港倍受青睞
6月21日的宕機事故,將香港數據中心一下子推到了風口浪尖。那么問題就來了:為什么香港經常有臺風等自然災害,但還是有越來越多的企業選擇香港數據中心?
總結歸納一番,其原因不外乎以下幾點:
一、香港的國際金融中心地位。這一點自然不用多說,只要是想要開拓金融行業客戶的云服務商,自然都不會放棄香港。而另一方面,金融行業對計算能力、穩定性及數據安全的要求是所有行業中最為嚴苛的,因此只要能夠搞定這些金融客戶,對于云服務商本身也是一個很好的正面宣傳。
二、香港的黃金地理位置。作為“東方之珠”的香港,在地理位置方面也有著得天獨厚的優勢。香港是亞太地區海底光纜集中交匯地區,基礎設施完善,通訊覆蓋全面,并建有多個世界級的數據中心,可滿足國際化用戶的需求。這也使得香港除了國際金融中心之外,還儼然有成為亞洲數據中心樞紐之勢。
三、香港政府的大力支持。對于數據中心建設,香港政府一直都是鼎力支持,不但在選址、價格等各方面都有各種優惠政策,而且還為很多機房提供了免費的制冷供電。
四、企業的海外業務需求。近年來,包括消費電子、游戲開發、電子商務等眾多領域的中國企業,都對拓展海外市場業務有著旺盛的需求,因此將香港作為走出國門的第一站,實在是再合適不過了。
五、減少麻煩和規避風險。除了以上原因之外,還有一點是許多企業通常都不太愿意提及的,那就是可以繞過內地的數據備案制度。
正是因為有著諸多的優勢,再加上如今“大眾創業、萬眾創新”的主旋律,所以即使是在發生宕機事件之后,香港數據中心未來還是會有大批創業公司和想要拓展海外市場的企業不斷涌入。
宕機事件暴露的問題
長久以來,香港數據中心在云服務商和廣大企業用戶心目中的形象都非??孔V。但是這一次的宕機事件,卻暴露出了相當嚴重的問題。
按照阿里云的官方公告,本次故障因香港運營商IDC電力問題所致。但是為了保證數據中心7×24小時的不間斷運轉,像阿里云這樣規模的云服務,名氣通應該為其配備兩個獨立的變電站或者一個變電站二個獨立倉位出來的供電線路,也就是雙路供電。這樣即使其中一條線路出現電力故障,數據中心也可以瞬間切換到另一條供電線路,用戶根本察覺不到影響。
就算是遇到了不可預料的重大自然災害,兩條供電線路都被切斷,那么也用不著驚慌,因為數據中心可以通過備用的柴油發電機為機房供電。
如果“屋漏偏逢連夜雨”,連柴油發電機也出現了故障……好吧,那就只有靠最后一招——UPS了。不過考慮到大型數據中心不斷攀升的功耗,這可撐不了多久。
正是因為有著完備的防范措施,所以在正常情況下像電力故障這類問題,數據中心通常只需要幾分鐘就可以解決,這也是業內人士對阿里云香港機房斷電12小時普遍感到“難以置信”的原因。因此有資深人士推測,在宕機事故的背后可能還有更深層次的因素,譬如出現了難以維修的控電設備故障、備用柴油發電機故障、阿里云與名氣通之間的協調溝通不暢導致工作效率較低、修復進度受阻等等。
關于數據中心應該自建還是外包這個問題,業界一直眾說紛紜,莫衷一是。就在上個月,針對Zynga先租用亞馬遜云服務、再自建數據中心、而后又關閉數據中心重新使用亞馬遜一事,我還寫了一篇《兩小兒辯云:數據中心該自建還是外包?》做了一番調侃。目前看來,在香港宕機事件發生之后,關于數據中心是否應該自建這個話題的爭論勢必還將繼續下去。
什么樣的云服務才可靠
身處“互聯網+”時代,互聯網已經像吃飯睡覺一樣,成為了許多人生活中不可或缺的一部分。這在對相關云服務提供商提出越來越高要求的同時,其所要承擔的風險也在急劇增加。以金融行業為例,如果某銀行系統中斷1小時,將直接影響其基本支付業務;中斷1天,將對其聲譽造成極大傷害;中斷2-3天以上不能恢復,將直接危及其他銀行乃至整個金融系統的穩定。由此我們不難想見,一旦云服務出現故障,用戶將會多么抓狂。
正是因為對業務持續性有著極高的要求,業界對數據中心供電提出了“5個9”的可用性標準,即一年之內保持99.999%的時間不斷電。換句話來說,也就是數據中心一年之內斷電時長不超過5分鐘。不過即使是亞馬遜AWS這樣的巨頭,也很難達到這樣高的標準。
為了更好地對不同標準的數據中心基礎設施進行區分,國際正常運行時間協會(the Uptime Institute,簡稱UI)將其劃分為從T1到T4等四個級別:
一、T1第一級數據中心:基礎類型
T1有計算機電力配送和制冷,但不一定配備架空地板、UPS或發電機。即使有UPS或發電機也是單模塊系統,具有多處單點故障。為了進行預防性的維護和維修,一般基礎設施每年需要完全關閉一次,在緊急情況下甚至可能需要頻繁關機。對各部件的操作錯誤或自然故障,將導致整個數據中心運行中斷。T1數據中心的可用性為99.671%。
二、T2第二級數據中心:組件冗余
T2配備架空地板、UPS和發電機,并具有一些冗余組件,因而引發數據中心中斷的可能性小于T1數據中心。不過T2的UPS和發電機的設計容量是N+1且為單回路設計,有單點中斷可能。對關鍵電路和其他基礎設施進行維護,需要程序式地關閉設備。T2數據中心的可用性為99.741%。
三、T3第三級數據中心:在線維護
T3可以在不引起計算機硬件運行中斷的情況下進行所有的計劃性現場活動,包括保護性和程序式的維護、維修和元件替換,增加或減少與處理能力相關的部件,對部件和系統進行測試以及更多活動。使用水冷的大型系統需要兩個獨立通路提供充足的處理能力和配電通路,允許在一條通路承擔負載工作的同時,用另一條通路進行維護和測試。不過操作錯誤或設施部件自然故障等非計劃活動,還是會引起數據中心的中斷。T3數據中心的可用性為99.982%。
四、T4第四級數據中心:容錯系統
T4需要所有的硬件都具備雙路供電,其容錯能力不但可以保證任何的計劃性活動不會引起關鍵負載的中斷,而且還能為基礎設施提供至少可以忍受一次的最糟糕情況——非計劃性故障或非關鍵性負載事件的沖擊的能力。這需要同時活動的兩條配送途徑,通常是雙系統(S+S)配置,從電力角度來說則需要兩個獨立的(N+1)UPS系統。不過根據消防和供電安全規范的要求,還是會有因為火災報警或啟動緊急停電程序而導致的停機時間發生。T4數據中心的可用性為99.995%。
目前常見的數據中心基礎設施,其等級大多介于T3和T4之間。而選擇亞馬遜、阿里云、騰訊云這類IaaS(Infrastructure as a Service,基礎設施即服務)云服務提供商的企業,則是租用其提供的服務器,然后自行安裝配置各種軟件環境。其中作為眾多同行學習的行業標桿,亞馬遜AWS用的是自建數據中心,功能很強但是價格也偏貴;而由于規模原因,阿里云、騰訊云等國內互聯網巨頭在香港的數據中心則是租用了合作伙伴的,這種非自建的租用模式對合作伙伴的能力和內部協調效率都是一種考驗。最近兩個月來一連串的宕機事件也說明,大廠商、大品牌并不一定可靠,構建多IDC的同城災備或異地災備系統才是王道。不過包括阿里云和騰訊云在內,其在香港都是單一數據中心,尚未構建同城災備系統。
有意思的是,阿里云、騰訊云均聲稱目前正在籌建香港的第二個數據中心。這也從另一個側面體現了多IDC災備系統的重要性。
云服務商香港節點對比
俗話說得好:“不怕不識貨,就怕貨比貨。”在本篇文章的最后,筆者列出了幾家國內云服務商在香港節點的對比介紹,希望可以為近期想要租用或更換云服務的企業提供借鑒與參考。
一、阿里云
2014年5月12日,作為阿里云邁向全球化的第一站,阿里云香港數據中心正式投入使用,并與亞馬遜AWS、微軟Azure等展開正面競爭。香港數據中心為Tier3+級別,由阿里云與香港名氣通電訊共同建設運營,后者不但擁有多個世界級數據中心,而且具備服務Facebook、YouTube等互聯網企業的豐富經驗。網絡光纖除接通中國大陸外,還包括香港、新加坡、英國、美國及歐洲等國際級電信商,可為香港、東南亞乃至全球用戶提供快速、穩定的云計算服務。
二、騰訊云
早在2005年,騰訊云就開始在香港搭建IDC。2014年6月,騰訊云香港數據中心正式啟用,并于7月1日香港回歸紀念日推出香港云服務器限量開售活動。騰訊云香港數據中心采用的是“租用+定制化”模式和國際BGP線路,主要針對亞太和歐美地區的企業提供云服務,解決企業開展海外業務時遇到的網絡服務難題,并且提供本地硬盤,價格相對于其他云服務提供商更具競爭力,用戶還可根據實際需求自定義選擇機型。在電力供應方面,騰訊云的香港機房具備雙路供電、2N設計UPS,機房電力可靠性超過99.999%。
三、UCloud
2013年,UCloud與香港第一大網絡接入商HGC和記環球電訊攜手正式啟動了亞太數據中心的運營,成為中國第一家走向海外的云計算公司。隨著近年來海外市場的不斷拓展,大批中國移動互聯網企業,特別是手機游戲公司都將UCloud云服務作為了首選。目前在UCloud亞太數據中心的客戶當中,手機游戲開發者、移動互聯網和電子商務領域占到了多數。2015年4月13日,UCloud又與NTT com Asia達成合作,在香港唯一的T4級商用數據中心——香港金融數據中心增設了T4級亞太節點,在香港節點的同城災備方案上又向前邁進了一大步。