沒有挖斷光纖,也不是電力部門問題,更沒有所謂的消防警報延誤搶修時間,經過記者多方調查核實,阿里云在香港中止服務12小時就是一起由硬件故障引發、搶修和恢復嚴重超時的事故。
這類數據中心的電力事故原本是國內外云服務商普遍面臨的一大問題,但用一位業內資深人士的話來說,“12小時才恢復實在太久了。應該幾分鐘就解決的。”
12小時的超長處理時間,以及過程當中阿里云與相關方陸續給出的五花八門甚至自相矛盾的解釋,引發了用戶的不滿和業內的質疑,也暴露了阿里云在故障處理和公眾溝通中存在的問題。有部分用戶甚至反應15個小時業務才恢復。
事故發生在6月21日上午9點到10點之間,一些使用阿里云香港數據中心的用戶發現服務出了問題,此后,阿里云方面通過博客公告稱由于運營商電力問題造成香港機房故障,正在搶修。
此后阿里云的客服給用戶的解釋幾易其口。有用戶告訴財新記者,事故后致電阿里云官方客服,得到的解釋是香港和大陸地區所連光纜挖斷,但用戶質疑“難道只有一條光纜”后,阿里又回復稱是因為運營商的電力故障。
6月23日,阿里云方面向記者發來聲明對事故作出說明:6月21日上午9點37分,阿里監控系統發現阿里云香港IDC運營商名氣通機房出現訪問異常,名氣通反饋原因為供電系統故障導致數據中心大樓整體斷電,并觸發消防報警。根據當地的消防規定,必須徹底排查隱患并完全消除后,才能獲準進場做電力搶修。21點22分機房正式恢復穩定供電,阿里立即執行既定預案逐項恢復服務,21點32分安全防護服務恢復正常,各項服務陸續恢復,截至23點39分全部服務恢復。
按照這份說明,阿里云香港服務癱瘓12小時主要是因為機房建設方和運營商名氣通電力故障,阿里云直到電力故障發生近12個小時后才得以進入機房搶修。從阿里云的解釋來看沒能及時搶修成功是因為整棟大樓都斷電而且無法切換備用電源,并且消防隱患排查耽誤了搶修時間。阿里云只用了10分鐘(21時22 分到21時32分)恢復了安全防護服務,繼而用了兩個小時恢復全部服務。但事實并非如此。
消防警報子虛烏有
一時間,阿里云香港合作伙伴運營商名氣通被推上風口浪尖,6月23日下午,名氣通方面經財新記者多次詢問發來了官方回應,承認電力故障,但只字未提大樓整體斷電,以及消防火警等因素影響。
名氣通稱其香港二號數據中心于2015年6月21日上午9點40分,因電力出現故障,導致部分客戶服務中斷。名氣通第一時間啟動應急方案,進行緊急搶修,並于下午2點恢復部客戶的服務,並于當日晚上9點50分,完全恢復電力供應,客戶服務全部回復正常。
在現場參與搶修的不愿具名人士告訴記者,當時并未有火警以及消防等因素干擾,整棟大樓并未斷電,只有部分用戶受影響。“消防封樓因素造成客戶無法進入數據中心處理事故是謠傳。”該人士明確表示。對于事故處理經過,他稱:”就是電力故障,名氣通的部分用戶受到影響,阿里云是其中一個,名氣通的數據運營團隊第一時間就通知了客戶,最早的客戶10點不到就到了。”然而,問什么需要12小時才恢復電力,該人士稱自己并非工程出身無法回答。
事故責任雙方對于事故經過解釋有出入。記者聯系了香港消防處,官方給出的回復稱,為了防止安全隱患,不排除因為故障觸發消防系統自動斷電。但消防處稱查閱火警記錄后告訴財新記者,21日上午9點到10點半這段時間內,名氣通機房所在的將軍澳地區并沒有關于名氣通二號數據中心的記錄。這意味著事故發生當時當地沒有接報火警,也沒有消防處人員到場處理,所謂消防因素延遲了事故處理的說法不成立。
業內人士也向記者分析認為所謂消防因素不合常理。國內一運營商在香港數據中心工作的人士告訴記者,名氣通二號數據中心所在的香港將軍澳產業村是香港最重要的數據中心集中區域,國內運營商、香港地區多個重要金融機構的機房均建設于此。“香港方面在消防、臺風等各類備災上是很注意的,因為消防安全處理造成一個機房十幾個小時不通電很難想象。”他說。
針對各方質疑,阿里云于6月23日傍晚再次致電記者,提供了更多事故細節。新的說法是:斷電并非整棟大樓,而是機房所在樓層,但因為物業工作人員考慮到安全問題要求整棟大樓疏散。而阿里云方面到下午14時才得以進入機房配合IDC運營商處理事故。
根據新說法,阿里云開始搶修和處理事故的時間并非晚上21時22分,而是下午14時,整整提前了七個多小時。
一位國內大型互聯網公司IT基礎設施技術的負責人向記者分析了造成斷電的可能原因。他指出,國內互聯網公司在國內的機房就算外部電力全部切斷,也都有備用的柴油發動機,能夠維持的時間也比較久。在他看來,香港機房斷電最可能的原因是控電設備故障,接入強的外部直流電源無法實現切換,因而服務器大面積斷電,導致服務器宕機。這類維修耗時較長。另一種可能的原因則是柴油發電機的供電模組不可用或者故障。
無論哪一類事故原因,斷電12小時在業內都被認為是”太久了“。
CSC首席分析師張廣彬告訴記者,國內外對數據中心的斷電有基本的5個9標準,即一年之內99.999%的時間內不可以斷電。這意味著全年數據中心斷電的時長不能超過5分鐘。
這樣的標準在實際運行中很難達到。據張廣彬稱,機房斷電是國內外云服務商面臨的一大問題,今年初國內另一家云服務公司青云也曾遇到相關問題。而國外包括亞馬遜、Facebook等企業都曾遇到過電力故障。一旦斷電后,有可能對機房的硬件,以及云系統軟件構成影響,即使恢復供電后也需要一定時間處理硬件和軟件故障。在他看來,持續12小時的斷電是近年來非常嚴重的事故:”阿里云作為大公司,因為用戶數量多所以影響范圍也比較大。“
用戶的不滿與阿里云的信任危機
阿里云用戶對此次事故的質疑和不滿更多并非來自技術,而是針對阿里云對事實的披露效率和誠信。
阿里云21日上午10點35分在博客上掛出公告稱故障正在搶修,希望用戶測試服務是否恢復正常,并電話或者工單反饋。
阿里云后來在給記者的回復中也稱在與香港名氣通進行深入復盤,并要求其盡快完成整改,避免此類問題再次發生。同時已經啟動對客戶百倍賠償。阿里云稱:“我們深知賠償不能解決所有問題,我們對造成阿里云香港中斷服務深表愧疚。云計算是一個復雜的系統工程,過程中有著各種艱難險阻。我們將一如既往地努力,消除一切隱患,共同和我們的客戶一起實現云計算夢想。”
然而,在阿里云等論壇上,不少用戶對阿里云的事后處理非常不滿。阿里云的米芽時代創始人童謠告訴財新記者,故障后網站無法訪問,無法切換。而公司對數據沒有本地備份和異地備份,業務直到晚上11點才恢復正常:“多次重啟服務器,嘗試了很多次才可以正常使用,根本沒有無縫銜接。”
童謠告訴財新記者,公司原本使用騰訊云服務,后來覺得阿里云在傳輸穩定性等方面更勝一籌就轉到了阿里云。但這次事件后,他們開始考慮將部分業務再次簽回騰訊云。
實際上,由于云服務是IT基礎服務,一旦遇到公司提供的是平臺業務,后續影響的將是各類普通用戶。周國星在國內使用某交易平臺公司的服務進行比特幣交易,服務崩潰十幾個小時,交易受阻,損失無法評估。更讓他郁悶的是,阿里云只會賠償平臺,但平臺實際上沒有業務,無所謂損失,只有他這樣的終端用戶會守著電腦一遍遍刷新幾個小時。在他看來,阿里云這樣大的公司,事故發生三個小時后才告之設備故障“很不正常”。
[page]海外云服務模式安全么?
實際上,就在阿里云出事故的同時,自媒體人徐家俊也反映自己使用的另一家虛擬主機商恒創科技的主機也出現癱瘓。6月23日下午,徐家俊告訴記者目前服務恢復,但公司未給任何公告以及事件解釋,公司客服方面稱要到6月23日晚間才回郵件告知事故原因。在他看來,香港主機、機房和云計算服務出問題并非個例。香港云服務的安全性值得關注。
中國的很多互聯網公司之所以選擇香港數據中心,一方面是海外業務需求,另一方面是為了繞過內地的數據備案制度。隨著創業公司大批涌入,以及互聯網公司海外業務需求,越來越多的公司選擇使用香港云服務。
前述國內運營商人士告訴記者,香港地區氣候炎熱,且多有臺風等災害,在數據中心選址上并不特別有優勢。但香港政府方面對數據中心建設非常支持,很多機房都提供免費的制冷供電,甚至提供兩個電力供應商。此外,香港是亞太地區海底光纜集中交匯地區,通訊覆蓋非常全?;谶@樣的基礎設施,很多主機和數據中心建設商都選擇在香港建機房。
張廣彬告訴記者,因為海外業務吃重,美國的互聯網公司在海外設立數據中心時多選擇自建模式。但中國互聯網公司的云服務主要服務于自身本土業務,在海外擴張時都采用租用模式,即租用機房和數據中心,數據中心運營交給合作伙伴,以此控制成本。雖然租用和自建在運營過程中沒有絕對的優劣對比,但自建模式的內部協調效率更高。
在這次事故中,阿里云和名氣通的事故處理都暴露了問題。張廣彬介紹,名氣通作為香港煤氣旗下公司,公司依租靠光纖和煤氣同管道鋪設在網絡覆蓋上有優勢,國內也已經建立數據中心:”算是有名氣的公司,出這樣的問題還是很讓人意外的。“
租用模式中合作伙伴的能力非常重要。騰訊云的合作伙伴是Equinix。騰訊云方面告訴財新記者對于數據中心運營商的選擇有嚴格要求:包括全球范圍內有多個數據中心,超過15年的全球運營數據中心建設和運營經驗,多年的良好可用性記錄。騰訊方面還強調,對于IT設備等基礎設施都實行24小時全年輪班現場支持。
但包括阿里和騰訊等在內,在香港地區都是單一數據中心,目前尚未具備同城備災系統。阿里云和騰訊云都稱目前正在籌建香港的第二個數據中心。