日前,谷歌公司主要的公共云因為產(chǎn)生bug而深陷麻煩之中,谷歌云平臺因此全線中斷18分鐘,而有些用戶對此反應(yīng)強(qiáng)烈,谷歌云平臺安全性和可靠性遭到了人們的質(zhì)疑。
4月11日晚上7點,全球所有地區(qū)的用戶訪問谷歌計算引擎的連接中斷了18分鐘。據(jù)悉,谷歌的云平臺中斷的原因是一個網(wǎng)絡(luò)故障,而這一事故導(dǎo)致谷歌公司網(wǎng)絡(luò)連接永不中斷的形象受損,讓一些企業(yè)客戶對其失去信心。
網(wǎng)絡(luò)似乎是谷歌公司的阿喀琉斯之踵,網(wǎng)絡(luò)層是導(dǎo)致大部分云中斷面臨的一個共同問題。調(diào)查分析機(jī)構(gòu)Gartner公司副總裁兼著名分析師麗迪雅·列隆說。而這次不同的是,這不只是影響一個可用性區(qū)域,而是所有地區(qū)。
“最重要的是客戶期望擁有多個可用性區(qū)域,以此對服務(wù)中斷實施合理的保護(hù),然而沒想到,所有的區(qū)域服務(wù)全部中斷。”列隆說。
而在業(yè)界也有類似的事情發(fā)生,亞馬遜公司的服務(wù)雖然遭受區(qū)域性的中斷,但卻避免了其整個平臺的中斷。微軟Azure已有幾次全球的停機(jī)事故,其中包括2014年底一個重大的中斷事故,但是2015年沒有重復(fù)這一場景。
CloudHarmony公司(已被Gartner收購)創(chuàng)始人賈森·瑞德表示,在其記憶中,主要的公共云供應(yīng)商在所有地區(qū)發(fā)生的服務(wù)中斷事故很少見,這應(yīng)該是第一次。瑞德所在的公司從2010年就開始監(jiān)測各個云平臺的正常運(yùn)行時間情況。
谷歌公司對此表示也采取了一些安全防護(hù)措施。但也許他們應(yīng)該已經(jīng)實施了更多的測試,以確保這一類型的故障可以被阻止,瑞德說。
瑞德表示,這聽起來像是在理論上他們已經(jīng)采取措施來防止這種事情發(fā)生,但是這些措施都失敗了。
谷歌公司拒絕就此進(jìn)行評論
列隆表示,谷歌公司和微軟公司在將其業(yè)務(wù)大規(guī)模遷移到他們的公共云之前,他們已經(jīng)根據(jù)自己的需要,建設(shè)了一些與眾不同的的數(shù)據(jù)中心。“用戶需要不同程度的冗余,并對細(xì)節(jié)的關(guān)注程度不同,完成這些需要時間。”列隆說。
谷歌云平臺市場份額相對較小,其應(yīng)用程序數(shù)量也較少,因此,谷歌云停運(yùn)可能對一些公司來說不是一個主要問題。列隆表示,一些谷歌的客戶很可能對這個事件已經(jīng)被忽視,除非他們在那些18分鐘內(nèi)在進(jìn)行數(shù)據(jù)傳輸,因為很多公司的業(yè)務(wù)都是批處理計算,這并不需要大量的交互流量與更大的空間。
據(jù)谷歌公司高管本杰明·特雷諾斯洛斯在云計算狀態(tài)網(wǎng)頁上發(fā)布的消息,谷歌公司已經(jīng)采取措施防止再次發(fā)生,并審查現(xiàn)有的系統(tǒng)和增加新的保障措施,所有受影響的客戶將分別獲得10%的谷歌計算引擎和25%的VPN服務(wù)月費的補(bǔ)償。谷歌的服務(wù)級協(xié)議所要求的計算引擎每月正常運(yùn)行時間至少達(dá)到99.95%。
網(wǎng)絡(luò)故障使谷歌云平臺中斷服務(wù)
這一事件最初是網(wǎng)絡(luò)中斷造成入站計算引擎的流量沒有被正確路由引起的,服務(wù)也影響了VPN和三層網(wǎng)絡(luò)負(fù)載平衡器。管理軟件企圖恢復(fù)到以前的配置,故障保護(hù)觸發(fā)一個未知的bug,一個IP模塊從其配置文件中被刪除時,用于網(wǎng)絡(luò)配置管理的其他配置文件并沒有完成相應(yīng)的傳輸轉(zhuǎn)移,于是這個模塊傳輸失敗。
當(dāng)傳輸失敗時,谷歌通常會選擇還原故障部分到之前的位置,然后添加新的模塊重新傳輸。但是這次,前所未有的軟件bug被觸發(fā)了。這次傳輸失敗后,并沒有將故障部分還原到原來的位置,而是將谷歌云平臺上所有的IP模塊進(jìn)行了重新配置。而這次配置的用的就是用于更新的不完整的IP模塊。
最終,95%以上的入站流量丟失,而谷歌工程師恢復(fù)到最近的更改配置,終于在谷歌云停運(yùn)18分鐘之后進(jìn)行了糾正。
這次中斷并沒有影響谷歌應(yīng)用程序引擎,谷歌云存儲或內(nèi)部連接計算引擎服務(wù)和虛擬機(jī),出境的互聯(lián)網(wǎng)流量,以及HTTP和HTTPS的負(fù)載平衡的正常運(yùn)行。
谷歌云客戶searchcloudcomputing表示這次中斷可能會影響他們的業(yè)務(wù)。而一些很大程度上依賴于資源的備受矚目的用戶拒絕對此置評或未做出回應(yīng)。另外,一些規(guī)模較小的用戶表示,他們的業(yè)務(wù)使用了谷歌云,但中斷對其影響微乎其微。
Vendasta技術(shù)公司是一家銷售和營銷軟件為媒體廠商,他們甚至沒有注意到谷歌的云平臺停運(yùn)。Vendasta公司首席架構(gòu)師戴爾·霍普金斯表示,該公司采用了內(nèi)置重試機(jī)制,大多數(shù)系統(tǒng)使用基于Saskatoon,Sas,大多數(shù)vendasta前端的流量通過App引擎服務(wù)。
五年來,vendasta公司一直使用谷歌的云計算產(chǎn)品,只有一次中斷,使其到了不得不打電話給客戶的地步。而正常運(yùn)行時間高意味著企業(yè)不用擔(dān)心中斷很長時間,因此并沒有太在意這次發(fā)生的事件。
“如果業(yè)務(wù)中斷,就會很糟糕,這是一個很難向客戶解釋的事情,但其發(fā)生的如此罕見,我們不認(rèn)為防止中斷是我們的首要任務(wù)之一。”霍普金斯說。
對于低風(fēng)險容忍,企業(yè)對云平臺的中斷反應(yīng)沉默讓人容易理解,因為大多數(shù)運(yùn)營團(tuán)隊在自己的數(shù)據(jù)中心內(nèi)無法實現(xiàn)谷歌公司所承諾的正常運(yùn)行時間,霍普金斯說。對于不太風(fēng)險容忍企業(yè),沉默在信任云會更容易理解,但大多數(shù)運(yùn)營團(tuán)隊無法實現(xiàn)正常運(yùn)行時間的水平谷歌承諾自己的數(shù)據(jù)中心里,霍普金斯說。
Vendasta公司使用多個云提供的特定服務(wù),因為它們更便宜或更好,但它沒有考慮使用另一個云平臺的冗余,因為出于成本和技能的要求這樣做,以及隨之而來是不能夠利用一些特定的平臺優(yōu)化的局限性。
所有的公共云平臺失敗,看來谷歌公司已經(jīng)吸取網(wǎng)絡(luò)配置變化檢測的教訓(xùn),F(xiàn)orrester研究公司的首席分析師戴夫·布拉特里提表示。但是,這個時機(jī)不太幸運(yùn),因為在上個月,谷歌云迎來了以新企業(yè)為中心的管理團(tuán)隊。
“谷歌云才開始贏得企業(yè)客戶的信任,雖然這些大公司肯定會喜歡在低成本的谷歌云平臺上運(yùn)行業(yè)務(wù),但從長遠(yuǎn)來看,其可靠性將更為重要。”布拉特里提說。