4月11日,谷歌云陷入了前所未有大麻煩之中。由于兩個bug的產生,致使谷歌云全線下線,長達18分鐘的無云時間使得谷歌云變成了烏云。
谷歌是全球最大的云服務提供商之一,谷歌云在公有云的圈子內也算是巨頭級別的存在。越是強大的公司就越不允許有任何的瑕疵,18分鐘的烏云時間卻足以砸了谷歌云的金字招牌。現在,谷歌的母公司Alphabet已經就此事件的原因進行了解釋。Google 的工程副總裁Benjamin Sloss Treyno表示將進行“7×24”的全天候個人道歉。
Benjamin Sloss Treyno及其妻子
為什么是Treynor背起這口大黑鍋呢?這事也確實與他有著不可分割的關系。作為谷歌的工程副總裁,Treynor的主要工作就是“確保 Google 的網站永不掉線”。谷歌云下線18分鐘如此重大的過失讓他負責并不為過。
僅僅道歉是不夠的,Treynor也就該事件的原因對外進行了解釋。起初,谷歌的工程師要對谷歌的網絡配置進行瘦身,谷歌計算引擎(Google Compute Engine ,GCE)中的部分IP模塊長期未使用,工程師選擇了對其刪除并讓谷歌的自動化系統在谷歌的網絡系統里完成剩余的傳輸工作。
GCE是谷歌云的核心
而IP模塊是用于幫助用戶數據連接傳輸到谷歌云的重要模塊。于是事故就這樣發生了,在機緣巧合的時候,一個IP模塊從其配置文件中被刪除時,用于網絡配置管理的其他配置文件并沒有完成相應的傳輸轉移,于是乎這個模塊傳輸失敗了。
當傳輸失敗時,谷歌通常會選擇還原故障部分到之前的位置,然后添加新的模塊重新傳輸。但是這次,前所未有的軟件bug被觸發了。這次傳輸失敗后,并沒有將故障部分還原到原來的位置,而是將GCE所有的IP模塊進行了重新配置。而這次配置的用的就是用于更新的不完整的IP模塊。
谷歌瀏覽器也有金絲雀版本
如果說僅僅是這一個bug,那么正常情況下也不會有太大的問題。谷歌有一個專門巡查此類問題的系統“金絲雀(canary step)”,但是這次金絲雀也出現了一個bug。因為這個bug推動了系統認定此次新的配置有效,并且在全范圍內逐步開始推出。
這些新的配置信息從谷歌的數據中心推廣到了世界各地的數據庫,但這個巨大的變動很快引起了谷歌技術人員的注意。他們立刻宣布停止了所有的IP模塊,中止了這一新型配置的推出,并且開啟備用的數據中心,最快的速度恢復用戶的工作。
兩個bug,一個悲劇
另一發面,技術人員在從世界各地的數據庫當中將這些沒用的IP模塊配置信息刪除恢復。但這一系列的bug已經導致了谷歌云出現了長達18分鐘的中斷。18分鐘的烏云也許可以很快驅走,但是18分鐘的無云卻是無法抹平的用戶心理陰影。
谷歌方面表示,他們已經第一時間發現了這兩個bug,并且網絡配置軟件方面的負責人也已經解決了這個問題。而且,今后谷歌將推出14種不同的應急解決方案用于預防、檢測和緩解類似情況的發生。
飄搖的谷歌云需要挽回用戶的信任
但是谷歌能否真正做到這一點依然是值得讓人懷疑的,因為早在2015年8月發生過類似的故障。當時的谷歌云因為字符錯亂、管理變更、雷擊、自動化失敗和補丁失敗等原因導致過故障,此次故障后的彌補能否真正為谷歌挽回人心呢?
作為此次故障的主要負責人,Treynor發表了一份很長的道歉信。“谷歌非常認真的對待此次中斷事件,這次事件影響范圍之廣使得谷歌的很多客戶受到了影響。這一事件的報告比以往的更長和更詳細,因為谷歌希望用戶能夠了解它發生的原因,以及谷歌在做什么。
谷歌希望通過透明化的服務幫助用戶建立信心,也用此證明谷歌云平臺的可靠性在不斷的成長。”而用戶的希望則相對簡單,以后別再出現這種問題了。