Amazon Web Services從星期五開始進行實例重啟,重啟即將于9月30日結束,這次安全補丁修復凸顯了云計算應該如何成熟以及應對這種問題的最佳實踐都還有待思考完善。
這家云計算巨頭通過電子郵件告訴EC2該公司計劃在這些日子里重啟所有區的實例,用戶不能停止這個過程。云計算供應商都會有一些停機的維護時間,但是AWS重啟的規模之大——據推測可能是由于開放源代碼管理程序Xen中存在一個缺陷——很多用戶會擔心這次停機。
亞馬遜在周四表示此次更新和Bash bug無關。
顯然當所有實例都不得不進行重啟的情況下,如何溝通和最佳實踐仍需摸索。AWS是最大的云計算基礎架構供應商,也最有可能首先采用這種大規模重啟模式。請放心,AWS不會是最后一個。
隨著企業越來越多地依賴于AWS、微軟Azure、谷歌和IBM的SoftLayer(這只是幾個例子,還有惠普、Oracle、Rackspace等)之類的云計算供應商,應該有一些標準的方法來處理這些問題。
美國東部時間下午4:40分最新消息:AWS在一篇博客文章中表示只有少量用戶會受到影響,不過該公司也承認重啟帶來了不便。AWS表示:
如同我們在寫給受到影響的小部分用戶的郵件中和論壇上解釋的那樣,需要更新的實例需要對系統的底層硬件進行重啟,幾分鐘之內就可以安裝好補丁程序,主機也可以完成重啟,之后就可以接著使用了。
雖然絕大多數軟件更新無需重啟,但是某些特定類型的更新是需要重啟系統的。需要重啟的實例重啟的時間會被錯開,這樣就不會同時有兩個地區或者可用地區受到影響,所有的數據都會被保存,并且自動完成配置。絕大部分用戶在重啟過程中不會遇到重大問題。我們理解對于一小部分用戶來說,重啟會非常不方便;如果不是非常重要和急迫的更新我們不會讓我們的客戶忍受不便。
那些不能確定自己是否會受到影響的客戶可以到EC2控制程序中查看“事件”,其中會列出他們的AWS賬戶即將出現的所有實例重啟。
RightScale的情況可能是一個非常好的起點,對管理重啟和最佳實踐進行思考。理想情況下,亞馬遜應該有一個系統,萬一客戶無法推遲重新啟動的時候,在系統停機維護期間,他們可以自動地被轉移到另一個可用的區域(不收取任何費用)。
就像微軟最終形成了在“補丁星期二”進行安全更新一樣,AWS也會按照自己的節奏解決這個問題。
這里的困難在于AWS無法提前預知何時打補丁,直到準備工作完成才能確定。缺陷出現危及安全性是比停機嚴重得多的問題。一些客戶表揚AWS能夠進行如此大規模的重啟來解決安全問題,另一些人則大喊大叫著有意見。
重新啟動的時間彼此錯開,這樣AWS的客戶就能夠建立冗余。然而,AWS在重啟的節奏上可能沒有給客戶足夠的提醒。
這位客戶在AWS論壇上很好地總結了這個問題:
對于我們來說,這當然是個大問題。按照計劃,我們目前有超過100個實例要進行重啟,我們也沒辦法在獲得通知后這么短的時間內監視所有受到影響的服務。事實上,整個服務器集群計劃同時進行重啟,盡管它們處于不同的AZ,相當于出現了一個影響整個地區的事件。只提前兩天進行通知我們不可能為此做好準備。
AWS的反應是不可能重新安排重啟時間,因為它們是“非常急迫的安全和操作補丁。”
這是一個難題。隨著云計算成為事實上的計算系統,這些問題將需要得到解決。在未來,我們將會看到云計算中也采用星期二補丁的模式。