2013年云計算在中國大范圍“降雨”可以說迎來了高速發展的階段。可以看到,在北京的周邊地區眾多的云計算產業園已經紛紛落戶。云計算作為it產業的一次革命,對于未來的it發展有著巨大的推動力。隨著aws在中國的落戶,進一步刺激了國內的眾多云計算廠商,同時可以看到,云計算在中國市場的巨大潛力。潛力有,同時危險也有,從云計算誕生之初,就被安全問題所糾纏,如何能夠保證在云端數據的安全一直是發展云計算的前提,顯然在這一方面我們需要小心謹慎。不妨今天我們就來回顧一下,那些在2013年云上發生的那些安全問題。
1、亞馬遜aws云服務宕機
亞馬遜的云計算服務,算是云服務領域的第一品牌,然而這個品牌在過去的一年中,卻出現了多次宕機事件。而在宕機事件中,airbnb、facebook旗下 instagram和twitter旗下vine等在內的多家著名網站和社交應用均受到了影響。一些行業觀察家估計,一小時的離線時間可能讓亞馬遜錯失了近500萬美元的收入。
雖然此次宕機事故僅持續了不到1個小時的時間,但是由于aws服務是許多網站和社交應用背后的承載平臺和計算主鏈,因此它的這次宕機事故引起了廣泛的關注,特別是社交媒體領域的關注。
隨后亞馬遜在aws服務狀態網頁上表示,它在elastic block store存儲服務中發現了問題。并在所有的服務均已在太平洋時間下午6點前恢復正常。
2、蘋果icloud
4月23日,蘋果公司的icloud斷網,影響到包括登錄、電郵、gamecenter和itunes的各種服務。多數重要業務應用似乎并沒有受到影響。用戶在訪問受影響服務時多數會因驗證問題而失敗。多數服務幾小時后恢復正常,但這以前整個4月蘋果用戶曾提及過很多小規模的故障。
還有,云發生斷網時,很多用戶肯定會給渠道合作伙伴打電話。jim mccool是弗吉尼亞州尚蒂利市一家名為cwps的系統整合和云服務渠道合作伙伴。他在談起4月的斷網時告訴crn說,“這種事發生時,會有很多人給我們電話。其實,這些人無論什么事都會給我們打電話的。但是很多時候,最后是我們給客戶打電話。我們會隨時對系統做預防性的監視,所以有時候斷網前我們已經知道這事要發生。”
3、facebook網站中斷
在1月28日早上,全球各地的facebook用戶發現他們無法更新其朋友的狀態信息。大量用戶經常訪問facebook網站,因此,數小時的停機時間不可能不會被發現。本月早些時候,黑客組織anonymous發布了一段視頻,聲稱其要攻擊facebook,并在上述同一天讓facebook中斷。究竟發生了什么?
在長達兩到三小時內,人們無法獲取其朋友的狀態更新。facebook聲稱,這次停機事故源自一個dns問題,這個問題 “阻止在瀏覽器輸入 facebook.com的用戶訪問到該網站”,這是很容易解決的問題,并沒有任何跡象表明anonymous參與了這個活動。這次事故只是影響了 facebook的桌面網站,而該公司的移動網站和應用程序則沒有受到影響。
4、dropbox斷網
dropbox是個很有用的工具,可以讓用戶從不同的設備訪問文件。但是要真的實現其價值,正常運行時間是關鍵。1月10日,dropbox不幸成為 2013年大公司斷網的第一家,提供的服務受到重大影響。服務中斷了15多個小時,原因是用戶終端軟件和服務器之間的同步問題。斷網期間,dropbox 嚴重低估了恢復服務的時間,進一步導致了用戶的不滿,互聯網上到處是無奈的用戶因為不能訪問自己文件而在發泄憤怒。
dropbox為了讓用戶實時了解情況,利用推特定時發布推特消息。dropbox的營運團隊元月10號的推特消息說:“受影響的還有:建造目錄、訪問分享目錄及產生分享鏈接,我們非常感謝各位在我們解決問題恢復服務期間表現的耐心。”
5、google服務中斷
google鼓勵用戶多使用google drive, google docs和 gmail, 因而服務中斷時對依賴這家總部在加州山景城公司的用戶影響就更加深刻。4月17日的斷網就是一個例子。當天發生了一個短暫的小故障,卻顯示了服務正常時間比例對google這三個服務的挑戰。據 google說,發生故障的是gmail云電郵服務,影響到其他三個服務。登錄設置里一個缺陷導致服務器超載,據信至少是問題的原因之一。google 說,4.25億用戶里只有“不到0.0007”受到影響。google發布問題后不到一小時,服務回歸正常運作。
6、google小問題堆成大故障
今年3月,google在僅僅一個星期內遭受了三次斷網。主要原因起始于3月18日,一開始只是一個孤立的小故障,后來導致了大問題。范圍之大以至三分之一的客戶群收到影響,互聯網上基本上是一片叫罵聲。3月19日斷網2小時,接著3月20日服務中斷的時間更長。google對3次斷網的原因三緘其口。不過用戶指近幾周的服務相對穩定。
7、微軟電郵
微軟的在線服務名聲3月14日這天受到一點打擊,當天 hotmailhe和outlook.com雙雙遭受服務中斷達16小時之久。在同一段時間內,還發現微軟的skydrive有穩定性問題,不過這些問題得到及時矯正。后來有報道說,問題的起因是某個固件升級導致服務器過熱。
微軟windows services部測試和服務工程副總裁 arthur de haan在一篇博文中寫道,“這個升級以前有成功完成過,但是這一次卻出乎意料地沒有成功。升級失敗導致數據中心溫度急劇地大幅度上升。上升得確實太快……最后導致數據中心很多服務器的防衛系統啟動。”
各種服務在3月14-15之間逐步恢復,午夜前大多數郵箱回歸正常運行。
8、scorm云服務中斷
3月14日,scrom升級一個云服務提高穩定性和性能,最后卻導致降低穩定性,引起3個小時的云服務中斷。scorm隸屬 rustici software,是旨在推廣電子學習軟件產品兼容性的一套技術標準。升級里的一個錯誤引起一系列的連鎖反應,最后影響到公司在亞馬遜服務里幾個區的服務。rustic software的客戶支持經理joe donnelly在scorm支持論壇寫道,“我們對scorm cloud做了一些改變,目的是增加系統穩定性和性能。由于這些改變的引入,一個亞馬遜服務器發生導入問題。這個問題導致了一系列的失敗,主要是因為過度的cpu負載,最后出現亞馬遜web service上scorm幾個區的服務發生不穩定的情況。”
9、澳洲大型通信服務提供商telstra云服務斷網
elstra的高端云計算3月底遭受了大規模的長達一天的斷網。公司發言人一周后在一個發言中對媒體證實了斷網事件。據澳洲技術通訊網站 delmiter 報道,發言人說,“上個星期,我們的云平臺有間歇的服務中斷,影響到少數——約20個——客戶。”問題的原因似乎是公司在墨爾本的數據中心里一個存儲層出現問題,導致一些關鍵客戶在相當長時間內不能使用服務。這位發言人說,“3月25日,我們發現數據存數設備出現問題,使用這些支持設備的客戶受到影響。發現問題后,我們立刻聯系了我們的存儲合作伙伴并開始恢復服務。”據報道, telstra目前正在進行一個8億美元的擴展項目,用來做支持云基礎設施和市場營銷用。
10、windows azure全球服務中斷
2月22日,微軟的 azure cloud全球服務中斷差不多一整天,影響到安全網絡交通。互聯網上不少人報告說在此期間,azure項目組合里的服務完全不能用,也有人說能用但速度特別地慢。azure儲存據信是受影響最大的服務。問題的起因經確認是由一個過期的ssl證書引起的。非安全http連接仍然可用。據 kaspersky的 threatpost博客說, 微軟是在2月23日的windows azure service指示板上公布服務中斷的。這條信息寫道,“storage的全球服務出現中斷,影響到https運作(ssl交通),是由一個過期證書導致的。”除了“認錯”外,微軟2月24日在 windows azure博客上發了一條消息,說會給受影響的客戶發放信用值。windows azure業務和運營總經理steven martin 寫道,“鑒于這次的斷網規模,我們會根據服務水平協議主動為受影響的客戶提供信用值。”