阿里云再次發生故障,這已是2019年的第二起。
3月2日23時55分左右,阿里云開始出現大規模宕機故障,位于華北地區的多家互聯網公司的IT運維人員發現多個APP和網站開始陷入卡頓。這場事故,持續了三個小時左右。經緊急排查處理后,3月3日早間云服務全部恢復正常。針對故障,阿里云表示會根據SLA協議(服務合同),盡快處理賠償事宜。
十天前,阿里云今年的第一起事故被曝光。2月22日,有媒體報道了阿里云云效平臺的源代碼泄露問題,涉及40 家企業共 200 余項目,甚至還波及用戶隱私敏感數據。此事還引起了“Internal之爭”,即Internal權限到底是公司內部公開還是對整個云效平臺公開,不同企業有不同理解,但最終還是造成了源碼泄露。后來,阿里云就此事作出回應,并在網站醒目標識并給出告警。
事實上,阿里云源代碼泄露問題在去年8月就已被用戶發現,只是到今年2月份才被媒體曝出。
一
縱觀近幾年云計算發展,云計算事故就沒有停止過。
不管是知名云計算廠商,還是剛上路的云計算初創企業,服務器中斷以及客戶數據丟失等問題,頻頻困擾著云計算企業。
2012年圣誕節前夕,亞馬遜AWS的彈性負載均衡服務出錯,導致Netflix停機。
2014年11月18日,由于軟件更新及性能增加,微軟zure存儲服務發生大規模斷電,這種情況在2015年12月再次發生。
2016年5月9日,Salesforce.com的硅谷NA14實例脫機,導致其斷電超過24個小時。從那之后,Salesforce將其大部分工作量轉移到了AWS上。
2016年10月21日,甲骨文旗下的DYN(DNS業務)遭遇了一系列分布式拒絕服務(DDoS)攻擊,致使Airbnb、Twitter、 Amazon、Ancestry、 Netflix及PayPal等公司的業務均受到不同程度的影響。
二
即便云計算安全技術及防御設施不斷進步,云計算故障仍舊時有發生。據不完全統計,單是2018年就有數十起云計算故障發生,涉及國內外各大知名云計算平臺。其中比較有影響的,包括以下幾個事故。
4月6日,微軟Office 365和Azure Active Directory訪問出現問題,幾年來微軟云計算出現多次此類故障。
6月15日,因重復分配內部IP地址,谷歌云虛擬機實例大量出現聯不上網的問題。
6月27日,由于運維失誤,導致一些客戶訪問阿里云官網控制臺和使用部分產品功能時出現問題。受影響范圍包括阿里云官網控制臺,以及MQ、NAS、OSS等產品功能。這次故障被阿里云內部定義為S1級別(在阿里巴巴的線上業務故障級別中,對S1的定義是:核心業務重要功能不可用,影響部分用戶,造成一定損失)。
7月24日,騰訊云廣州區域部分用戶出現資源訪問失敗、控制臺登錄異常等情況。經排查,是因騰訊云廣州一區的主備兩條運營商網絡鏈路同時中斷所導致。但業內人士均知,兩條運營商網絡鏈路同時被挖斷的情況并不常見,所以對騰訊云這次事故的主要原因仍有存疑。
8月,騰訊云發生故障,直接導致北京的一家初創公司數據全部丟失。事實上,此事發生于7月,只是到8月才被曝光。
三
在2018年的云計算事故中,影響面比較廣的當屬騰訊云的兩次故障事件。
第一個事件,正是上文提到的初創公司數據丟失事件。
2018年7月,北京一家主要產品為“前沿數控自媒體”初創公司,在騰訊云的存儲數據全部丟失了。某個是時間段,前沿數控的程序員發現無法登錄云服務器,就反饋給騰訊云。得到的回復是“北京三區部分云硬盤出現故障,正在緊急恢復中”。
幾天后,騰訊云告知前沿數控,這些丟失的數據無法找回了。于是,雙方開始賠償協商。前沿數控索賠1101.6萬元,而騰訊云只愿意賠償13.29萬,雙方陷入僵持。
而此事之所以傳播開去,是因為騰訊云承諾9個9(騰訊云承諾99.9999999%的數據可靠性)的安全保障,也沒能保住前沿數控的數據,且不能給予客戶認為合理的賠償,進而引發了諸多云服務使用者的熱烈討論。最終輿論演變為,前沿數控在操作上存在失誤,但騰訊云服務的可靠性到底又有多高?廣告宣傳又有多少真實的存在?
此事表明,即便云服務商給予再高的承諾,云服務使用者也應本著對數據服務的態度,數據一定要多云或者異地備份,不能完全依賴云服務商。否則,一但出現問題,就是賠償的再多,之前的經營數據也是無法挽回,甚至足以毀掉一個項目。
四
如果說數據丟失事故屬于“天災”,那騰訊云的第二個事故則可以歸結為“人禍”。2018年8月,女性短視頻社區App“她拍”上線了一款名為“她face+”的P圖小程序,可將用戶五官和臉型融合到其他圖片素材中。她拍與騰訊云簽訂一年合同,購買其云服務及一項名為“人臉融合”的技術服務,每月支付500萬左右費用。
騰訊云的“人臉融合”技術由天天P圖提供支持,此前兩個團隊均屬騰訊SNG事業群。9月27號天天P圖停止向騰訊云提供技術支持,并力推同類小程序“瘋狂變臉”。期間恰逢騰訊架構調整,因分屬不同事業群兩團隊溝通協商難度加大。雙方多次溝通,但原合同無法繼續履行。
最終,10月17日達成結果,45天過渡期后“天天P圖”不再為“她face+”提供技術支持服務。“她拍”創始人王宏達認為騰訊為推同類產品損害企業客戶的利益,起訴起訴騰訊云違約,并索賠一個億。
這個事件,意味著企業上云用云的風險除了云計算平臺本身,還有很大的人為因素在內。這也是很多企業一直擔心的問題,如果核心數據與模式被云計算廠商掌握并推出同類產品,企業又該如何是好?云計算廠商能夠拿到所服務企業的任何數據,想要擠兌競品那是易如反掌之事。
五
看完上面所述事故,大家應該已經發現,云計算事故難以避免,至少現在這個階段是這樣。但是在工業互聯網發展的大趨勢下,企業上云的進程又是不可逆的,換言之就是不管企業如何考慮及看待云計算,最終都要主動或者被動上云的。因此,對亟待互聯網轉型的企業而言,云計算安全的問題就變成了出現事故如何賠償的問題。
其實對企業來說,要解決上云安全問題,至少要遵循兩點:一是將安全提到最高,二是把損失降到最低。這兩點,對于云計算平臺和上云企業都非常重要。
偉哥認為,在安全問題上,云計算平臺當盡量做到以下幾點:
首先,云計算平臺當盡量通過技術及管控手段將安全事故率降到最低,但再先進的技術也不能保證萬無一失,仍舊需要相應的運營措施保證安全的最大化。
其次,還要在維護人員的管理方面,做更詳盡的管理規劃,杜絕技術之外的人為安全因素。
同時,還要明確安全責任問題,便于發生事故之后在處理問題上有據可依。對于這一點,目前很多廠商都已在做,譬如AWS和阿里云和AWS都提出了安全責任共擔模型,阿里云負責云平臺基礎安全防護,用戶負責虛擬化層以上的組件安全、業務安全等。
還有一點,云平臺作為服務提供方,應該對企業用戶提供一定的安全使用培訓,確保每個客戶全面了解云計算的應用操作,避免因誤操作而造成平臺與企業的多方損失。
六
從企業用戶安全角度考慮,云計算安全就是企業應該學會識云用云。
首先,企業要有上云安全意識。當時刻提醒企業管理者云計算安全的重要性,云平臺安全措施并不能保障數據的絕對安全。
其次,企業上云盡量不要把雞蛋放到同一個籃子。一但云計算平臺出現事故,就有可能導致企業多年經營全軍覆沒。目前來說,多云方案是最有效的降低數據丟風險的手段,企業應該將多云方案應該由之前的備選方案轉變為首選,以將數據安全隱患降到最低。
第三,對于沒有能力搞混合云以及多云方案的初創企業,要學會“狡兔三窟”。除了應用云計算之外,至少應該做到數據的異地存儲,以免出現“前沿數控”哪種數據全丟的情況。
第四,小企業在大型云計算平臺往往會受到不公待遇,還需一定的監管及規則。小微企業話語權小,甚至會出現上述案例中被“隨意處置”的情況。關于這一點,呼吁相關機構盡快介入監管,以確保在推動企業上云的同時,保證中小企業的合法權益。
第五,企業要盡量了解各種云計算平臺。公有云、混合云、私有云每個方案都不是唯一的,上云企業出于安全考慮,當充分了解幾種類型的優缺點,然后根據企業自身情況選擇不同方案,以確保企業數據的絕對安全。
此外,企業亦應多關注更多保障安全的途徑。在理賠方面,除了云平臺的賠償,上云企業亦可關注一下相關理財機構推出的云保險等安全理賠項目。
七
得益于工業互聯網的快速發展,企業上云乃是大勢所趨。政策及經濟形勢造就了企業上云紅利,云計算廠商規模得以快速擴大。但在擴大的同時更要保證用戶的數據安全,只有解決了安全問題才能打消企業心中顧慮,才能讓企業安心選擇云服務廠商,安心上云。
所以,阿里云、騰訊云等多個云計算平臺的事故,反映的是整個云計算行業當前存在的安全問題。解決或者不能說明這些安全問題,無疑會對即將上云的企業造成一定的心理阻礙。
事實上,平臺與用戶雙方誰也不想發生安全事故。但若出現問題,平臺就應確保以更穩妥合理的方式去解決問題。不然,就會造成企業對云計算平臺的信任度下降。
上文也有提及,綜合而言解決用戶信任問題關鍵在于兩點:
一是如何盡量避免出現此類問題。一方面需要云服務商在安全層面上做足功夫,優先保障云服務的安全最大化;另一方面從用戶角度考慮云服務商的便捷性與安全性,只有讓用戶以最簡單的方式享受高效安全的云服務,使安全問題概率降到最低,才能增加用戶的信任感,進而實現口碑效應。
二是出現問題之后,如何妥善的處理。隨著企業上云數量的增加,可以預見今后此類事件會更多。以前此類事件可能影響不會太大,但現在安全事件的發生概率關聯著潛在上云企業對云服務商的品牌形象的認知。對某些小問題處理不當,可能就會引發用戶的不滿,進而放棄使用云服務。所以,不怕出現問題,怕的是出現問題以后不能妥善合理的解決。只要云計算平臺能夠妥善解決善后問題,其他問題的解決也就不在話下了。
最后,偉哥再次叮囑云平臺與企業都要引以為戒,盡量避免出現云計算事故造成企業重大損失的情況。
工業互聯網趨勢下的企業上云大有可為,希望云平臺和正在數字化轉型的企業,都能最大化享受這波紅利。