不僅是騰訊云出現故障,近期很多國內國外的云計算平臺都發生了故障事件。回顧云計算近期事件,都是小幾率事件導致了平臺故障,進而導致用戶受損,不過客戶事故無小事。以下是近期出現云故障事件盤點:
7月24日,騰訊云廣州區域部分用戶出現資源訪問失敗、控制臺登錄異常等情況。經排查,是因騰訊云廣州一區的主備兩條運營商網絡鏈路同時中斷所導致。實際上主備兩條運營商網絡鏈路同時被挖斷并不常見。
6月27日,阿里云出現運維失誤,導致一些客戶訪問阿里云官網控制臺和使用部分產品功能出現問題。受影響范圍包括阿里云官網控制臺,以及MQ、NAS、OSS等產品功能。據悉這次故障被阿里云內部定義為S1級別(在阿里巴巴的線上業務故障級別中,對S1的定義是:核心業務重要功能不可用,影響部分用戶,造成一定損失)。
6月15日,因重復分配內部IP地址,谷歌云虛擬機實例大量出現聯不上網的問題。
4月6日,微軟Office 365 和 Azure Active Directory訪問出現問題……
這些安全事故有出現在運維層面,有出現在產品層面,有出現在網絡攻擊方面,還有出現在物理設施故障(如容災)層面。應該說絕對安全的云并不存在,在上云成為既定趨勢下,行業客戶了解各家云計算廠商如何做云計算安全,應該說有助于在選擇云計算廠商時更有思考余地。
AWS:
AWS提出安全責任共擔模型,集合AWS、AWS客戶、APN合作伙伴三方共同做客戶的安全。其中,AWS管理和控制云服務所在的物理設施安全,以及托管操作系統和虛擬層的安全,并構建安全的應用。APN合作伙伴提供涵蓋網絡安全、配置管理、訪問控制和數據加密的工具服務。
另外AWS在2017年末推出了智能安全服務GuardDuty,打造主動檢測和持續性防護能力。
在容災方面,AWS每個可用區具有獨立的電源、冷卻和物理安全性,并通過運營商的高速光纖網絡連接到國家骨干網絡。AWS客戶可以將其應用程序構建在多個可用區運行,或在兩個AWS中國區域分別運行以實現更高的容錯。
阿里云:
阿里云同樣提出了安全責任共擔模型,阿里云負責云平臺基礎安全防護,用戶負責虛擬化層以上的組件安全、業務安全等。阿里云為用戶提供了安全管理、系統安全、業務及內容安全三方面安全能力。安全管理包括云賬號安全管理及訪問控制、安全審計和遠程運維,它們大多源于云產品本身的安全功能;系統安全包括了網絡安全、主機安全、應用安全、數據安全、安全態勢感知等多方面安全服務。
阿里云最知名的安全產品是云盾,云盾在DDoS攻擊、OWASP常見攻擊都有很好的防御效果,不過在今年3月份的史上首個核彈級DDoS攻擊面前,很多阿里云盾的免費用戶都遭受了攻擊。
類似AWS,阿里云也在態勢感知方面努力,利用機器學習和威脅情報發現潛在的入侵和高隱蔽性攻擊,回溯攻擊歷史,預測即將發生的安全事件。
騰訊云:
騰訊云是基于“云管端”的體系做安全,騰訊云在數據安全、網絡安全、主機安全、安全服務、風控安全、流量安全、內容安全、終端安全的能力方面正在形成布局;同時,騰訊云已聯手100多家生態伙伴聯防聯控,為用戶提供云上防御產品和解決方案。
另一重要消息是,5月29日,騰訊宣布騰訊貴安七星數據中心正式開啟一期試運行。未來貴安七星數據中心將被用于存儲騰訊最核心的大數據。按照規劃,這將是一座綠色災備數據中心,會存放30萬臺服務器。應該說這一數據中心的逐步啟用,將有助于數據安全。
金山云:
金山云從漏洞對抗、業務安全對抗、虛擬化安全對抗和DDoS對抗四個維度來進行布局,希望形成智能的安全平臺和可視化的風險數據預警體系。
金山云通過提供系統補丁、更新yum源等服務,建立自定義安全組拒絕非信任來源的訪問請求,提防系統漏洞帶來的黑產入侵。
在業務安全對抗方面,主要包括惡意刷單對抗和帳號安全防護。
在虛擬化安全對抗方面,金山云通過主機層隔離、租戶內網絡隔離、租戶間網絡隔、主機監控和網絡監控等方式,來應對虛擬化安全問題。
針對用戶數據的存儲,金山云提供包括對象存儲、關系型數據庫、Redis數據庫等多種存儲方式,并加持安全隔離、加密存儲、訪問控制、隱私保護、數據監控等技術手段保證數據安全。
另外結合此前推出的同區域多可用區部署和跨區域VPC對等連接服務,金山云如今可為用戶提供同機房、同城、異地三級服務容災部署能力,為企業級客戶打造云上災備解決方案。
青云QingCloud:
青云QingCloud組建了網絡安全、數據安全、賬號安全、高可用的系統架構、應用安全及攻擊防范等多方面安全防護。青云QingCloud提供塊設備級(block device level)的硬盤備份與恢復, 可以同時對多張硬盤做備份(包括系統盤和數據盤),也可以對正在運行的主機做在線備份。
值得一提的是青云QingCloud 在基礎網絡之外,還提供了私有網絡(VxNet)功能。私有網絡類似物理世界中的局域網,可保障在公有云多租戶的場景下,用戶之間100%的二層隔離,這是青云QingCloud在網絡安全的布局。
如何做好云安全?企業除了需要考察廠商的整體云安全體系是否完善、強大外,也要考察云廠商是否真正落地三副本存儲、同城雙活這些措施。同時使用云計算的企業可以考慮將業務部署在多云上,也是防止單一云計算平臺出現故障時,導致業務完全中斷。生產數據本地備份也十分關鍵,本次騰訊云故障引起的數據丟失事件中,如果“前沿數控技術”做快照、或者多機備份、或者業務部署在多可用區,也是可以恢復數據的。
另外針對中心化存儲的數據丟失這類事故,我們也看到一些行業專家提出的技術解決方案。比如Lambda的創始人何曉陽認為基于區塊鏈技術的Lambda存儲,具有去中心化、可證明的持有性和可恢復性、可證明的刪除及遺忘、數據流向清晰等特點,盡管當下還存在成本高、技術落地難,但可能是未來數據存儲的發展方向。