事因“屋漏偏逢連夜雨”
被怒懟后,騰訊云公開了此次故障的來龍去脈。
騰訊云在其官方微信公號發布《關于客戶“前沿數控”數據完整性受損的技術復盤》,其在該文中解釋說,當天運維人員收到倉庫Ⅰ空間使用率過高告警,從倉庫Ⅰ選擇一批云盤搬遷至新倉庫Ⅱ。為加速搬遷,手動關閉了遷移過程中的數據校驗。
搬遷完成后,為了釋放空間,運維人員對倉庫Ⅰ中的源數據發起回收操作。當天晚上監控發現倉庫Ⅱ部分云盤出現異常。
“該故障緣起于因磁盤靜默錯誤導致的單副本數據錯誤,再加上數據遷移過程中的兩次不規范操作,導致云盤的三副本安全機制失效,并最終導致客戶數據完整性受損。”騰訊云總結說。
北京理工大學網絡攻防對抗技術研究所所長閆懷志用“屋漏偏逢連夜雨”來形容這次事故。
首先,騰訊云提供的云盤因所在物理硬盤固件漏洞導致靜默錯誤。閆懷志解釋說,硬盤存儲硬件并非完美,因此設計了硬盤出錯及異常報警機制。但該機制并不能將漏洞與錯誤全部識別并進行正確處理,偶爾會出現“漏網之魚”,而且只有在用戶使用的時候才會暴露出來,也就是出現靜默錯誤。
“靜默錯誤一旦發生在元數據(用來描述數據特征的系統數據)中,將造成不可挽回的數據損失。”閆懷志對科技日報記者說。
但他認為,更重要原因是云服務提供商違反了基本的數據遷移操作規范。因為正常的數據遷移默認使用數據校驗功能,此外,還需對源數據倉庫進行一定期限的數據保全,待確認遷移數據無異常后,方可進行倉庫回收。
而運維人員的操作連續違反上述操作規范,致使數據遷移出現異常后,又提前對源數據進行倉庫回收。通常云服務商會采取對數據進行3個備份的機制來保障數據安全性,但兩次違規操作,使數據異常擴散至三副本,最終導致數據無法恢復。
三分靠技術七分靠管理
云服務到底安不安全?所謂的數據可靠性達99.9999999%,夸張嗎?
“這些年與數據安全相關的技術一直在不停選代、升級,可以說已非常成熟。”華云數據執行副總裁、首席技術官譚瑞忠在接受科技日報記者采訪時表示。
譚瑞忠認為,騰訊云聲稱云服務器數據可靠性達99.9999999%,是單純從技術角度計算出來的,并沒有夸大。但很多時候存儲在云端的數據丟失、被破壞或被盜取不是因為數據安全技術不可靠,而是人為原因。
拿此次騰訊云事故來說,譚瑞忠認為,假如只是磁盤靜默錯誤導致遷移數據時出錯,而并沒有后續的運維人員違規操作,“前沿數控”的數據完全可以通過數據三副本機制找回。
“木桶理論警告我們,無論是技術短板還是管理短板,都會拉低云計算的整體安全性。”閆懷志說,這次事故再次證明信息安全三分靠技術,七分靠管理。
閆懷志認為,企業不能天真地將云計算視作萬能良方,認為將數據上云就能保障安全、一勞永逸,因為絕對的安全是不存在的。
在閆懷志看來,從根本上來說,云服務安全保障沒有什么捷徑可走,應從技術和管理兩方面入手,完善云存儲信息安全保障體系。比如,在技術上,可以強制進行數據安全全流程校驗,提升數據運維的流程化、規范化、自動化水平,減少甚至避免人工干預。在管理上,不僅應制定更為完善的管理體系,更應注重管理制度及措施的落實。
“從行業發展趨勢來看,云服務商都在努力將人工干預降到最低,提高云服務運營的自動化。”不過,譚瑞忠還建議,應推動云服務的開放性,也就是讓用戶的數據可以在公有云、私有云等不同云環境甚至不同云服務商之間自由遷移,并實現數據的實時同步,這樣相當于給用戶數據上了“雙保險”。
數據價值界定仍是難題
此次騰訊云事故引起關注的另一個細節在于,騰訊云與“前沿數控”曾就賠償問題產生較大分歧。
據報道,“前沿數控”向騰訊云提出了1100萬元的賠償要求,而騰訊云則給出了“賠償+補償”總金額為13萬余元的解決方案。
“由于數據具有虛擬性和實質性的雙重屬性,數據價值的界定一直是老大難問題,在數據損失賠償方面也容易產生分歧。”閆懷志說。
“數據對企業生存越來越重要。”譚瑞忠告訴科技日報記者,但目前對數據價值的評估確實還沒有成熟的方法。他認為,在出現類似事故后對數據價值的判斷可以從多個維度來考慮。
譚瑞忠解釋說,判斷數據價值的維度應該包括:客戶業務對數據的依賴性,這需要對客戶公司運營的方方面面進行深入了解;數據的破壞量,比如若只丟失了30分鐘的數據,則只考慮30分鐘數據的影響;云服務提供商與客戶分別承擔的責任等。就此次事件,譚瑞忠認為,除了將責任歸咎于云服務商,也應考慮到客戶并未對數據采取保護措施的責任。
閆懷志也認為,云安全的責任問題牽涉到云服務提供商和客戶兩方面。針對本次事故而言,云服務提供商應負主要責任,而客戶也該采取必要的備份措施以防萬一,比如開啟快照功能對重要數據定期備份等,絕不能做“甩手掌柜”。
在數據價值界定問題上,閆懷志認為,云服務商在為用戶提供云服務時,可提前進行安全風險評估,協商確認數據價值。用戶如果聲稱自己的數據價值高,云服務提供商就可據此要求收取相應較高的服務費用,做到責權利平衡。在發生事故進行賠償時,也有參考標準。
“另外還可考慮設立數據第三方保險索賠制度。”閆懷志說,也就是為需要保護的數據投保并繳納相應保費,一旦出現數據受損的情況,可根據投保額進行索賠,這樣就轉移了云計算服務提供商和用戶的損失風險。