摘要 : 我們不得不承認,安全問題是一個相對的概念,公關是一個突發的事件。這些不確定性事件構成了黑天鵝事件,既然類似攜程這種黑天鵝事件無法避免,那就想辦法從中獲取最大利益。
在澳大利亞的黑天鵝沒有被發現前,人們認為所有的天鵝都應該是白色的;在昨晚的攜程事件之前,99%的企業都會認為自己是不會出問題的。
5月29日1:30分,攜程官方微博發布聲明表示:經攜程技術排查,確認此次事件是由于員工錯誤操作導致。由于攜程涉及的業務、應用及服務繁多,驗證應用與服務之間的功能是否正常運行,花了較長時間。昨天攜程的股價也出現下降。
從昨天的11:09分開始,直到晚上22:45分才基本恢復,此次攜程網站崩潰事件共持續了近12個小時,無論從宕機時長還是從產生的影響,都會在以后被作為一個“著名”的案例被不斷提及。
我們不得不承認,安全問題是一個相對的概念,公關是一個突發的事件。這些不確定性事件構成了黑天鵝事件,既然類似攜程這種黑天鵝事件無法避免,那就想辦法從中獲取最大利益。每一件事情都會從波動得到利益或承受損失。脆弱是指因為波動和不確定而承受損失。反脆弱則是讓自己避免這些損失,甚至因此獲利。尼采名言:「殺不死我的,使我更強大」。所以,我們需要知道我們會被那些東西殺死,以及如何變得強大。
從攜程的聲明中表明,導致此次事件的直接原因是員工誤操作造成,但請注意“應用”二字,作為一個十幾年歷史的公司、作為曾一度被認為僅有的幾家因專注而著稱的上市公司、一個后端還連接一個3萬人的呼叫中心系統,對接國內外的海量的機票和酒店庫存系統的在線海量交易平臺,這的確是個令人沮喪的原因。我們可以通過防火墻、數據容災備份、云存儲等等方式,讓數據更加安全,甚至準備了N套應急預案,所以外界一度猜測的“員工惡意物理刪除數據庫”、“黑客入侵”,如果存在的話應絕對不會花上近12個小時去解決。只有應用程序出錯才會出現這種情況,這也印證了為什么會出現“寫好的程序被刪”的情況,也印證了為什么在所有代碼都存在、數據庫備份依然完好、數據沒有丟失的情況下,恢復起來卻如此漫長。
筆者比現在年輕10歲的時候,每次看到軍事演習都會在心里暗暗的為如此大規模的浪費而惋惜,10年后,我知道這是錯的。而企業災備同理。災備不是簡單的存儲、簡單的備份,這些工作都是為了一個目的——數據恢復,我相信攜程肯定會與自己的數據中心、自己的災備系統、甚至自己的私有云等等。但很多企業,甚至可能包括攜程在內,往往熱衷于建立一個“高大上”的災備中心,卻忽略了備份演練,更不用說定期做演練,災備中心變成了“觀光中心”。
多備份CEO胡茂華認為,要防范此類異常情況,一是應用發布平臺要改造,做好應用程序的動靜態分離,制定并遵循嚴格的工作流審批發布程序;二是核心流程自動化測試,縮短應用上線服務驗證時間;三是所有在線應用程序都要做備份和版本管理,需要一個可視化的集中管理平臺維護最新版本和應用之間的關系;四是則是如上午提到的重視演練,災難恢復要做到一周一小練,一月一大練。
資深運維從業者智錦認為,真正有效的根源解決做法是從黑盒運維(運維人員不斷的去做重復性的操作,不知道應用的依賴關系,哪些配置是有效配置、哪些是無效配置)走向白盒運維。運維的核心和難點其實是配置管理,運維人員只有真正的清楚所管理的系統的功能和配置,才能從根源上解決到處救火疲于 奔命的情況,也才能真正的杜絕今天攜程這樣的事件重現,從根本上解決運維的問題。
運維派創始人趙廣認為,雖然我們聽到了No ops(不需要運維)的聲音,但攜程的這次事件再次向我們表明運維人員的重要作用,云計算、大數據、互聯網+的繁榮,增大了基礎設施的建設,系統的架構更加復雜、數據量更大,這些都是對運維的挑戰,與其說是No ops,莫不如說是Not only ops!而在數據恢復方面,運維團隊則需要多多思考數據備份歸檔后,是否有去校驗數據備份完整性?是否有在日常去演練過數據容災恢復流程?
此次事件對于攜程來說當然是一件壞事,但卻為眾多的企業敲響了警鐘,非常不可能發生和無法預測的事件,存在于世界上幾乎每一種事物之中,墨菲定律也一再上演,企業需要將不確定性變成一件好事,同時,以反脆弱的方式建立各種業務,包括數據安全、災備以及公關。