摘要 : 運維是一個細活慢活,業務發展的再快再好,也要平時累積資源和能力,正所謂養兵千日,用兵一時,關鍵時刻還是得靠自動化工具和流程來約束,而不是人肉維護。
今天凌晨1:30看到攜程安全部負責人凌云微信朋友圈發文:經攜程技術排查,確認此事件是由于員工錯誤操作導致,整個恢復過程花了較長時間驗證。
不難理解,攜程做為一個在線海量交易平臺,后端還連接一個3萬人的呼叫中心系統,以及對接國內外的海量的機票和酒店庫存系統,系統的耦合度非常高,應用程序部署在數萬臺服務器上,即使SOA實施的再完美,這些應用程序二次發布無論是自動發布還是半自動維護,二次重新部署時間一定很長,就這些war包應用程序都有可能把整個內網的流量撐爆,這些應用程序還要分發到不同的IDC,專線肯定都不夠用,恢復時長在所難免,同時交易鏈條越長,整個服務可用性驗證也很艱辛。
攜程今天出現的事故只是一個例子,但這個例子后面的企業IT架構,數據管理和容災管理思路相信是目前絕大部分企業的特征,如有線上的服務,也有內部的支撐IT網絡和系統,也有外部對接的ERP諸如之類的系統 ,有自己搭建的機房或私有云,也有購買的云計算產品 ;在此基礎上,目前大部分企業實際做了一些。
在線類業務/核心業務,出問題,影響股價,影響品牌, 可能給企業帶來災難性的影響,本文重點討論如何保護。一般來說,對業務的保護,要有防線層次,防范此類異常情況,一是應用發布平臺要改造,應用程序動靜態分離,嚴格的工作流審批發布程序;二是核心流程自動化測試,縮短應用上線服務驗證時間;三是所有在線應用程序都要做備份和版本管理,需要一個可視化的集中管理平臺維護最新版本和應用之間的關系;四是重視演練,災難恢復要做到一周一小練,一月一大練。
總之,運維是一個細活慢活,業務發展的再快再好,也要平時累積資源和能力,正所謂養兵千日,用兵一時,關鍵時刻還是得靠自動化工具和流程來約束,而不是人肉維護。