何運行一個龐雜的機房,進行無數的主動和被動的操作,同時避免錯誤導致的數據中心故障?
1. 以終為始
以終為始是一種以結果為導向的思維方式,提示人們在做事情前要先明確做事情的最終目的,也就是“不忘初心,方得始終”。數據中心的終極目標是支持業務系統的不間斷運行。在接手一個數據中心的運維任務之前,我們首先需要明確業務連續性目標,然后才能制定相應的運維策略。
2. 以人為本
70%的數據中心故障是由人為造成的。與此同時,即使有最先進的監控系統,數據中心內無論主動保養操作,還是應急反應,都還需要依賴于人員的最終決策和操作。所以,配備足夠的人員、有責任心、經驗豐富的人員、對于數據中心的安全運行至關重要。
3. 培訓與學習
學習是一種修煉。有一種說法“最好的運維團隊只不過是犯了足夠的錯誤就修煉出來的”。數據中心基礎設施牽涉到電力、暖通、弱電、消防、建筑等諸多專業,對于數據中心運維團隊來說,需要學習的專業知識非常多。同時,每一個數據中心的配置和特定的操作流程都不完全相同。因此,培訓與學習應該成為運維團隊管理的一個重要組成部門。
4. 建立管理體系
數據中心基礎設施的運維管理工作的管理對象包括整個龐大的基礎設施、運維團隊、服務對象(IT部門或者IDC客戶),是一項系統性很強的工作,需要建立起一個管理體系。在整個管理體系中最重要的三個方面是設備保養體系、與所有相關部門的溝通機制、以及支持整個數據中心生命周期管理的財務預算體系。
5. 規范操作流程
任何規范化的企業管理,都不可避免地需要引入流程,數據中心運維管理也不例外。完全基于個人經驗和判斷的操作,往往隱藏著重大的故障風險。數據中心就是要強化流程管理。任何重要的操作,必須嚴格按照流程執行。建立流程文化是數據中心規范化管理的一個重要環節。數據中心最重要的三類流程是標準操作流程(SOP),維護保養操作流程(MOP),和應急相應流程(EOP)。
6. 動態管控
除了之前提到的管理體系和操作流程這些相對靜態的工作以外,數據中心還需要進行動態的管控。近幾年,IT負載的動態性表現得越來越明顯。一方面,IT設備的增加速度比較快。新的業務系統上線可能導致IT負載在短期內有較大的增加。另一方面,企業大量采用虛擬化技術以后,可能會出現機房內各機柜的IT負載在一天范圍內有較大變化的情況。基礎設施運維團隊需要針對這種IT負載的動態性作出相應的對策。
7. 持續改善
大型數據中心的出現只是近幾年的事情。當數據中心超過一定規模的時候,管理變得復雜,已經超越原來簡單的依賴于少數運維人員的責任心的時代,需要的是完整的管理思想和方法論。國內數據中心基礎設施運維體系的成熟度大致處于三個等級的狀態:基礎級、成長級、文化級。