隨著互聯網、信息化產業的不斷發展,作為各種信息載體的數據中心發揮著越來越重要的作用。因此保證數據中心的安全運行變得尤為關鍵,數據中心運維管理工作也變得越來越復雜,技術難度不斷被加大。本文主要介紹數據中心運維工作者所應具備的工作職責。
1安全運行
保障系統和設備的正常運行;消防系統的完好;具備防水防火、防鼠措施;健全安全出入管理規定;保持機房清潔;建立供應商聯系方式;工具和備件管理;事故應急流程和人員安全應急流程制定等。
2可連續性管理
a.保證所有基礎設施設備正常運行
b.特別要注意發電機狀態和自動啟動功能、油料儲備情況和供應條件、ATS狀態和轉換功能、電池狀態和剩余能量、最高功率密度機架溫度變化情況,以及預計市電掉電所導致的制冷設備停止運行后的繼續運行時間等;
c.注意可維護性和可快速可修復性檢查,包括所有設備的維護和修復空間、運輸通道暢通、工具和設備備件狀況等。
3文章管理
完整的文檔時候起運維、故障診斷及優化改造的基礎,包括基礎設施的全套規劃設計相關文檔、系統最近一次改造的圖紙、全套設備的清單及相關文檔、設備保修及保養資料、機房自動操作系統的邏輯圖及說明文檔、維護日志及相關數據、故障分析及處理過程報告。
4容量管理
應有新增IT設備的安裝及下線的工作流程;預測機房空間、電力、制冷的能力與IT需求的關系;關注高密度負載與IT部門保持良好溝通;對于IT需求制定6~36個月的預測;當機房不能滿足IT增長的需求時,提前制定擴容或者新建數據中心的計劃。
5變更管理
系統擴容預計任何對于設備狀態的變更都要事先進行可行性和風險分析,并提出擴容和更改方案,并有完備的事前審核及告知流程、變更窗口審核及告知流程,以及事后的事件報告。
6節能運行
應了解并記錄數據中心在不同工況及不同外界氣候條件下的能耗情況,從中發現趨勢,通過調整制冷設備參數設置、封堵所有可能的漏風口、調整或關閉不必要的出風口、安裝盲板、改進氣流組織等手段,保證冷空氣最佳使用效率;根據負載量調整供電和制冷設備的冗余度以便提高設備容量利用率。
7事故處理
對于突發性故障,要有事故過程和狀況記錄,組織專家評審并提供事故原因報告,事后提出系統修復方案報告。
8應急演練
主要針對系統可連續性做定期演練,關閉市電輸入,考察發電機狀態和自啟動功能、燃油儲備量和消耗量、ATS轉換功能、電池備用時間、UPS狀態轉換不停電供電功能、制冷設備再啟動功能、高密度IT機架溫度變化情況。
數據中心機房運維管理工作責任重大,運維人員應當了解自己工作的職責。熟悉自己日常的工作流程,時刻關注機房的溫度和安全問題,通過優質的維護和管理,讓機房發揮出更大的價值。