IT和設施人員越來越依賴彼此來為數據中心客戶提供高可用性的服務。你的公司是否有效地處理了這個關鍵關系中最重要的部分?要自信地回答這個問題,了解一下這兩類人員共同承當的哪些責任導致了最常見的可用性故障是有幫助的。
之后,我們就可以采用這些通過驗證的方法來將可用性風險減少至最小。行業數據顯示,在由設備導致的計算機運營故障當中,大多數是發生在機房而非基礎設施建筑中。
背后的原因很簡單:人們通常是在機房而非放置支持設備的建筑物里出現。風險通常是復雜的,一方面是因為機房由多個部門管理,一方面是因為支持機房的多個系統的運營需要各種各樣的技能。
鑒于這些因素,發生混亂及失誤的機率非常高。要避免這種情況,就需要各個部門通力合作,清晰定義關鍵任務的具體流程及責任人。
布線和連接流程
這是一個最需要優先考慮的事項。一個成功的IT/設施團隊需要清晰地界定哪些部門及個人可安裝及移除機房中的電源、網絡電纜及連接。各個部門需要就各自負責的工作劃分清晰的界線,并達成一致性意見。他們需要定義設施部門應將電源線連在服務器機柜的哪一邊;
哪個部門將負責將配電單元(PDU)whip連接到一個獨立的計算機設備上;
哪個部門有權移除網絡連接器等。圖表或相片需要配上職責界限的書面說明,以進一步明晰各自的職責。每個部門只能允許2~3個人來負責這些關鍵布線任務:其中一個人負主要責任,而其他人則負責支持工作。這些角色的連續性是非常重要的,因為連續性可以保證一致性,并將發生誤差的可能性最小化。
硬件總體規劃
從IT及設施部門各自分派一個人來負責計算機硬件總體規劃的準備和管理工作是下一個最重要的目標。這兩個人需要每周碰頭,決定新購進的電腦應安裝在樓面及機柜中的哪個地方。
需要準備一張計算機機房平面圖,并根據環境的變化而定期更新。這張平面圖需要展示指定區域(為特定類別計算機硬件提前預留的空間占到3/4)中所部署的所有機柜、機架及獨立設備。機架的正視圖應顯示從底部到頂部需要安裝的硬件及其具體安裝位置。IT代表人員需要確保總體規劃會考慮到各項特殊要求,包括連接、與其他硬件或網絡設備的通信需求及距離限制等。
設備團隊成員需要確保總體規劃考慮專門的制冷及電力需求,例如,如果制冷功能從活動地板提供,就在機柜底部放置一個高熱能的服務器。IT及設施管理人員都需要委派一名后備人員。沒有IT及設施管理總體規劃負責人的允許,不可安裝或拆裝計算機硬件。
更少的人力——更少的問題
第三個減小風險的方法就是減少可以訪問機房的人員數量。如果將訪問機房的人數最小化,發生失誤的風險性也可大大減少。這需要高級管理人員強有力的支持。只有每周至少需要在機房工作一天的人員才可在沒有人陪同的情況下獨自進入機房。其他人員在進入機房時都需要有他人在場。入選的某些工作人員,如果對機房工作程序有一個透徹的了解,可使用臨時工作卡進入機房。每個季度,需要由管理人員審閱這個訪問清單,以確定個人再次訪問機房的要求。
保證程序上的清晰性
設施和IT人員還可采用另外一種方式大幅度減少機房環境的風險性:每個將要進入機房的個人需要閱讀整套數據中心機房工作程序指南。這個文件應該描述工作活動中的所有注意事項,通常是10~15頁長。各個部門的經理需要與允許進入機房工作的員工及供應商(不管是否有人陪伴)一同閱讀這份文件。簽名的復印件需要歸檔并且每年更新。對于這些有人陪伴參觀機房(非工作)的人員,需要閱讀該文件的簡縮版。
通過針對性地處理這些常見的導致運營障礙的干擾性因素,并采用以上提及的清晰界定的流程,數據中心公司可大大提高數據中心運營的連續性。此外,應用的連續運營也將大大提高數據中心正常運行時間的長度。