在數據中心,小失誤可能會導致大問題 —— 那對于你的組織(以及對于你)會是大麻煩。
我們都經歷過 —— 犯了愚蠢的錯誤還希望沒人看到它,祈禱這個錯誤不會對系統或者網絡產生負面影響。通常這些錯誤都沒問題,只要錯誤不是發生在數據中心。數據庫中心能讓你的個人失誤出現在終端用戶的機器上的。但是當你在服務器機房,你就需要反復檢查那些失誤。不關你是在配置數據中心或者是管理它,你都要時刻保持高度謹慎。
好吧,你懂他們所說的完美計劃……最終還是會出差錯。但是,知道但是了解的一些常見的錯誤可以幫助你避免失誤。
1: 出丑的電纜
你知道一句古老的格言——切割之前先測量兩次(謀定后動)。有多少次你訪問一個數據中心看到到處都是電纜?在地板上,掛在天花板跌落下來,繞在服務器架子上和越過桌子。這應該不會發生。電纜鋪設應給予它所需要的謹慎。它不僅是一個安全隱患,也正是等待發生的災難。有人糾纏下去-您冒著法律訴訟和數據丟失的風險,都是因為有人懶得去測量要用的電纜或花時間去系住一些超 5 類網線。 take the time to zip tie some Cat5.
2:喝酒惹的禍
我知道,這看起來似乎很瘋狂。但我親眼目睹了很多次。管理員(或者其他 IT 員工),進入數據中心后,手拿酒瓶,將其放在某設備上或是塞入其中。轉眼之間, 設備就這樣被毀了還不給你任何挽救的機會。每個數據中心應該有一個醒目的標志,“呆在數據中心的時間里,禁止喝酒或攜帶食物。”該項規定必須以零容忍的態度或一視同仁的強制執行。甚至和酒有關的都應當禁止。
3:用電故障
這涉及到幾乎任何和電有關的問題:突然斷電,缺乏備用電池,沒有發電機,太依靠單一電源。在數據中心,電就是你(數據中心)唯一有意義的生命。沒有他 (電),你的數據中心什么也不是。同時,電也是你最害怕的對手。如果你沒有按照你所需的電路來設計防止電路故障的話,你的數據中心就處于危險的邊緣。確保所有的斷路器(和任何其他有可能引起電路損耗的開關)都已覆蓋,還有火警,不切斷開關的位置將可能會引發如惡作劇一般的后果。
4: 安全疏忽
你給出了多少能夠進入你的數據中心的鑰匙?你是否有每個鑰匙相關聯的每個名字的電子表格?如果沒有,為什么?如果你不保持紀錄誰能夠進入數據中心,你就相當于打開門,并且說“進來偷我的數據”,那次你支持進出口敞開著,以便你能夠將刀片服務器和電纜帶進來,是什么回事?多少次這個敞開的門是無人值守的?或者當你為了使你的工作更容易,而將安全碼給了實習生或者快遞人員?。……看看這個正在哪里發生?
5: 類似豬舍的瑕疵當你踏入數據中心的時候,你的第一印象的什么?你會不會將公司的 CEO 帶進數據中心,并且說“這就是你花錢建造的宮殿?”或者在讓董事長瞧見你的工作之前,你需要一天的時間去注意?
6: 文檔丟失
你到底是如何標注那個網絡的?它的域名證書是什么,它在放在那臺服務器上?如果你要出去度假,你忽視了你數據中心的文檔,那么某個命令在另外的人手上會有點戲劇性。更有甚者,會忘記了域管理的證書。我知道,我知道-這概率很小。但是,有個叫墨菲(參考墨菲法則)的家伙,他知道,你也知道最終會怎么樣。如果你不對你的數據中心撰寫文檔,總有一天命運女神總會因為你的懶惰和混亂將你撇下。
7: 桌面娛樂
你發現了多少次你或者其他員工將數據中心的機器當桌面臺式機使用?除非那機器是 Linux 或者 Mac 系統,否者你會發現像 sexy.exe 之類的病毒在你的數據中心中蔓延。誠然,終端用戶也可能會造成這種情況,但是為什么我們要在數據中心的內部網絡中冒這樣風險呢?當然,邀你的朋友們在數據中心舉行一個 WOW 和 CoD 的局域網 Party 是非常酷的。 但,我們最好還是別這樣做。
8:遺忘的承諾
你最后一次親自訪問你的數據中心是什么時候?或者你僅僅只是看過然后就忘了?你認為因為你能夠隨處遠程訪問就沒事了嗎?真替你羞恥。你必須常規性親自造訪數據中心。 這個造訪不需要一整天的時間。僅僅是過去檢查一下電池、溫度、線纜等等。 如果你沒有與數據中心所需的面對面的時間,你可能會親手造成一場災難。
9:觀光錄像
你對你的數據中心感到非常驕傲:真是太自豪了,以致想向外界炫耀。因此你帶來了媒體;你允許游客行走穿越,并且領會它絕對的帥氣。但是其中一個游客太過好奇,導致網絡宕機。你已經在這個數據中心投入了數十萬美元(或者僅僅幾萬——或者甚至只有幾千)。你無法承擔公眾對技術領域好奇而導致災難的風險。
10: 午夜屠夫
別否認:你眼睛花了整整一夜在你的數據中心。無論是你的服務器重建還是網絡掉線,晚上為了熬夜時不讓自己睡著已經喝了無數杯咖啡。著名的一句話,如果你已經在工作上花了九個或者十個小時,那么你最后需要做的就是花另外五個或者十個小時來試圖修些什么。大多數情況你為了修復它又弄壞了比你所需要修復的更多東西。你可以嘗試換班讓其他人來干,別為了當英雄而把自己鎖在數據中心里“無論多久”,放聰明點。
其他錯誤?
你是否目擊因為一些簡單的錯誤而造成數據中心的災難事件(或者自己就干過)?把你的經歷與我們一起共享吧。