“我所在企業(yè)數(shù)據(jù)中心當前的運營狀況到底是好是壞?”這是企業(yè)數(shù)據(jù)中心經(jīng)理們經(jīng)常會反復追問的一個問題。盡管他們并非每天都在糾結(jié)于這一問題,但在一個人安靜下來內(nèi)省的時候,這一問題便不時地會浮現(xiàn)出來。
與IT處理事務中的大多數(shù)事情一樣,這個問題其實是很重要的。但是,想要真正找尋到正確的答案就是要渠道“工作真正發(fā)生的地方”。
在我與廣大讀者朋友們深入探討這個問題之前,請讓我先行討論一個更深的思考領域,然后再來解決另外一個問題:所謂“成熟的”數(shù)據(jù)中心到底意味著什么,為什么有人想要這樣的數(shù)據(jù)中心呢?
雖然這個答案可能看起來很明顯,但我的建議是:“足夠好”的數(shù)據(jù)中心可能就已經(jīng)足夠了。就像Malcom Gladwell在《Outliers》這本書中所提出的那樣,花費10,000小時才能成為公認的業(yè)界領域?qū)<液皖I導者,與一般有能力勝任的普通從業(yè)者之間的相對成本差距是多少?雖然真正的世界級的卓越的業(yè)界領域?qū)<沂橇钊肆w慕的,但經(jīng)常也是不必要的。沒有遠大抱負的人可能并不想要成為世界級的專家;他們只想要和家人朋友一起度過每個美好的夜晚。
同樣,如果我們將數(shù)據(jù)中心的成熟度與卓越的業(yè)界專家類比的話,而且完全成熟(即世界級)的數(shù)據(jù)中心的成本會相當高,無論我們所談論的是貨幣成本、時間成本、員工投入或其他方面的參數(shù)成本——那么,我們要問的另一個問題便是:“世界級的數(shù)據(jù)中心是否滿足企業(yè)的業(yè)務需求?”通常情況下,答案是否定的。您企業(yè)的數(shù)據(jù)中心其實只需要為滿足您具體的客戶(內(nèi)部的同事和外部的客戶)的需求做好準備即可獲得預期的服務水平。
所以,我想澄清的一點是:當我提及“成熟”這一點時,我并不會將其當作“完美”的同義詞;相反,我的意思是足夠穩(wěn)定和穩(wěn)健運營的數(shù)據(jù)中心,以滿足您企業(yè)的業(yè)務需求,并由可用的員工來維護。而在了解了這一點的前提下,數(shù)據(jù)中心如何提供有效的服務以及如何以企業(yè)現(xiàn)有員工的服務水平實現(xiàn)可維護性對于在數(shù)據(jù)中心環(huán)境中管理或工作的任何人來說都是及其重要的。
能力成熟度模型
慶幸的是,有一個確定成熟度的模型,業(yè)界將其稱之為能力成熟度模型(Capability Maturity Model,CMM)。 CMM現(xiàn)在已被廣泛應用于軟件開發(fā)(即其最初被提出的領域),產(chǎn)品交付和摩天大樓建設等等方面。
不幸的是,與信息技術基礎架構(gòu)圖書館(ITIL),面向服務的架構(gòu)(SOA)和六西格瑪一樣,CMM的使用通常都不太理想。畢竟,運行一處數(shù)據(jù)中心就像開發(fā)軟件應用程序一樣。要清楚的是,我不是說ITIL、SOA、六西格瑪或CMM是壞的框架。他們是非常好且相當有用的。但并非在所有情況下都適用。
所以,盡管了解您企業(yè)數(shù)據(jù)中心的成熟度的相對水平很重要,但是通過使用CMM來了解其實并不是最好的。因此,我想提出一些我個人關于成熟度模型的想法,該想法涉及如何創(chuàng)建一個對您企業(yè)的特定環(huán)境有意義,有相關性且更為有效性的模型。
創(chuàng)建一套您企業(yè)自己的數(shù)據(jù)中心成熟度模型
數(shù)據(jù)中心成熟度模型的目標是為了幫助您了解企業(yè)數(shù)據(jù)中心在一個連續(xù)統(tǒng)一體上所處的具體位置,其中一方面沒有復雜性的,而另一方面則是完全最優(yōu)的。這意味著您需要仔細考慮重要的類別。
例如,在許多情況下,清潔程度肯定是包括從手術室到商業(yè)化餐廳廚房的重要成熟度考察類別,但其可能并不是數(shù)據(jù)中心的關鍵指標。另一方面,組織并規(guī)劃顯然是一個好的開始。但是您的下一個想法必須是“組織規(guī)劃什么?”您只是在談論物理方面,比如把所有的備用電纜按照顏色進行編碼,按長度進行排列,以方便隨時可用?或者組織的概念是否可以擴展到手冊、工具、設備、工作人員進度表、流程審查,甚至在線常見問題和知識庫?
歸納出三到五類的成熟度考察類別不應該是那么難,您只要回顧考慮每天所處理的問題、任務和活動的類型即可。但是,當您想到更細節(jié)的問題時,需要盡一切努力把它們分類歸納成特別強調(diào)的紀律。這方面的示例包括:
可視化:您可以識別和查看數(shù)據(jù)中心所有方面的狀態(tài)嗎?這涵蓋了包括從地板和機架地圖(靜態(tài)或交互式)到對于當前硬件、軟件、事務等狀態(tài)的監(jiān)控顯示。
容量:您是否知道您數(shù)據(jù)中心油箱里有多少油料?您是否知道您數(shù)據(jù)中心的耗油速度有多快?您是否可以根據(jù)目前的運行狀況以及通常在一天、一周和一個月的不同時間的運行狀況,大致估算出什么時候一箱油可能會被耗盡?同樣,這些問題也適用于存儲、處理器、內(nèi)存、負載平衡等。
響應:當發(fā)生問題時,您如何知道?有什么工具來促進初始反應——包括自動修復、升級、故障排除和最終保持平均修復時間(MTTR)?
一旦您企業(yè)就此制定了成熟度類別,您就可以提出一些問題,讓您得以能夠評估這些領域的成熟度/復雜性/準備狀況。您應該避免設置是、否或者SAT風格的問題。用選擇答案的方式來替代需要就答案進行排序的問題。通常,我的目標是就該選擇題提供一到五個備選答案來促進找出問題的答案或問題的陳述。然后將這些答案結(jié)構(gòu)化,使其中一個備選答案能夠一眼就被排除,而把中間其他幾個答案設置為接近最佳答案,但不是最佳的。如下,我會解釋這樣做的原因,例如:
當我晚上睡覺時,我相信我可以看到我企業(yè)數(shù)據(jù)中心的基礎設施發(fā)生如下的事情的比率:
1、0-25%(我永遠無法睡覺!)
2、26-50%
3、51-75%
4、76-95%
5、96-100%
我們的工具可以幫助大大減少MTTR(較之沒有這些工具的情況下):
1、0-5%(什么是MTTR?)
2、6–25%
3、26-50%
4、51-75%
5、76-100%
我們通過如下方式應對容量能力方面的挑戰(zhàn):
1、觀察系統(tǒng)發(fā)生的崩潰情況
2、每名工作人員保持對所管理設備或被分配系統(tǒng)的狀態(tài)的密切注意
3、定期檢查系統(tǒng),記錄數(shù)據(jù)并得出結(jié)論
4、使用數(shù)據(jù)創(chuàng)建一個簡單的直線投影的整體用法
5、使用連續(xù)自動數(shù)據(jù)收集來計算每個元素的基線,用于在資源可能耗盡時進行投資,并根據(jù)“正常”而不是固定數(shù)量設置警報閾值
將問題和答案進行微調(diào)后,請發(fā)送給您數(shù)據(jù)中心的團隊。如果您認為采取匿名回答的方式會有助于獲得更周到和更為誠實的回應的話,也不妨采用,但每個人都應該幫助改善數(shù)據(jù)中心的運營環(huán)境。 一旦收集到了員工們的答案之后,就按一致的比例評估結(jié)果。然后,您可以跟蹤每個問題的平均結(jié)果,但也要確保每個類別的單個最終平均值。
最后,我的推理也與您如何呈現(xiàn)結(jié)果有關。 盡管事實上,每個問題——如果您遵循了我上文中的介紹的話——會產(chǎn)生一個整齊的五步階梯,例如在典型的CMM模型中提出的一個階梯,這不是您應該顯示的結(jié)果。 相反,其應該如下圖所示:
資料來源:SolarWinds
這種展示的好處是,您可以看到一個領域的優(yōu)勢有助于彌補其他領域的差距。或者更現(xiàn)實地說,您的超級競爭上層管理是否愿意看到上面雷達似的顯示圖?當然,我們都想成為超級英雄。但是,我們通常并不愿意付出上述所有五項所需的成本,無論是意味著需要更新的設備,更強大的監(jiān)控,聘請更專業(yè)化的員工,更高級別的供應商SLA等。更強大的監(jiān)控并不需要花費很多,所以您企業(yè)應該總是愿意嘗試使用最好的工具!
顯然,創(chuàng)建一套成熟度模型并分析數(shù)據(jù)與實際的數(shù)據(jù)中心運營狀況的改善并不相同。但在某些情況下,“我們?nèi)绾胃倪M”的答案可能是顯而易見的。但是,具有映射到成熟度模型的評估工具創(chuàng)建了一個可重復的過程,可以讓您不僅可以識別需要改進的領域,還可以評估您改進的進展。
同時,有著良好的記錄,可重復的流程首先必須是數(shù)據(jù)中心成熟度的重要組成部分。