為了最大限度地延長數據中心的正常運行時間,許多組織嘗試通過采用多種方法來管理其數據中心運營以降低風險。其基本要求可能很好地表明可以保證一定程度的可靠性或魯棒性。組織要求將最新的技術創(chuàng)新融入數據中心的設計和建設中,這的確可以為數據中心持續(xù)提供服務做出貢獻,但在這里需要強調的是“可能”一詞。數據中心的運營專業(yè)化和更重要的運營表現(xiàn)的關鍵不是理論上能做到什么,而是在現(xiàn)實中是否可以付諸實踐。
不要過度復雜化
多年來的經驗證明,過度復雜的設計和規(guī)格實際上會增加數據中心停機時間的可能性,因為不必要的復雜系統(tǒng)在發(fā)生故障時可能難以維護和修復。調查表明,數據中心的停機時間的75%都是由于人為錯誤造成的,那么最明智的做法是暫時不要采用尚未成熟的新技術,避免復雜的設計,并簡單地實施更容易操作和維護的系統(tǒng)。
而那些利用以往在設計、調試和運營數據中心時學到的知識的工程師能夠更好地避免失敗的情況,并實現(xiàn)安全運營。而以運營和經驗主導的數據中心運營商能夠將這些知識重新投入到數據中心的設計和施工中。
事實表明,最有效的方法可以管理任何類型的風險,例如,在任何可能的情況下避免單一的故障點。其目的是遏制一些相對較小的問題,防止它們在數據中心設施內升級成為主要問題,但不幸的是,并非所有的單一故障點都是顯而易見的。
例如,如果工作人員使用建筑管理系統(tǒng)(BMS)遠程啟用/禁用關鍵設備,則簡單的軟件故障可能會關閉正常運行的設備,從而導致租戶無法使用服務。因此,良好的實踐表明,最好保持簡單性,并在客戶使用服務之前測試每種故障的可能性。當然,解決方案越簡單,在滿負載集成系統(tǒng)測試(IST)期間就越有可能測試每種可能發(fā)生的情況。
要現(xiàn)實一些
數據中心運營商最終會根據其實現(xiàn)情況進行判斷,未能達到服務等級協(xié)議(SLA)只會導致未達到運營目標并引發(fā)懲罰條款。確保服務等級協(xié)議(SLA)實用、可行和可實現(xiàn)的最佳方法是采用以工程為主導的方法來管理運營。換句話說,服務等級協(xié)議(SLA)看作是工程的數字功能,而不是合同的談判要素??蛻敉耆私鈹祿行耐C時間或故障間隔時間(MTBT)是非常重要的。必須采取設計和調試決策對服務等級協(xié)議(SLA)和運營效率的影響。
例如,減少安裝數據中心冷卻管道的成本和時間可能被認為是實現(xiàn)提前完工日期的最佳方式,但采用塑料材質的管道可能具有成本效益,但它們也更容易開裂,最終可能會破壞冷卻系統(tǒng)的正常運行。經驗表明,采用塑料管道不值得冒這個風險,因為數據中心運營商可以解釋為什么在大多數情況下需要花費額外的時間和成本來安裝部署價格昂貴的鋼管的原因。
利用經驗
顯然,數據中心運營商需要更加透明地了解不同系統(tǒng)、方法和認證的優(yōu)缺點。他們需要傾聽客戶的要求,然后解釋并證明他們的建議,即使這意味著采取建議將會實施其他行動方案,如果這符合客戶的最佳利益,也可以考慮執(zhí)行。如果服務等級協(xié)議(SLA)不具備技術上或運營上的可行性,它們應將服務等級協(xié)議(SLA)視為交付,并準備重新協(xié)商服務等級協(xié)議(SLA)的承諾。
畢竟,減少任何潛在的基礎設施薄弱或可能阻礙災難恢復能力或效率的操作復雜性的唯一途徑是數據中心運營商利用其設計、調試和管理經驗,并最終以專業(yè)人士的建議為準。