如今,數據中心管理人員正在不斷地與面臨的風險進行戰斗。除了使用有限的電力和制冷系統將計算資源在有限的空間發揮到極致之外,他們的工作還要確保計算資源能夠不間斷性運作。這意味著需要識別和管理各種來源的風險。
基于標準的風險管理方法可以幫助解決這一挑戰。它可以幫助數據中心管理人員優先考慮其重大風險,并為數據中心或關鍵環境審計做好準備。那么具體是從哪兒開始?
了解不同類型的風險
在能夠管理數據中心風險之前,必須了解不同類別的操作威脅。法國跨國IT咨詢機構凱捷公司的GIO英國高級派送中心經理Kevin Read主要負責管理其組織中的數據中心風險,該機構擁有并運營自己的數據中心設施為客戶提供服務。他指出了數據中心管理人員擔心的幾個風險類別。
他警告說:"關鍵任務型數據中心面臨的首要風險類別是電力中斷。這種風險對于每個數據中心來說都是存在的,而風險管理框架將其納入其中。像許多其他數據中心一樣,凱捷公司使用等級對風險進行評級,這有助于揭示諸如此類的破壞性風險。"
"凱捷公司按照Tier 3標準設計和建設了數據中心設施,采用'N + 1'和'N + N'冗余的UPS供電系統為客戶提供,并為機架設備和冷卻系統提供不間斷電源。"Read說,"此外,將不同來源電力提供給數據中心,可防止本地發生的電力故障,而采用備用發電機是最后的技術保障手段。"
第二個風險是火災,由數據中心內部的IT設備故障導致服務中斷。他補充說,該公司在所有數據中心所有房間內布置使用惰性氣體滅火系統,以便在火災蔓延前撲滅。
"第三個風險類別是洪水(河水上漲和雷電、暴雨等極端天氣)、飛機、傳染病以及空氣污染,"他繼續說。 "數據中心建設場地不應該選擇建在飛行路線上,或者是靠近洪水風險區域,以及靠近污染或可能含有爆炸性化學物質的工廠。"
最后,讀取指向安全是第四個風險類別。這其中包括物理安全和邏輯安全漏洞(黑客)的風險。該公司甚至將恐怖主義威脅納入這一風險類別。
像其他類別的風險一樣,安全性自然會分解成許多子類別,而這些分類可以進一步分化。例如,在邏輯安全性中,管理人員可以將員工對應用程序的訪問視為特定的風險區域,并將移動設備訪問作為另一個風險區域。
一些風險隨著新技術的出現而成為主流。例如,CA 技術公司安全解決方案總監Paul Ferron警告說,虛擬化應用是一種特殊的安全隱患。他警告說,這種經常被描述為管理和資源風險的現象也可能對數據安全造成影響。
"虛擬機可以很容易地被復制在沒有適當的安全特權時,"他警告說。 "當用戶在使用結束后,它們可能不會被關閉。"
在這種情況下,與許多其他方案一樣,為某些操作設計安全過程有助于規范虛擬化技術,并降低通過網絡進入漏洞的風險,使用IT服務管理工具來編纂和自動化這些流程,這進一步減少了風險。
云計算托管商Pulsant公司首席技術官Matt Lovell在這些風險組合中還增加了健康和安全風險。
他警告說,這些風險都是多方面的,工作人員將面對從電氣實踐和機械操作安全,到環境和噪聲控制,以及在空間有限的領域工作的挑戰。
他說:"這需要對合規性和安全性進行大量的工作測量,以確保在環境中所有工作人員面臨最小的風險。"
風險管理方法
這些風險并不都是平等的。其中,有些風險會比其他風險更有威脅,而有些風險可能會有更大的潛在影響。因此,人們需要從預算視角來了解哪些優先事項是這個進程的重要組成部分。
Ferron建議數據中心管理人員使用傳統風險管理矩陣最新版本來評估同時存在風險的概率以及潛在的業務影響。"這將是一個三維圖形,"他補充說,三維圖形可以表明減輕相關風險的預計支出。
讀取操作也具有類似的方法,旨在識別和量化風險及其潛在的緩解成本。值得注意的是,他的風險管理系統被設計成一個隨時間推移而不斷變化的文件。
他說:"在凱捷公司,我們制定了一個月度風險管理系統,將所有風險和問題記錄在遏制和行動計劃中。但這需要更改投資預算".
雖然數據中心面臨著自己獨特的風險,但用于管理數據中心的方法并不只是針對這種環境。更通用的風險管理方法適合描述和處理數據中心的風險,因為風險在其他領域也是如此。
Lovell說,這個通用的風險管理標準是ISO 31000:2009.該標準規定了風險管理的一般原則和準則,旨在根據每個用戶認為合適的風險類型進行調整。它更符合風險管理框架,但Lovell表示,它也可用于審計數據中心內的審計風險防范。
他說:"審計程序必須設法確定正確的響應程序是否到位,這些都是由員工排練和理解的,這將隨時間而改變,因此必須不斷更新。".
數據中心不能單獨發揮作用。它們存在于一個更廣泛的連續的技術與商業目標。風險管理技術將成為一個更廣泛風險管理的一部分。特別是大公司將會探索各種風險,從財務到監管和組織。
數據中心的風險在多大程度上與公司不同。在凱捷公司的案例中,數據中心管理人員負責該設施的安全,并將管理每月的風險和問題流程。數據中心管理人員連同其英國數據中心主管一起,每月都會與首席財務官團隊進行會議溝通,以預測任何重大風險支出。
Pulsant公司的Lovell說,數據中心合規團隊通常會以某種形式向董事會匯告。"這個團隊有向董事會成員提交管理和報告的責任和義務。這可能與其他可能通過各種項目或組織結構報告的IT治理計劃不同。"他說。
Lovell補充說,在理想情況下,在管理風險和報告結果時應該分擔責任。"建議始終是適當地管理風險,這應該涉及監控和提供數據中心服務的運營團隊之外的獨立管理和驗證水平。這可以是獨立的內部或外部治理團隊。"
選擇審計方法
這里的關鍵詞是驗證。量化,優先排序和降低風險是風險管理挑戰的一部分,但衡量數據中心在這些領域的業績是該過程的重要組成部分。對風險進行審計將有助于內部員工和潛在客戶(如有必要)了解如何在數據中心的運營中控制各種風險來源。
在選擇審計以彌補數據中心的風險之前,管理人員必須了解自己想要實現的目標。風險審計是否以客戶為導向?如果是,客戶正在尋找什么具體的標準?是否有客戶希望獲得特定的數據中心打擊的風險管理指標?
數據中心的風險緩解服務供應商也可能會進行審計。Read說,例如,凱捷公司的數據中心由其本集團和政府客戶以及凱捷公司的保險公司定期進行審核。
審計標準
風險審計面臨的最大挑戰之一是所涉風險類別的多樣性。很難在一個標準下對所有這些風險進行審核,這意味著數據中心管理人員在進行審核時可能需要采用各種標準。
在考慮安全性時,ISO 27002標準涵蓋了信息安全管理的實踐守則。它對各種不同的方面進行規范,包括人力資源安全,物理和環境安全以及訪問控制。
支付卡行業數據安全標準(PCI-DSS)也涵蓋了信息安全,這是一個高度規范的標準,重點是數據中心信用卡數據的組織和保留。它涵蓋了安全網絡的建設和維護,漏洞的管理以及網絡和系統監控等。
對于處理政府部門信息的商業運營商而言,可能需要進行其他審核。在英國,List X是承包商處理政府數據的通常理解的安全許可系統,而在美國,Facility Clearance Levels是備選方案。
"從健康和安全的角度來看,許多數據中心運營商正在努力做到符合OHSAS18001的標準,OHSAS18001是國際公認的衛生和安全管理及相關系統標準。"Lovell補充說。
環境保護審核往往低于ISO14001標準。數據中心不妨考慮這種審計標準和環境風險,在現場儲存大量柴油來處理發電機的要求可采用這種標準。
利益相關者
Tenable網絡安全公司的技術總監Gavin Millard表示,在定義和降低風險方面,通常有多個利益相關者參與其中,該公司銷售旨在掃描網絡以進行安全威脅的軟件。他將利益相關者分為三個主要組織:安全團隊,運營團隊和業務部門。
問題是,并不是所有人都有相同的議程,他警告說:"正如許多組織發現的那樣,每個組織的目標和需求往往是相互沖突的,這就是為了減少每個特定組織的風險定義所需要的行動。"他說。
這些沖突看起來像什么?一個例子涉及軟件補丁。這是減少組織安全風險的最有效方法之一。2013年7月,澳大利亞安全部門發布了一系列減輕網絡入侵的策略。補丁操作系統是這些措施之一,補丁應用程序是另一個措施。該機構表示,與此同時,應用白名單和最小化管理權限將會消除85%的黑客攻擊。
問題在于,IT安全小組的重點是集中在消除攻擊者可能侵入的系統中的漏洞,從而可以減少數據泄露的風險。這需要它快速修補關鍵漏洞。相反,IT運營團隊需要盡量減少停機的風險,這意味著系統的任何更改必須進行結構化,計劃和控制。這可能會導致運營團隊要求不太頻繁的修補計劃來降低可用性風險。
企業的業務經理有自己獨立的議程:維持底線并達到其業績目標。所以他們只想要補丁部署,如果底線的利益超過完成工作的成本的話。
"相互沖突的目標可能難以解決,但這樣做的最有效的方法之一是有一個高效的過程,不斷識別風險所在,"Millard說,"用戶還需要一種可預測的,可靠的更新系統的方法,而不影響組織的總體業務目標。
那么有效管理風險就不僅僅是對數據中心的威脅進行評估,而且還包括團隊成員之間合作的意愿,以便所有的議程都能被愉快地容納。在某些情況下,這可能為新的工作實踐創造機會。
引入DevOps(開發/運營)學科來簡化開發,測試和部署之間的工作流程,可能有助于緩解諸如Millard所描述的緊張關系。
與IT中的大多數事情一樣,有效的風險管理和以技術為重點的流程一樣,也是以人為本的流程。使用標準化方法和審計可以幫助量化數據中心面臨的風險,并可能影響未來的預算。它總是有助于衡量數據中心必須管理的內容。