摘要:數(shù)據(jù)中心的測試驗證是業(yè)主對于數(shù)據(jù)中心建造質量進行確認的一個過程。近10年來,歐美的數(shù)據(jù)中心客戶已經把測試驗證作為數(shù)據(jù)中心工程質量管理的規(guī)定動作,國內近幾年建設的大型數(shù)據(jù)中心也都開始把測試驗證作為必須的要求。但相對起國外,行業(yè)人士預計還有80%的國內數(shù)據(jù)中心沒有聘用專業(yè)的第三方機構進行數(shù)據(jù)中心的測試驗證,這為數(shù)據(jù)中心的穩(wěn)健運行埋下了隱患。文中對數(shù)據(jù)中心測試驗證的對象、內容和測試儀器以及測試驗證常見問題和分析予以較詳盡的論述。
1 數(shù)據(jù)中心測試驗證概述
ASHRAE(美國采暖、制冷與空調工程師學會)對數(shù)據(jù)中心測試驗證的定義是:數(shù)據(jù)中心測試驗證是一個系統(tǒng)性的質量驗證過程。此過程驗證并記錄該數(shù)據(jù)中心設施作為一個整體及其所有的設備、子系統(tǒng)滿足用戶的設計目標和運行要求。
測試驗證處在數(shù)據(jù)中心建設和投產運行的關鍵的、承上啟下的節(jié)點。數(shù)據(jù)中心的規(guī)劃、設計、建設階段投資大、周期長,測試驗證是確保投資達到預期目標的最重要手段,可以看作是數(shù)據(jù)中心建設的終點。于此同時,測試驗證也是數(shù)據(jù)中心運行的起點,一個專業(yè)和完善的測試驗證可以極大地降低數(shù)據(jù)中心在其運行早期的故障率,并為其全生命周期的穩(wěn)健運行奠定基礎。
數(shù)據(jù)中心生命周期如圖1所示。
一個數(shù)據(jù)中心,無論前期的規(guī)劃、設計、建造階段投資多么巨大,工期多么漫長,它們的最終目的都是要數(shù)據(jù)中心在上線之后能夠持續(xù)穩(wěn)定運行,滿足用戶的運行要求。而在數(shù)據(jù)中心生命周期的任何階段,都有可能因為規(guī)劃的不合理、設計的失誤或者建造質量的不合格,產生諸多問題,影響到未來的正常運行。測試驗證的目標就是發(fā)現(xiàn)數(shù)據(jù)中心當前的問題(比如斷路器的線可能接反;線路標識不全;或者是電路接點沒有擰緊),并且提醒業(yè)主所有的單點故障點(供配電及制冷系統(tǒng)上可能引起系統(tǒng)中斷的點),為潛在的問題敲警鐘。
測試驗證所處的關鍵時間節(jié)點決定了它的重要價值。對于一個數(shù)據(jù)中心來說,測試驗證不僅是唯一驗證系統(tǒng)性能、測試設備極限負載能力、降低基礎設施設備早期故障率的機會,也是運維人員了解和實際接觸將來管理對象、驗證運維操作流程是否正確的過程,所以運維人員應該積極參與到測試驗證中,借此機會熟悉系統(tǒng)和設備,并為以后的運維工作積累實際操作和應急情況處理的經驗。
部分數(shù)據(jù)中心的建設者認為測試驗證與工程監(jiān)理、設備開機調試類似,是否還有必要將此過程單獨進行?其實工程監(jiān)理主要關注于工程的安全、進度、預算、材料質量的把控,現(xiàn)場人員比較少,一般只有1~2人,他們的專業(yè)多數(shù)是通而不精,也不需要專業(yè)的儀器,不能對機房整體輸出性能負責。設備開機調試由設備供應商進行,主要關注于單一設備的輸出指標達到供應商的投標承諾值,并且確保設備處于良好的狀態(tài),但設備調試不做故障的模擬,不對數(shù)據(jù)中心整體系統(tǒng)進行測試。而測試驗證與工程監(jiān)理相比較,主要關心最終的整體工程結果的性能符合設計要求和運行要求,現(xiàn)場人員多(大型項目10人左右),驗證人員為各專業(yè)的專家,借助大量專業(yè)儀器、假負載來驗證機房實際運行的效果;與設備開機調試相比較,測試驗證由第三方專業(yè)公司進行,關注單一設備的同時,更關注整體系統(tǒng)的性能是否符合設計要求和運行要求,并通過假負載模擬故障情況,檢驗系統(tǒng)的抗故障能力,設備調試只是測試驗證工作內容的一個重要組成部分。所以測試驗證的作用對于整個數(shù)據(jù)中心機房的建設和運行不可替代,應該成為每一個數(shù)據(jù)中心建設工程的標準流程。
2 確保測試驗證實施效果的關鍵因素
確保數(shù)據(jù)中心的驗證效果有三個關鍵因素:選擇一家專業(yè)的第三方驗證服務機構是確保高質量驗證結果的第一要素。美國綠色建筑委員會(USGBC)明確要求驗證機構應該是沒有參與數(shù)據(jù)中心項目設計和建造的獨立第三方機構。只有專業(yè)的第三方機構才能保證測試驗證結果的正確性和公正性,真正為業(yè)主負責,為機房未來的穩(wěn)健運行把關。
準備合理的預算是確保驗證效果的第二要素。專業(yè)和周密的測試驗證需要許多專家和測試工程師的介入,需要大量精密的測試儀器和假負載,模擬測試時需要耗電,柴油機測試需要耗油,這些都需要數(shù)據(jù)中心建設的項目管理者及早為測試驗證留足預算資金。
為測試驗證留出時間是確保驗證效果的第三要素。很多工程項目管理者往往因為建設工期緊、領導急于投產而沒有留出驗證的時間,這會為后期的安全運行埋下諸多隱患,所以要盡早準備驗證工作,為測試驗證留出時間。
3 測試驗證的內容
數(shù)據(jù)中心的規(guī)模越大、設計等級越高、設備配置越復雜,需要測試驗證的內容也就越多。測試驗證的內容可以按照實施的順序和驗證的對象兩種方式來劃分。
(1)按照實施的順序決定測試驗證的內容
測試驗證工作從建造階段就應該開始介入,直到數(shù)據(jù)中心上線之前結束,是機房上線運行前的最后一道工序。按照實施的順序,我們可以把測試驗證分為廠驗、到貨及安裝、功能元件測試、功能系統(tǒng)測試、系統(tǒng)聯(lián)調及故障模擬五個階段。
①廠驗
廠驗是在設備發(fā)貨之前,在設備原廠或者第三方的實驗室進行的設備運行和功率容量的基礎驗證。廠驗的對象是機房的主要設備,包括發(fā)電機、UPS、冷水機組、空調等。這些設備對機房整體系統(tǒng)有至關重要的影響,所以發(fā)貨前必須按照廠家或者行業(yè)標準的條件和步驟進行廠驗,目的就是驗證設備的性能參數(shù)符合招投標文件,功能滿足設計要求,避免設備發(fā)貨前就有無法彌補的缺陷。測試驗證的機構需要全程參加廠驗,測試報告由廠家提供,測試驗證團隊審核。
②到貨及安裝
測試驗證團隊應該在設備到達安裝現(xiàn)場時進行到貨檢查,檢查的對象包括發(fā)電機、UPS、冷水機組、空調等主要設備,檢查的目的是確認到貨設備與廠驗中的設備一致,無損壞無更換。
在主設備安裝完成后,測試驗證團隊需要對安裝質量進行檢查,確保設備的安裝滿足設計、組裝、使用、維護、人身安全和當?shù)胤ㄒ?guī)等要求。設備的安裝質量直接影響以后的運行穩(wěn)定性,很多設備故障都是由于安裝不合格引起的。比如在風冷空調的安裝過程中,如果安裝管路過長、落差過大就容易在運行中造成燒壓縮機的嚴重故障,所以安裝質量是測試驗證過程中非常需要關注的內容。
可以說廠驗、到貨及安裝檢查是測試驗證進入核心工作的必要前提。
③功能元件測試
測試驗證團隊需要在功能元件測試階段完成設備的性能測試和啟動測試,并驗證設備能夠在基礎負載下運行,這個階段是針對單體設備的測試驗證,是為后面的系統(tǒng)測試驗證做準備。
由于數(shù)據(jù)中心的設備非常繁雜,這個階段的測試驗證關鍵就是要保證核心設備和核心系統(tǒng)的每個鏈條上的元件和路徑都得到實際的測試和驗證。對于主要系統(tǒng)功能元件的測試驗證內容,將在按照驗證對象的劃分方式中詳述。
④功能系統(tǒng)測試
功能系統(tǒng)測試是針對由單體設備組成的子系統(tǒng)來進行的測試驗證工作。主要內容包括驗證子系統(tǒng)是否已經做好與其他系統(tǒng)聯(lián)合運行并支持數(shù)據(jù)中心運轉的準備;測試、調整制冷系統(tǒng),以保證風量和冷凍水流量滿足設計要求;分別在正常、維護和應急模式下,通過監(jiān)控系統(tǒng)驗證設定點、報警、功率數(shù)和性能狀態(tài)的反饋是否正確。
數(shù)據(jù)中心基礎設施中對于可用性及可靠性影響最大的子系統(tǒng)是供配電子系統(tǒng)。隨著數(shù)據(jù)中心熱密度的上升,空調系統(tǒng)的重要性也隨之上升。而安防監(jiān)控的參數(shù)設置可能影響以上兩個系統(tǒng)的動作,因此這三個子系統(tǒng)的測試驗證也是數(shù)據(jù)中心驗證的主要工作。
⑤系統(tǒng)聯(lián)調及故障模擬
系統(tǒng)聯(lián)調及故障模擬在測試驗證工作中是最后一個環(huán)節(jié),也是驗證數(shù)據(jù)中心機房作為一個整體能否滿足設計要求和運行要求的最主要手段。這個階段要求測試驗證機構對于機房的設計有深刻的理解,對于運行中可能出現(xiàn)的故障有豐富的經驗,對于應對特殊情況的回退措施有充分的準備,是保證驗證效果難度最大的階段。
系統(tǒng)聯(lián)調及故障模擬的主要工作包括驗證數(shù)據(jù)中心的各個子系統(tǒng)是否能在不同設計負載的條件下正常匹配運行;驗證各系統(tǒng)對不同動作、維護工作或者故障所做出的反應是否滿足設計和運行要求;驗證設備和系統(tǒng)對計劃內或者計劃外的事件所做出的反應。
(2)按照測試驗證的對象決定測試驗證的內容
數(shù)據(jù)中心基礎設施主要由電氣系統(tǒng)、暖通系統(tǒng)、安防與監(jiān)控系統(tǒng)、消防系統(tǒng)和裝飾裝修系統(tǒng)組成,測試驗證的工作內容按照驗證對象來劃分也需要映射到這五大系統(tǒng)中。另外將故障模擬單獨列出,其實這項內容是包含在各個子系統(tǒng)中的,但它們又具備一定的共性,所以單獨總結出來便于給讀者更清晰的概念。
①電氣系統(tǒng)
數(shù)據(jù)中心基礎設施的電氣系統(tǒng)不但承擔著保障IT設備電力供應和電能質量的任務,還要解決空調設備、機房照明、應急照明、消防、監(jiān)控等其他設備的用電問題,是基礎設施中最為重要的子系統(tǒng),也是為數(shù)據(jù)中心提供運行動力的基礎,所以對電氣系統(tǒng)的測試驗證工作尤為重要。
電氣系統(tǒng)的測試驗證工作主要是驗證電氣設備及相關元器件的性能和運行參數(shù)是否符合設計要求,驗證電氣系統(tǒng)是否能對設計負載提供穩(wěn)定、高質量的電力供應,驗證電氣系統(tǒng)作為一個整體是否能滿足運行要求并與其他系統(tǒng)匹配運行,驗證電氣系統(tǒng)在故障情況下是否能做出預期的反應并有一定的抗故障能力。電氣系統(tǒng)的測試驗證主要工作內容見表1。
②暖通系統(tǒng)
IT設備在運行過程中會產生大量的熱,數(shù)據(jù)中心暖通系統(tǒng)的任務就是消除這些熱量,營造一個適合IT設備運行的穩(wěn)定環(huán)境,對于該環(huán)境的要求主要包括溫度、濕度和潔凈度三方面。雖然暖通系統(tǒng)不直接作用于數(shù)據(jù)中心的產出(對IT業(yè)務的支撐),但卻是數(shù)據(jù)中心產出的重要保證,如果暖通系統(tǒng)不能正常工作,數(shù)據(jù)中心在短短幾分鐘可能就會陷入癱瘓,所以對暖通系統(tǒng)的測試驗證工作也是非常重要的。
暖通系統(tǒng)的測試驗證工作主要是驗證空調及相關設備的性能和運行參數(shù)是否符合設計要求,證暖通系統(tǒng)是否能滿足設計負載對制冷量的要求,驗證系統(tǒng)作為一個整體是否能滿足運行要求并與其他系統(tǒng)匹配運行,驗證系統(tǒng)在故障情況下是否能做出預期的反應并有一定的抗故障能力。有關暖通系統(tǒng)的測試驗證主要工作內容見表2。
③安防與監(jiān)控系統(tǒng)
安防系統(tǒng)是運用安全防范產品和其它相關產品所構成的入侵報警系統(tǒng)、視頻安防監(jiān)控系統(tǒng)、出入口控制系統(tǒng)、防爆安全檢查等的集成電子系統(tǒng)或網絡。監(jiān)控系統(tǒng)是對數(shù)據(jù)中心現(xiàn)場設備的工作狀態(tài)、運行參數(shù)、歷史數(shù)據(jù)等進行實時的監(jiān)控,完成強大的系統(tǒng)聯(lián)網管理功能,同時也是報警傳遞的第一途徑,對于運維人員及時發(fā)現(xiàn)故障、快速處理解決問題都有不可取代的作用。
安防與監(jiān)控系統(tǒng)的測試驗證工作主要是驗證系統(tǒng)相關設備的性能和運行參數(shù)是否符合設計要求,驗證系統(tǒng)作為一個整體是否能滿足運行要求并與其他系統(tǒng)匹配運行,驗證監(jiān)控系統(tǒng)是否能正確的反映被監(jiān)控設備的工作狀態(tài)、運行參數(shù)、歷史數(shù)據(jù),驗證安防系統(tǒng)是否能起到有效保障數(shù)據(jù)中心安全的目標。有關安防與監(jiān)控系統(tǒng)的測試驗證主要具體工作內容見表3。