什么是數據中心驗證
很多時候數據中心驗證往往跟數據中心的驗收概念是混淆在一塊兒的。寇海鷹先生聲明,從時間的節點上,驗證是在數據中心驗收之前的時間段,只有說經過了數據中心的驗證,相關的指標合格才能進行下一步數據中心的驗收的工作。傳統的數據中心的驗收往往只是側重于工程安裝質量、機房內部環境,以及單個設備、單個系統的測試工作,并不涉及到整體的通過模擬帶載的耐壓測試以及基于運維流程的整體的故障和災難預演的步驟。所以說驗證跟傳統驗收的差異化就在于,驗證提供了模擬化的真實的平臺,來測試和驗證數據中心所有的功能以及相關的指標,并實戰檢驗了運維流程。
很多時候用戶談到了數據中心的工程質量保證的時候通常都會認為這是總包的職責,但對于國內外的用戶來說工程承包商的職責往往只是按照圖紙、按照工程預算來完成設備的安裝以及相關設備的啟動工作。如果說從數據中心整體的可用性、可靠性的角度,需要他來進行保證的話,這就已經超出了他的職責所在。很多時候大家往往認為性能故障的處理工作應該是由用戶后期的運維團隊來負責的。所以這也就是目前國內很多的用戶的機電建設部門和運營部門存在矛盾的根本所在。而驗證可以起到的是中間糅合的作用,把建設部門和運維部門通過驗證這個工作協調在一塊兒,完成數據中心最終的高質量的共同交付。
對于一個全程的數據中心的驗證,往往在設計階段就必須要介入,需要對設計的意圖和設計中所采用的新的技術理念進行充分的溝通理解,從而針對性的定制驗證方案。所以,對于驗證來說,驗證團隊是需要設計單位、用戶的運維團隊以及工程承包商、供應商及驗證服務商全程參與。通過所有相關單位的參與,最終惠普制定出來的相關的驗證方案需要大家共同確認和認可。
而驗證其核心目標是檢驗設計的預期能否完全實現。設計預期實際上從技術角度來說往往會劃分為兩塊。第一塊是性能的驗證,性能的驗證往往側重于單個設備、單個系統。惠普通過專業機架式假負載的進行滿負荷的帶載模擬,同時會模擬不同容量的狀態變化,來確保所有的設備能夠支撐原來設計的預期。經過性能測試驗證,確保了單個設備、單個系統的可靠性以后,第二塊是功能驗證,核心是把數據中心作為一個整體來看,包括了風火水電,包括數據中心運維。惠普按照運維的流程,通過故障模擬和災難的預演檢驗運維的可操作性,將數據中心日后運行風險降至最低。同時通過整改驗證過程中發現的相關缺陷,來保證數據中心的高質量的交付。
為何要做驗證?對于大家很熟悉的日常場景,每天在高層的寫字樓大家的出入是依靠電梯,電梯把我們送到任何想去的樓層,但如果某一天電梯有故障停在半空中,不知道大家的心頭會不會有一些焦慮,會擔心這個電梯的安全性和相關的指標有沒有達到設計的要求。如果說眼前這部電梯是沒有通過安全檢測的話,你敢跨進去嗎?
回到數據中心驗證,它的核心一點是確保數據中心的可用性。數據中心的可用性實際上是基于用戶的業務部門的需求。業務部門如果說對業務的可用性提出了非常高的要求,比如說T4或者是T3的要求,用戶將會投入大量資金去建設相關高標準的數據中心,驗證通過科學的流程、手段,測試數據中心相關功能和性能,規避建設風險,可以最大程度上保護用戶的投資。
在工程驗證實施的眾多案例中,驗證往往變成了工程實施質量檢測的最終關卡。驗證通過新的技術和理念,在滿載的情況下可以發現很多問題,而這些問題在以往不帶載的情況下是無法發現的。如開關端接不牢靠,在大負荷負載情況下就有過熱,發生火災的隱患。
惠普的驗證需要用戶的運維團隊來全程參與處理的。驗證過程中,會通過的故障和災難預演來檢驗運維流程是否合理可行。如果用戶運維團隊全程參與了驗證工作,在這樣一個實戰平臺上進行了培訓和操演,當在今后的數據中心不斷擴展遇到類似的故障災難時可以從容地面對和處理。
一個全面的數據中心的驗證包括的內容
對用戶來說驗證首先需要要選擇一家合格以及專業的驗證服務商。對此惠普推出了五步法。
第一步是定制的測試驗證計劃。
第二步是目前國內用戶忽視工廠驗收測試。
第三步是運行前的檢查,也就是開機測試。
第四步是帶載環境下的功能測試。像UPS、柴油發電機、機房散熱系統等等,都是通過帶載的模擬環境進行的。
最后一個環節是讓用戶的數據中心建設團隊最有成就感的部分,就是數據中心的集成系統驗證。通過使用專業的機架式假負載搭建測試平臺,模擬不同的故障和災難來驗證數據中心整體的運營流程和設計能否滿足要求。
具體來講。測試計劃實際上是需要在設計中后期就必須要介入的。惠普關鍵設施服務部門會對用戶的設計從驗證和高效運維的角度提一些建議,對設計進行優化。同時在前期跟用戶的測試團隊、配合團隊以及各個實施單位清晰界定配合的工作界面,以及現場的資源準備,比如說風火水電是否齊備。最后一個環節惠普會制定專業的測試計劃,所有的測試計劃是需要所有的參與單位最終進行確認的。
第二個步驟是廠驗,設備在現場安裝前最終的質量檢測的環節,其核心一點是希望最大限度地減少設備安裝完以后發現的故障,導致對整個項目工期的延誤,這是其中的核心一點。
第三步是開機檢查,確保在進行功能和系統聯調之前設備是可用的。
第四步是功能測試,惠普方面會對柴油發電機、UPS系統模塊,機房內部的空調,各個散熱系統進行帶載的測試。其目的并不僅僅是測試單個系統的功能,同時會對冗余功能進行測試。測試的過程中驗證專家會利用專業儀器對數據中心現場的采集設備進行現場的數據校正,來保證采集數據的準確性。
在完成了第三和第四步驟之后,在工程實踐中往往會發現問題,因此根據驗證計劃往往會在第四步和系統集成測試中間預留一個時間段,幫助用戶進行相關的整改工作,確保進入最終、最有成就感的集成系統測試之前所有的設備都是可用的。
最后一個是集成系統驗證,第一點是把數據中心作為一個整體,來測試所有配合的系統,包括從最前端的高壓系統,到柴油發電機,到UPS,一直到制冷系統,以確保通過聯合測試來確認整體系統的可行性和可靠性。整體系統測試完畢以后,接下來是與運維息息相關的故障和災難的預演。針對運營流程惠普方面會針對不同的災難進行實戰的演練。在全程中,所有的操作是由用戶的運維團隊來操作的。驗證目標是希望在這個環節為用戶運維團隊提供一個實戰的平臺,在這個平臺上對今后所要使用的數據中心進行各種操作。這樣可以保證數據中心真正投入運營之后,運維團隊能夠進行高效率的運維。同時惠普會對監控系統平臺進行響應測試。
對于驗證來說,會涉及到眾多的電氣、機械、控制系統,所有的專業系統測試都需要使用一些高精度的測試儀器和軟件分析工具。為更好的搭建一個接近實際使用環境的測試平臺,需要使用專業的機架式假負載來模擬IT設備。為了避免根據經驗判斷,保證測試報告的科學性、完整性和公正性,需要專業的測試儀器和分析軟件支撐。
同樣惠普的驗證是需要在不同的階段介入,包括在設計階段、方案準備階段、測試實施階段等等。惠普驗證團隊通過跟用戶團隊的整體的配合,最終交付一個數據中心基礎設施運維操作手冊。
成功的驗證對用戶的價值所在,首先是確保用戶在投入了幾千萬、上億甚至是十幾億的數據中心最終交付的可用性,保護用戶的投資。可以識別風險、鑒別風險、解決風險,從而降低數據中心投入運行后的整體故障率。另外是通過驗證過程中的實戰演練來改善用戶員工培訓的效率。同時通過優化用戶運維手冊,提高運維的水平。核心的一點,驗證的投入將會遠遠小于用戶今后數據中心運行當中出現故障導致設備宕機而遭受的損失。
寇海鷹先生提供給廣大的用戶的幾點建議
第一,驗證必須要確保安全,包括個人安全和設備的安全。
第二,數據中心的功能復雜程度相比于傳統的商業建筑復雜數十倍,所以驗證計劃必須在設計階段進行完善。相關的驗證計劃必須詳細地體現設計的意圖。
第三,在時間預算上,在前期給用戶在時間和整體項目進度上預留一些時間進行整改的工作。
第四,全程參與的并不僅僅是驗證服務商,包括了用戶建設團隊、運營團隊、設計團隊、施工方以及設備供貨商等。
在溝通會的最后,寇海鷹還分享了幾個成功的數據中心驗證案例。不管從設備本身還是從安裝質量和運維流程方面,惠普幫助用戶發現了很多的問題,所有的問題發現了以后,用戶對所有的設備以及流程進行整改和優化,保證設備投入運行以后穩定可靠地支撐用戶的業務和發展。
數據中心驗證,惠普方面認為,核心的一點就是確保數據中心整體的可用性,并使用戶業務走向成功。