數(shù)據(jù)中心空調(diào)系統(tǒng)一般不會(huì)在深冬出現(xiàn)故障——墨菲定律再次證明,此類(lèi)故障往往發(fā)生在炎熱的夏季。無(wú)論冷卻系統(tǒng)何時(shí)中斷,數(shù)據(jù)中心都將經(jīng)歷升溫過(guò)程,可能威脅到服務(wù)器與其他設(shè)備。如果冷卻能力已達(dá)臨界值,以至于無(wú)法關(guān)閉其中某個(gè)單機(jī)房空調(diào)單元(CRAC)來(lái)進(jìn)行維護(hù)時(shí),你正走在布滿(mǎn)危機(jī)的道路上!本章將介紹關(guān)于維護(hù)CRAC的一些最佳實(shí)踐。在我們深入此文之前,請(qǐng)注意一點(diǎn),所有類(lèi)型的機(jī)房空調(diào)都被稱(chēng)為CRAC,但從專(zhuān)業(yè)角度來(lái)說(shuō),冷卻水機(jī)組算是機(jī)房空氣處理器(CRAH)。
不要為冷卻模塊留下遺憾
冷卻模塊一直都是現(xiàn)代數(shù)據(jù)中心十分關(guān)鍵的一部分,而如何維護(hù)用來(lái)實(shí)現(xiàn)冷卻的CRAC單元?jiǎng)t更是重中之重。在冷卻設(shè)備上的巨額投資,以及維持設(shè)施所需的計(jì)算機(jī)控制資源,都應(yīng)該確保與預(yù)防故障產(chǎn)生,但事實(shí)上并非如此。最近我們?yōu)榱俗非竽茉蠢寐识噲D將每件物品劃分至“合適大小”,這將使得每個(gè)設(shè)備都更明確并減少故障率。盡管如此,設(shè)備增加都有自己的界限范圍,大家也對(duì)需要關(guān)閉設(shè)備才能進(jìn)行的預(yù)防性維護(hù)存有顧慮。更糟糕的是,維護(hù)合同通常被視為過(guò)于昂貴,甚至若干年后的費(fèi)用總和可以用來(lái)更換一套全新的CRAC單元。另外,CRAC服務(wù)通常是設(shè)施相關(guān)人員進(jìn)行操作,沒(méi)有檢查清單說(shuō)明哪些內(nèi)容需要確認(rèn),調(diào)整或替換,也沒(méi)有檢測(cè)周期。簡(jiǎn)而言之,與相對(duì)簡(jiǎn)單的維護(hù)電話(huà)不同,如果沒(méi)有完善的預(yù)防性措施或完全沒(méi)有進(jìn)行維護(hù),冷卻失效可能成為主要維護(hù)關(guān)機(jī)的故障源。
警惕故意冷卻關(guān)機(jī)的設(shè)置
讓我們首先糾正對(duì)短期內(nèi)溫度升高的過(guò)度關(guān)注。ASHRAE TC 9.9在2008年擴(kuò)大了溫度限定范圍,確定設(shè)備可以在27攝氏度(80.6華氏度)的環(huán)境下正常工作,而且可以在32攝氏度(89.6華氏度)的情況下持續(xù)工作數(shù)天,不影響設(shè)備或保修情況。這些參數(shù)已經(jīng)被所有主要硬件制造商所接受。盡管如此,大部門(mén)數(shù)據(jù)中心依舊將冷卻設(shè)置為比實(shí)際需求還要低的溫度上。事實(shí)上,即使冷卻機(jī)組已經(jīng)達(dá)到臨界或沒(méi)有冗余設(shè)備,獨(dú)立的CRAC單元依舊可以被關(guān)閉數(shù)小時(shí)來(lái)進(jìn)行完善的預(yù)防性維護(hù),這不會(huì)使數(shù)據(jù)中心溫度超出限制。在某天關(guān)閉冷卻系統(tǒng)幾小時(shí)不會(huì)使整個(gè)數(shù)據(jù)中心溫度發(fā)生急劇變化,這遠(yuǎn)比因故障失去整個(gè)CRAC單元而在一年中最熱的時(shí)候讓機(jī)房運(yùn)行在沒(méi)有空調(diào)的情況下,持續(xù)數(shù)日甚至數(shù)周要強(qiáng)得多。ASHRAE同樣定義了“溫度升高比例”限制,我們會(huì)在其他篇章中介紹。如果維護(hù)關(guān)機(jī)使得溫度上升速度高于A(yíng)SHARE建議值,此跡象說(shuō)明你需要考慮進(jìn)行專(zhuān)業(yè)的冷卻評(píng)估。
當(dāng)我們討論運(yùn)行參數(shù)時(shí),不可忘記冷卻維護(hù)中最容易被忽視的項(xiàng)目--設(shè)置點(diǎn)。所有的空調(diào)都應(yīng)該進(jìn)行檢查以確認(rèn)它們保持著相同的溫度與濕度級(jí)別,當(dāng)然如果所有設(shè)備可以直接顯示相關(guān)讀數(shù),那就更好了。如果各單元的設(shè)置點(diǎn)不同,那么空調(diào)可能互相競(jìng)爭(zhēng),耗費(fèi)大量能源實(shí)際卻降低了制冷效果。根據(jù)實(shí)驗(yàn)結(jié)果調(diào)整傳感器放置位置同樣可以幫助實(shí)現(xiàn)統(tǒng)一控制的效果。一個(gè)通常被忽略的事實(shí)是,工廠(chǎng)的地點(diǎn)不一定是最好的。隨著時(shí)間推移,溫度或濕度同樣會(huì)因?yàn)閭鞲衅鞴收匣蛟O(shè)備安裝模式變化而有所變化,這使得單元無(wú)法有效維護(hù)良好的環(huán)境。可以考慮根據(jù)ASHARE的指導(dǎo)手冊(cè)來(lái)增加設(shè)置點(diǎn),但需要確保可根據(jù)ASHARE限制來(lái)調(diào)整服務(wù)器進(jìn)口溫度,保證其不超出進(jìn)氣口最高溫度限制。這樣可以提升冷卻效率并降低空調(diào)設(shè)備損耗。
CRAC單元維護(hù)因包括哪些方面
維護(hù)CRAC單元最重要的任務(wù)便是更換過(guò)濾器。臟過(guò)濾器會(huì)增加電機(jī)負(fù)擔(dān)并降低冷卻能力。如果過(guò)濾器在替換時(shí)發(fā)現(xiàn)比預(yù)期的還要臟,那么因該從源頭查找問(wèn)題原因。灰塵顆粒同樣會(huì)堆積在計(jì)算機(jī)硬件過(guò)濾器或散熱片上,提高內(nèi)部溫度。最常見(jiàn)的污染源是在數(shù)據(jù)中心內(nèi)存儲(chǔ)物品或?qū)ο渥舆M(jìn)行拆封,此類(lèi)行為是絕對(duì)不允許在數(shù)據(jù)中心內(nèi)操作的。
機(jī)械設(shè)備養(yǎng)護(hù)
需要養(yǎng)護(hù)的機(jī)械設(shè)備取決于所選CRAC單元的類(lèi)型,但如果有涉及到皮帶,它們的松緊需要調(diào)整至適當(dāng)程度。皮帶伸展長(zhǎng)度與與出廠(chǎng)參數(shù)需要維護(hù)。設(shè)置過(guò)緊會(huì)導(dǎo)致皮帶與軸承承擔(dān)不必要的負(fù)擔(dān),而設(shè)置過(guò)松會(huì)導(dǎo)致滑動(dòng)并降低性能。自動(dòng)張緊皮帶已經(jīng)問(wèn)世5年多了,但逐年替換其他皮帶可能是比較好的經(jīng)驗(yàn)法則。在任何情況下,應(yīng)該根據(jù)產(chǎn)商建議的期限更換皮帶,及時(shí)它們看起來(lái)還工作的很好。檢查電機(jī)支架與滑輪組松緊程度同樣重要。當(dāng)然做任何事情,加些潤(rùn)滑油總是有好處的,但需要注意不要因添加過(guò)度而引起漏油或飛濺。干凈的機(jī)械系統(tǒng)通常會(huì)運(yùn)行的比較穩(wěn)定與持久。
經(jīng)常被忽視的問(wèn)題還包括異常聲響。運(yùn)維人員應(yīng)當(dāng)注意聲音變化情況,此種變化可能是對(duì)某些問(wèn)題的告警,雖然此種變化可能是間歇性或緩慢持續(xù),但應(yīng)加以重視,形成習(xí)慣。維護(hù)技術(shù)可能無(wú)法發(fā)現(xiàn)此類(lèi)問(wèn)題,但也不能因此而忽略,它們通常都是大麻煩的前兆。
制冷水平的重要性,電氣測(cè)試
直接膨脹(DX)單元的制冷水平每年因至少檢查一次。制冷水平下降可能意味著泄漏,需要立即發(fā)現(xiàn)并修復(fù)。水冷型空調(diào)(CRAH)單元的比例閥需要定期檢測(cè)以保障控制與操作。
確保冷凝排水管沒(méi)有被堵塞以及冷凝泵工作正常同樣十分好總要。根據(jù)實(shí)際情況,冷凝可能不會(huì)持續(xù)形成數(shù)月,這意味著水泵處于空閑狀態(tài),系統(tǒng)一直處于缺水狀態(tài)。這時(shí)候因該引入水以保證系統(tǒng)正常運(yùn)作。
濕度同樣需要經(jīng)常檢查。蒸汽灌可能需要更換,也可能紅外加濕器已經(jīng)積累了一定厚度的水垢需要清洗。如果沒(méi)有定期更換凈水過(guò)濾器,超聲波加濕器同樣也可能被堵塞。需要注意,加濕器的服務(wù)周期與水質(zhì)條件有很大關(guān)系。水質(zhì)分析可以幫助確定部件更換的周期與頻率。
另一個(gè)經(jīng)常被忽視的內(nèi)容是電器測(cè)試。僅因?yàn)镃RAC單元正在運(yùn)行,并不意味著一切正常。因該持續(xù)記錄不同組件的電流狀況(安培)。電機(jī)的轉(zhuǎn)數(shù)與電流讀數(shù)同樣應(yīng)該對(duì)照著進(jìn)行記錄。不斷變化的電流趨勢(shì)或者電機(jī)減速,都很可能意味著引發(fā)更深層次的問(wèn)題。在讀取能耗數(shù)據(jù)之前必須先檢查電源連接的緊湊程度。鉗夾式測(cè)量器可能移動(dòng)線(xiàn)纜,或讓如火警感應(yīng)線(xiàn)等連接松動(dòng),進(jìn)而導(dǎo)致整個(gè)數(shù)據(jù)中心斷電。空調(diào)電源線(xiàn)連接狀況應(yīng)該是年度熱紅外掃描所有用電系統(tǒng)中的一部分。
為外部維護(hù)留出時(shí)間
對(duì)冷卻裝置的外部部件進(jìn)行維護(hù)(冷水機(jī)組、水泵、冷卻塔及閥門(mén))是一項(xiàng)大工程,相關(guān)內(nèi)容已經(jīng)超出本片介紹范圍,而且IT工程師對(duì)此方面知識(shí)也知之甚少。但何時(shí)關(guān)閉這些設(shè)備,需要與IT人員協(xié)商一致,尤其在沒(méi)有冗余設(shè)施的情況下,因?yàn)橄嚓P(guān)活動(dòng)可能會(huì)影響到整個(gè)數(shù)據(jù)中心的冷卻計(jì)劃。設(shè)施工作人員通常對(duì)這些大型部件的維護(hù)需求十分重視,但通常會(huì)忽略手動(dòng)閥門(mén)操作。關(guān)閉與旁通閥可能已經(jīng)多年沒(méi)有使用,通常都設(shè)置于戶(hù)外。閥門(mén)故障通常是因?yàn)楦g,甚至可能讓閥門(mén)無(wú)法正常操作。它們要從外部進(jìn)行清理,如果有必要,還可以從外部進(jìn)行保護(hù)并安排周期維護(hù)工作,確保它們?cè)谛枰獣r(shí)可以正常使用。如果有必要,更換作業(yè)可以安排在對(duì)數(shù)據(jù)中心影響最小的時(shí)候進(jìn)行。
簡(jiǎn)而言之,供應(yīng)商所提供的維護(hù)合同是十分值得考慮的,他們可以提供月度、季度、半年和周年的維護(hù)服務(wù)。對(duì)幾乎所有數(shù)據(jù)中心而言,維護(hù)響應(yīng)時(shí)間8小時(shí),覆蓋周期5天已經(jīng)足夠(即8/5維護(hù)級(jí)別)。幾天內(nèi)的氣溫上升所能產(chǎn)生的實(shí)際影響并不會(huì)太大,這樣可以節(jié)省選擇24/7維護(hù)級(jí)別的額外開(kāi)支。如果是設(shè)施內(nèi)部或第三方進(jìn)行維護(hù)服務(wù),他們應(yīng)該嚴(yán)格根據(jù)制造商的維護(hù)程序進(jìn)行操作。不管是誰(shuí)負(fù)責(zé),IT運(yùn)維因該在接到維護(hù)電話(huà)時(shí)保持跟蹤,對(duì)相關(guān)文檔進(jìn)行備份,記錄發(fā)現(xiàn)的問(wèn)題以及解決方法,記錄預(yù)防性維護(hù)所進(jìn)行的工作內(nèi)容,確保結(jié)果與期望的一致,這樣的預(yù)防性維護(hù)工作才是徹底和完整的。