前言
苦!苦!苦!
IT運(yùn)維的苦,不是兩三把頭發(fā)就能數(shù)完的。
要數(shù),怎么也得四把。
IT運(yùn)維苦低效久矣。
運(yùn)維江湖,一口大鍋爐,吞掉了攻城獅們的頭發(fā)、視力和休息。
機(jī)械重復(fù)+手工操作,費(fèi)時(shí)費(fèi)力?——正常!
24點(diǎn)以后通宵加班,眼紅頭頂禿?——大家都這樣!
忙得腳不沾地,沒(méi)時(shí)間洗澡?——要習(xí)慣!
設(shè)備成倍增長(zhǎng),人手原地踏步;公司強(qiáng)勢(shì)擴(kuò)張,運(yùn)維人加班買(mǎi)單;準(zhǔn)點(diǎn)下班就是放假,聽(tīng)到設(shè)備上新就會(huì)頭皮發(fā)麻——IT運(yùn)維苦低效久矣。
直到一對(duì)大俠橫空出世,這種積弊才得到改進(jìn)。
欲知大俠何許人也,請(qǐng)欣賞短劇《A君的救贖》。
01第一幕
服務(wù)器監(jiān)控也可以很輕松
這天,A君著手服務(wù)器故障排查,他抱著筆記本在機(jī)房里巡視,穿過(guò)一排排機(jī)柜,靠肉眼尋找故障燈,然后連接鍵盤(pán)顯示器定位服務(wù)器故障——這個(gè)過(guò)程相當(dāng)耗時(shí),而且很容易漏掉目標(biāo),由于服務(wù)器故障排查不到位結(jié)果釀成大損失的情況發(fā)生過(guò)不少次。
A君揉揉發(fā)紅的雙眼,仰天長(zhǎng)嘯:怎么才能提高服務(wù)器監(jiān)控效率啊!
“嘭”地一聲,大俠來(lái)了!
·
戴爾易安信iDRAC,一對(duì)一管理單臺(tái)服務(wù)器;
· 戴爾易安信OME(OpenManageEnterprise),提供多臺(tái)
服務(wù)器監(jiān)控、(固件)升級(jí)、部署等服務(wù)以及Restful API接口。它可以跟iDRAC協(xié)同合作,進(jìn)行大規(guī)模服務(wù)器管理。
兩位大俠出手相助之后,情況就此改觀。
使用了iDRAC和OME,A君可以直接在OME的管理界面上看到被監(jiān)管服務(wù)器的運(yùn)行狀況。iDRAC提供SupportAssist功能,能夠以帶外方式在iDRAC圖形界面上直接收集被監(jiān)控服務(wù)器的日志與配置信息,而不需要對(duì)服務(wù)器/操作系統(tǒng)端做任何設(shè)置,真正實(shí)現(xiàn)免代理監(jiān)控。
此外,要了解某一臺(tái)服務(wù)器的詳細(xì)信息,A君只需點(diǎn)擊某一臺(tái)服務(wù)器的Name鏈接,便可進(jìn)入該服務(wù)器詳細(xì)管理界面:
還可以快速查詢服務(wù)器大部分備件的詳細(xì)信息:
這是一臺(tái)更換過(guò)內(nèi)存條的服務(wù)器,從圖中可以看到該服務(wù)器配置的內(nèi)存均為單一品牌,沒(méi)有出現(xiàn)混插現(xiàn)象。
工作過(guò)程中,有感于電腦端監(jiān)控平臺(tái)的不便,A君又采用了戴爾易安信基于移動(dòng)端的軟件OMM(OpenManage® Mobile)。
監(jiān)控服務(wù)器時(shí),iDRAC將產(chǎn)生的告警信息推送到OME平臺(tái)上,OME平臺(tái)可以將告警信息繼續(xù)推送到下一級(jí)平臺(tái)(比如用戶已有的統(tǒng)一監(jiān)控平臺(tái)),或者用戶安裝了OMM軟件的手機(jī)、平板等移動(dòng)平臺(tái)上。
以前,如果有多臺(tái)服務(wù)器發(fā)生故障,A君需要在機(jī)房和OME監(jiān)控平臺(tái)之間往返多次。
如今,用了戴爾易安信基于移動(dòng)端的軟件OMM(OpenManage® Mobile),A君可以攜帶移動(dòng)端進(jìn)入機(jī)房,而不必每次都從機(jī)房返回OME平臺(tái)前查看結(jié)果。
利用OMM,A君可以直接在手機(jī)上監(jiān)控服務(wù)器狀態(tài)。如果公司策略允許,A君甚至能在家里或路上接收告警信息,真正做到早發(fā)現(xiàn)早處理,避免將小故障拖成大事故,由此大大提高了運(yùn)維工作的SLA水平。
A君說(shuō)自己的手機(jī)不能加入企業(yè)網(wǎng),倒是可以試著申請(qǐng)個(gè)iPAD作為專有服務(wù)器監(jiān)控工具給自己使用。
02第二幕
摒棄手工操作,(固件)升級(jí)自動(dòng)化
前天晚上,公司接到了戴爾易安信TAM(Technical Account Manager)發(fā)來(lái)的信息,建議用戶立即將某一批服務(wù)器的固件升級(jí)到某個(gè)版本之上。
這個(gè)任務(wù)落到了A君頭上。
據(jù)統(tǒng)計(jì),要升級(jí)的服務(wù)器足足有三四十臺(tái)之多。升級(jí)固件是純手工操作,A君面對(duì)巨大工作量只得發(fā)揚(yáng)艱苦奮斗精神,通宵加班完成工作。
不過(guò)還沒(méi)完。
手工升級(jí)比不得自動(dòng)化,是否會(huì)有升級(jí)不成功或遺漏的情況?
A君對(duì)此表示:“沒(méi)有記錄,后半夜實(shí)在太累了,來(lái)不及統(tǒng)計(jì)了。先上線吧,等業(yè)務(wù)那邊發(fā)現(xiàn)問(wèn)題再說(shuō)。”
“嘭”地一聲,大俠來(lái)了。
通過(guò)戴爾易安信提供的OME軟件,A君可以自行定義服務(wù)器固件基線,并通過(guò)簡(jiǎn)單操作,完成大批量服務(wù)器的固件升級(jí)工作。
OME配置項(xiàng)下的固件升級(jí)界面:
如圖,用戶可以定義固件基線,然后點(diǎn)擊“查看報(bào)告”,對(duì)被篩選出來(lái)并選中的服務(wù)器進(jìn)行固件升級(jí):
A君抓抓稀疏的頭發(fā),揉揉眼睛說(shuō)道:“好是好,不過(guò)這是不是也是得等到24:00以后才能操作?”
當(dāng)然不用了!你可以預(yù)約呀!
OME提供“Schedule Update”選項(xiàng),可以預(yù)約升級(jí)固件時(shí)間。
(固件)升級(jí)再也不用等到24點(diǎn)了,下班時(shí)在OME上簡(jiǎn)單點(diǎn)擊幾下,提交job后人就可以走了,OME會(huì)在24點(diǎn)自動(dòng)執(zhí)行升級(jí)工作。
第二天,A君通過(guò)OME/OMM軟件檢查服務(wù)器升級(jí)情況,看看是否有“漏網(wǎng)之魚(yú)”。
當(dāng)然,大部分服務(wù)器應(yīng)該都能夠正常完成升級(jí)工作,不過(guò)也不排除有少數(shù)升級(jí)失敗的情況。對(duì)此不必費(fèi)勁找或者等業(yè)務(wù)上線后發(fā)現(xiàn),所有升級(jí)記錄都會(huì)被OME保存下來(lái),若存在失敗情況,A君只需按圖索驥,再進(jìn)行一次升級(jí)即可。
這種利用軟件工具實(shí)施多臺(tái)服務(wù)器升級(jí)、部署的方式,能夠避免手工部署中的人為差錯(cuò),確保服務(wù)器部署的一致性,從而保證服務(wù)器上線前的質(zhì)量。
03第三幕
人工部署一頭亂麻?試試自動(dòng)化吧
P.s 盡管戴爾易安信服務(wù)器出廠時(shí)已經(jīng)按照企業(yè)的要求對(duì)BIOS做了設(shè)置,公司的IT領(lǐng)導(dǎo)還是要求運(yùn)維人員對(duì)這些服務(wù)器的BIOS設(shè)置做出修改。
這批服務(wù)器數(shù)量不少,A君在機(jī)房干了整整一天,才按時(shí)完成了任務(wù)。
終于結(jié)束了,A君長(zhǎng)吁一口氣,在機(jī)房門(mén)口又是揉腰,又是“嘎嘣,嘎嘣”扭脖子,“嘭”地一聲,大俠來(lái)了。
OME提供部署功能,用戶可以通過(guò)OME完成諸如BIOS/iDRAC/NIC等服務(wù)器設(shè)置工作:
現(xiàn)在,同樣修改服務(wù)器BIOS設(shè)置的工作,A君不必在機(jī)房“吭哧吭哧”埋頭苦干一天,而是可以先設(shè)置好將一臺(tái)服務(wù)器的BIOS,然后使用OME將該機(jī)抓取為模板,再將模板部署到所有等待部署的服務(wù)器上去,這樣任務(wù)就完成了。
具體操作時(shí),A君只需下班時(shí)在OME上簡(jiǎn)單點(diǎn)擊幾下,預(yù)約部署時(shí)間為24點(diǎn),提交任務(wù)即可正點(diǎn)下班。第二天來(lái)查看部署情況,對(duì)少數(shù)“漏網(wǎng)之魚(yú)”再次部署即可。
對(duì)此,A君給出評(píng)價(jià):以前手工改服務(wù)器配置,機(jī)器一多就亂了。現(xiàn)在有了OME,真是能解決大問(wèn)題。
04第四幕
自動(dòng)化運(yùn)維,還有很多東西可以學(xué)習(xí)
這天,A君打開(kāi)了戴爾易安信的網(wǎng)站,一邊看電腦一邊在本子上記著東西。
同事問(wèn)道:“你在干什么呢?”
A君:“學(xué)習(xí)呀,我了解到,戴爾易安信目前是提供服務(wù)器Restful API方面最積極的廠商。不論是服務(wù)器管理卡iDRAC還是OME軟件,他們都有提供豐富的Restful API接口。”
同事:“你在學(xué)習(xí)Restful API?”
A君:“是啊,Restful API采用https協(xié)議,輸出格式為JSON,無(wú)需轉(zhuǎn)化即可很方便地被第三方軟件集成。又很多用戶采用戴爾易安信Restful API 與Zabbix軟件集成,打造自己的現(xiàn)代化監(jiān)控的平臺(tái),我也得學(xué)習(xí)學(xué)習(xí)。”
筆者:“有資源嗎?”
A君:“要不說(shuō)戴爾易安信很棒呢,戴爾易安信提供了豐富的Python腳本供用戶調(diào)用,來(lái)打造自己的現(xiàn)代化監(jiān)控平臺(tái),而且也在網(wǎng)站上放了Restful API知識(shí)呢,這就是鏈接。”
1.Python腳本,用戶可移步以下鏈接下載:
https://github.com/dell/OpenManage-Enterprisehttps://github.com/dell/iDRAC-Redfish-Scripting
2.更多戴爾易安信Restful API知識(shí),可至以下鏈接了解更多:
https://www.dell.com/support/article/us/en/19/sln310624/redfish?lang=en
戴爾易安信RestfulAPI知識(shí)庫(kù)截圖
同事:“哇,這個(gè)不錯(cuò)。”
A君:“是啊,服務(wù)器數(shù)量與日俱增,傳統(tǒng)的IT運(yùn)維人員和IT運(yùn)維方式壓力山大,咱們這些IT運(yùn)維工程師要盡快掌握更多IT管理工具,提高自己的技能和IT運(yùn)維水平,才能更好地適應(yīng)企業(yè)發(fā)展,才能不被時(shí)代淘汰,而且我們慢慢掌握運(yùn)維工具,將它們熟練運(yùn)用到大規(guī)模服務(wù)器管理的過(guò)程中的同時(shí),也提高了自身的價(jià)值。”
同事:“加油,一起努力吧!”