數(shù)據(jù)中心的穩(wěn)定運(yùn)行離不開數(shù)據(jù)中心的運(yùn)維人員,而數(shù)據(jù)中心運(yùn)維的工作涉及到方方面面,它不同于其它的運(yùn)維,處理的問題都是比較專業(yè)的問題。在很多的公司都是將服務(wù)器和設(shè)備托管到專門的數(shù)據(jù)中心機(jī)房讓專業(yè)的人士進(jìn)行維護(hù),只有一些技術(shù)實(shí)力比較強(qiáng)的大公司才建設(shè)有自己的數(shù)據(jù)中心。如今的信息技術(shù)更新得很快,什么大數(shù)據(jù)、云計(jì)算、虛擬化、綠色數(shù)據(jù)中心等等新技術(shù)層出不窮,各種設(shè)備的CPU、內(nèi)存、轉(zhuǎn)發(fā)芯片等也都在不斷地發(fā)展。從單核CPU到多核、四核、八核、十六核、三十二核,網(wǎng)絡(luò)單端口帶寬從10M、100M、1G、10G、100G,這些技術(shù)的進(jìn)步給數(shù)據(jù)中心帶來了高速的信息處理能力,但是也讓這個(gè)數(shù)據(jù)中心的系統(tǒng)變得異常復(fù)雜,傳統(tǒng)的數(shù)據(jù)中心運(yùn)維技能已經(jīng)難以適應(yīng)信息高速發(fā)展的需要了,需要我們?nèi)ゲ粩鄬W(xué)習(xí),提升自己,才能在未來的數(shù)據(jù)中心里,將運(yùn)維的工作開展好。下面將結(jié)合一些實(shí)際工作經(jīng)驗(yàn)講述提升運(yùn)維技能的一些方法。
數(shù)據(jù)中心是一個(gè)復(fù)雜的信息處理系統(tǒng),包括系統(tǒng)、網(wǎng)絡(luò)、存儲、協(xié)議、需求、開發(fā)、測試、安全、空調(diào)、供電、監(jiān)控等多個(gè)環(huán)節(jié),運(yùn)維的工作就是要包含到所有這些方面,可見運(yùn)維的工作是一個(gè)集多IT工種技能于一身的崗位。然而這里說的每一個(gè)部分都需要多種技術(shù)學(xué)科的支撐,比如系統(tǒng)可能有Linux、Windows的,應(yīng)用有LVS、HA、Web Server、DB、中間件,網(wǎng)絡(luò)就更復(fù)雜了,各種二三層協(xié)議,虛擬化,環(huán)路協(xié)議,路由協(xié)議等等。這么多的技術(shù)不可能每個(gè)人都精通,不可否認(rèn)可能有這種全面精通的人存在,但人的精力畢竟是有限的,要有所得也要有所失。首先是溝通能力、團(tuán)隊(duì)協(xié)作。運(yùn)維的工作涉及跨部門、跨工種特別多,這樣運(yùn)維的人員需要善于溝通,團(tuán)隊(duì)協(xié)議能力要強(qiáng),這樣在處理問題時(shí),可以充分調(diào)用各種資源和技術(shù)力量,迅速解決問題。對于數(shù)據(jù)中心時(shí)間就是利潤,流量就是金錢,一年365天要保持?jǐn)?shù)據(jù)中心的穩(wěn)定運(yùn)行,不出故障或者少出故障才行。當(dāng)業(yè)務(wù)部門反饋有故障時(shí),根據(jù)反饋的故障現(xiàn)象迅速鎖定故障點(diǎn),然后集中資源解決,這其中需要大量的溝通,有效的溝通將為排除故障節(jié)省下來大量時(shí)間。其次是運(yùn)維工作要膽大心細(xì)。膽大才能創(chuàng)新,不走尋常路。即使數(shù)據(jù)中心再小,它也有自己的特點(diǎn),充分利用它的優(yōu)勢,才能發(fā)揮出數(shù)據(jù)中心最大的效能。數(shù)據(jù)中心本來就是一個(gè)技術(shù)更新很快的領(lǐng)域,愿意接受新事物,大膽引入先進(jìn)運(yùn)維的技術(shù)將可以大大提升數(shù)據(jù)中心的工作效率。再次是做好日常監(jiān)控工作,一個(gè)健壯的身體離不開每天的觀察,我們需要時(shí)時(shí)刻刻觀察我們的數(shù)據(jù)中心,看看數(shù)據(jù)中心發(fā)生的細(xì)小問題。每天都要對數(shù)據(jù)中心的所有方面運(yùn)行參數(shù)進(jìn)行全面檢查和記錄,慢慢地就會對數(shù)據(jù)中心運(yùn)行狀態(tài)有了掌握,當(dāng)某些參數(shù)變化時(shí)及時(shí)做應(yīng)對之策。比如設(shè)備運(yùn)行的CPU占用率,平時(shí)監(jiān)控所有設(shè)備CPU占用率都在30%左右,突然有一天幾臺設(shè)備的CPU占用率無緣無故升到了60%,這就需要進(jìn)一步檢查升高的原因,直到消除掉為止。如果沒有這些平日里的統(tǒng)計(jì)記錄,這樣的參數(shù)變化就不會引起人們的注意,故障遲早會到來。第四做好統(tǒng)計(jì)工作。一般的數(shù)據(jù)中心都擁有上千臺的服務(wù)器設(shè)備,還有其它不少的電子設(shè)備,要做好統(tǒng)計(jì)工作。比如服務(wù)器多少臺,都處于什么位置,都和網(wǎng)絡(luò)設(shè)備如何互連的,每臺設(shè)備的配置,應(yīng)用的特性等等,這些統(tǒng)計(jì)工作馬虎不得,都關(guān)系著數(shù)十萬設(shè)備的物理安全。在平日接觸到的運(yùn)維人員讓我們感受到不同的人員對自己數(shù)據(jù)中心的了解差異是非常大的,有的人可以對詢問的某個(gè)網(wǎng)段IP給什么應(yīng)用使用脫口而出,而有的人卻對詢問的服務(wù)器放在哪個(gè)機(jī)架上都一無所知,當(dāng)遇到問題或者進(jìn)行數(shù)據(jù)中心變更時(shí),后者的表現(xiàn)是顯而易見會出問題的。最后是要至少精通一門技術(shù),數(shù)據(jù)中心需要運(yùn)維人員是通材,就是方方面面都要懂一些,但是都懂一些相當(dāng)于都不懂,這樣在數(shù)據(jù)中心里是無法立足的。還需要有自己精通的領(lǐng)域,至少有一門是自己精通,而別人無法替代的。比如精通Linux操作系統(tǒng)、精通網(wǎng)絡(luò)技術(shù)、精通安全技術(shù)等等,這樣才能在數(shù)據(jù)中心里立足,然后再向其它領(lǐng)域拓展,最終成為一個(gè)技術(shù)較為全面的運(yùn)維人才。
數(shù)據(jù)中心運(yùn)維的工作不像其它工作,比如測試工程師、研發(fā)工程師等,有非常明確的職責(zé)定位及職業(yè)規(guī)劃,有職業(yè)認(rèn)同感與成就感。運(yùn)維工作可能給人的感覺就是哪個(gè)方面都知道一些,但又哪個(gè)方面都比不上專業(yè)工程師更精通,慢慢工作起來就會迷失方向。其實(shí)運(yùn)維工作也有自身的特點(diǎn),就是什么領(lǐng)域的技術(shù)都有機(jī)會學(xué)習(xí)與接觸,掌握的深淺程度主要取決于運(yùn)維人員的自身努力,可以在多個(gè)技術(shù)領(lǐng)域做到精通。新一代數(shù)據(jù)中心給運(yùn)維工作帶來了更多挑戰(zhàn),也使得運(yùn)維成為一個(gè)融合多學(xué)科的綜合性技術(shù),提供了很好的個(gè)人能力與技術(shù)廣度的發(fā)展空間,運(yùn)維工作的相關(guān)經(jīng)驗(yàn)變得越來越重要。正因?yàn)檫\(yùn)維的工作面廣,運(yùn)維人員轉(zhuǎn)到其它崗位也很容易,沒有太大的局限性,而且只有運(yùn)維工程師才有機(jī)會成為數(shù)據(jù)中心的系統(tǒng)架構(gòu)師或者運(yùn)維主管,這樣的職業(yè)發(fā)展前景也比較好。如今的數(shù)據(jù)中心已經(jīng)開始重視運(yùn)維技能的提升,大批量引起了不少高精尖的技術(shù)人才,從事數(shù)據(jù)中心運(yùn)維人員的技能水平在不斷提高,將有越來越多的高技術(shù)人才加入到數(shù)據(jù)中心運(yùn)維隊(duì)伍中來。