數(shù)據(jù)中心運(yùn)維是老生常談了,之所以運(yùn)維的事情總被提起,是因?yàn)樵跀?shù)據(jù)中心的整個(gè)生命周期里,90%的時(shí)間都是在運(yùn)維,運(yùn)維的質(zhì)量和效率直接決定了數(shù)據(jù)中心未來(lái)發(fā)展的潛力和速度。常言道“創(chuàng)業(yè)難,守業(yè)更難”,建一個(gè)數(shù)據(jù)中心容易,要將這個(gè)數(shù)據(jù)中心運(yùn)行得有聲有色就不是那么容易了,可說(shuō)是要身經(jīng)百戰(zhàn)。運(yùn)維的工作之復(fù)雜和枯燥程度往往超出人們預(yù)想,這也使得能在運(yùn)維的工作上做久的人并不多,幾乎三五年就要換一批人。數(shù)據(jù)中心運(yùn)維的工作復(fù)雜性是由其系統(tǒng)特點(diǎn)決定的,下面就來(lái)說(shuō)一說(shuō)數(shù)據(jù)中心運(yùn)維的工作面臨哪些永遠(yuǎn)的痛處。
標(biāo)準(zhǔn)化不統(tǒng)一
數(shù)據(jù)中心是多種信息系統(tǒng)的綜合體,涉及很多方面的技術(shù),而且每種技術(shù)又會(huì)細(xì)分類別,這樣產(chǎn)生了多種多樣的差異化產(chǎn)品,雖然數(shù)據(jù)中心領(lǐng)域有公認(rèn)的幾個(gè)巨頭企業(yè),即便這樣每個(gè)企業(yè)也難以覆蓋到數(shù)據(jù)中心所有產(chǎn)品,這導(dǎo)致數(shù)據(jù)中心里的軟硬件差異性較大,不同產(chǎn)品實(shí)現(xiàn)也有差異,使用習(xí)慣也不同,有的產(chǎn)品為了提升競(jìng)爭(zhēng)力,支持了一些特有的先進(jìn)技術(shù),這些導(dǎo)致運(yùn)維的工作中需要進(jìn)行大量兼容性配置,做不到兼容的地方就需要掌握這些配置差異的地方,避免用錯(cuò)。比如數(shù)據(jù)中心網(wǎng)絡(luò)部分,這是數(shù)據(jù)中心里差異性最大的部分之一,這里面有不少協(xié)議都是私有協(xié)議,沒有按照標(biāo)準(zhǔn)實(shí)現(xiàn),這樣在設(shè)備之間互通就存在問(wèn)題。數(shù)據(jù)中心在進(jìn)行網(wǎng)絡(luò)擴(kuò)容時(shí),沒有選擇余地。還有不同網(wǎng)絡(luò)企業(yè)的產(chǎn)品操作命令行風(fēng)格也不同,相同功能協(xié)議的配置和運(yùn)維的使用方法都不同,甚至以前在網(wǎng)絡(luò)企業(yè)之間還因?yàn)槊钚羞^(guò)于相似互相打過(guò)官司,設(shè)計(jì)涉及到了侵權(quán),這使得網(wǎng)絡(luò)協(xié)議實(shí)現(xiàn)五花八門,但做網(wǎng)絡(luò)的運(yùn)維可慘了,必須要掌握多家網(wǎng)絡(luò)企業(yè)產(chǎn)品的使用特點(diǎn)和命令行風(fēng)格,這也是云計(jì)算為何那么受數(shù)據(jù)中心歡迎的重要原因。云計(jì)算實(shí)現(xiàn)的基礎(chǔ)就是要求數(shù)據(jù)中心在計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)硬件,以及軟件、配置等等方面形成統(tǒng)一標(biāo)準(zhǔn),只有這樣才能部署云計(jì)算,這可給運(yùn)維的工作帶來(lái)了極大便利。運(yùn)維的人員只需遵循一套統(tǒng)一標(biāo)準(zhǔn)來(lái)管理設(shè)備,可忽略不同產(chǎn)品之間的差異,極大提升了運(yùn)維的工作效率。
業(yè)務(wù)及設(shè)備需人工手動(dòng)部署
在數(shù)據(jù)中心整個(gè)生命周期過(guò)程中,要經(jīng)歷無(wú)數(shù)次大大小小的各種業(yè)務(wù)割接、擴(kuò)容、變更事件,數(shù)據(jù)中心業(yè)務(wù)發(fā)展越快,這類工作越頻繁。傳統(tǒng)數(shù)據(jù)中心在進(jìn)行業(yè)務(wù)部署時(shí),要進(jìn)行大量的手工配置,這些配置一旦出錯(cuò)不僅影響到新業(yè)務(wù)上線,還可以對(duì)原有業(yè)務(wù)造成沖擊,所以每次部署時(shí),運(yùn)維的人員心里面緊張得不得了,每個(gè)操作都要小心翼翼。要知道數(shù)據(jù)中心里80%的故障都是人為故障,可見與機(jī)器相比,人是不夠可靠的。機(jī)器只要我們提前給設(shè)置好既定程序,除非壞了,否則永遠(yuǎn)都會(huì)按照程序來(lái)走,人是感性思維的動(dòng)物,經(jīng)常受到外界的干擾,執(zhí)行程序就可能會(huì)有錯(cuò)誤。人工手動(dòng)部署業(yè)務(wù)不僅極大增加了運(yùn)維的工作量,還增加了系統(tǒng)操作失誤風(fēng)險(xiǎn)。如今,不少的數(shù)據(jù)中心開始建設(shè)云管理平臺(tái),就是要用軟件代替人工,由軟件實(shí)現(xiàn)業(yè)務(wù)和設(shè)備的自動(dòng)上下線,實(shí)現(xiàn)資源快速上線、擴(kuò)容與下線。只需要安排低技能人員將設(shè)備上架、上網(wǎng)和上電就可以,后面的事情交由云管理的平臺(tái)完成。
設(shè)備軟件升級(jí)困難
數(shù)據(jù)中心里各種設(shè)備成千上萬(wàn),經(jīng)常會(huì)出現(xiàn)這樣那樣的軟件問(wèn)題,這時(shí)就需要及時(shí)更新軟件解決問(wèn)題。不過(guò),很多時(shí)候?yàn)榱私鉀Q問(wèn)題必須更換設(shè)備的軟件版本,這讓數(shù)據(jù)中心很難處理。數(shù)據(jù)中心很多業(yè)務(wù)要求7*24小時(shí)在線,如果設(shè)備之間沒有很好的備份,冒失地對(duì)這些設(shè)備進(jìn)行重啟升級(jí)軟件,必然會(huì)造成業(yè)務(wù)大面積的中斷,這是數(shù)據(jù)中心不能接受的。所以每次做軟件升級(jí)都是一件非常復(fù)雜的事情,需要進(jìn)行業(yè)務(wù)的遷移,有時(shí)還要計(jì)算好升級(jí)的每個(gè)步驟,恰好時(shí)間,將業(yè)務(wù)中斷的時(shí)間壓縮到最短,這需要升級(jí)之前做大量的準(zhǔn)備工作,甚至包括實(shí)驗(yàn)室的模擬實(shí)驗(yàn),以便找到最佳的升級(jí)方式和方法,所以每次升級(jí)軟件,運(yùn)維的人員都累的像剝了一層皮,身心疲憊。所以,數(shù)據(jù)中心運(yùn)維的人員對(duì)設(shè)備不能無(wú)中斷業(yè)務(wù)升級(jí)充滿怨言,一直在找尋那些可以實(shí)現(xiàn)自動(dòng)升級(jí)的解決方案,具備這樣能力的產(chǎn)品將成為數(shù)據(jù)中心重要的參考項(xiàng)。
運(yùn)維的監(jiān)控不夠?qū)崟r(shí)
大部分重要的數(shù)據(jù)中心都有安排人24小時(shí)值班,但實(shí)際上這些值班人的水平參差不齊,而且技術(shù)專家也不會(huì)值班,只有出了問(wèn)題,有事情時(shí)才會(huì)介入,所以值班的人員可能更多的是一些操作人員。而且不少的數(shù)據(jù)中心都是在全國(guó)各地都有分中心,技術(shù)專家主要集中在一個(gè)地方,其它的數(shù)據(jù)中心分中心現(xiàn)場(chǎng)缺少專業(yè)技術(shù)人員,一旦數(shù)據(jù)中心出了緊急問(wèn)題,技術(shù)專家無(wú)法得到最新的信息反饋,甚至出了故障都不知曉,這樣會(huì)導(dǎo)致業(yè)務(wù)故障時(shí)間比較久,現(xiàn)場(chǎng)操作人員必須得到后臺(tái)技術(shù)專家的明確指示才會(huì)進(jìn)行各種有針對(duì)性的恢復(fù)操作,而后臺(tái)技術(shù)專家又無(wú)法及時(shí)掌握數(shù)據(jù)中心所有的運(yùn)行參數(shù),這導(dǎo)致故障處理效果并不好,甚至?xí)?lái)更為嚴(yán)重的二次故障。好在,現(xiàn)在手機(jī)、筆記本上網(wǎng)都非常方便,也提升了運(yùn)維的執(zhí)行效率。數(shù)據(jù)中心可以將各種運(yùn)行監(jiān)控參數(shù)發(fā)布到各種移動(dòng)接收端,以便技術(shù)專家能實(shí)時(shí)掌握數(shù)據(jù)中心運(yùn)行狀態(tài),隨時(shí)隨地移動(dòng)運(yùn)維,完成數(shù)據(jù)中心的全生命周期管理,極大地改善了運(yùn)維的工作質(zhì)量。
數(shù)據(jù)中心運(yùn)維正面臨著各種各樣的實(shí)際問(wèn)題,隨著建設(shè)規(guī)模的不斷擴(kuò)大,系統(tǒng)越來(lái)越復(fù)雜,必須找到一些解決辦法,否則數(shù)據(jù)中心真的再難以運(yùn)維下去。