根據(jù)蔡格尼克記憶效應(yīng),人們總對(duì)那些沒(méi)完成的任務(wù)印象深刻。雖然哥時(shí)常將話題岔開(kāi)到那個(gè)“神奇”的云平臺(tái)項(xiàng)目,但想必大家還是愿意繼續(xù)回到我們整體設(shè)計(jì)與治理的主路上吧?好,那就讓我們“冷水洗把臉”回來(lái)繼續(xù)聊系統(tǒng)的日常運(yùn)維方面吧。
大家還記得曾經(jīng)看過(guò)的那部經(jīng)典的美劇《越獄》以及殿堂級(jí)成長(zhǎng)類電影《肖生克的救贖》吧?男“豬腳”們?yōu)榱?ldquo;脫獄”都找的是監(jiān)獄容易出現(xiàn)漏洞的最薄弱的環(huán)節(jié)。參照來(lái)看,我們的系統(tǒng)也有最容易出問(wèn)題的薄弱環(huán)節(jié),就是系統(tǒng)內(nèi)部的不一致性。這種不一致性的產(chǎn)生一般都是由于系統(tǒng)和服務(wù)被“任性”的改動(dòng)所造成的。憑心而論,一般系統(tǒng)在完成和交付之初甲方十分希望、乙方也非常愿意把系統(tǒng)做得盡可能的完美,但是隨著系統(tǒng)和服務(wù)被越來(lái)越頻繁的使用,對(duì)于其功能和效率的調(diào)整和改進(jìn)的需求也會(huì)如寒武紀(jì)生命大爆發(fā)一般,井噴式的增長(zhǎng)。經(jīng)過(guò)多個(gè)部門、多種IT角色“簡(jiǎn)單而粗暴”的修改后,系統(tǒng)雖不會(huì)千瘡百孔、面目全非,但肯定已是今非昔比,且隨時(shí)都有不可預(yù)料的中斷風(fēng)險(xiǎn)了。
所以說(shuō),海枯石爛的緊守不變是不可能的。那句很有哲理的話怎么說(shuō)的來(lái)著?“唯一不變的只有變化。”不!唯一不變的還有廉哥和大家每周如期而至的這份漫談之心哦。我們的漫談雖然不死板嚴(yán)肅,但是很中立的,記住,哥不是神馬Tony老師,從來(lái)不會(huì)向大家推薦什么廠商或產(chǎn)品的。跑題了,跑題了…那么如何避免持續(xù)變更所產(chǎn)生的side effect,實(shí)現(xiàn)系統(tǒng)安全性和其易用性的平衡呢?我們還是要依靠管理和控制。
變更管理
馬云曾說(shuō)過(guò)一句話:“陽(yáng)光燦爛的時(shí)候,就要修屋頂。”也就是說(shuō)在還沒(méi)出問(wèn)題的時(shí)候,我們就要考慮到各種變化和調(diào)整的應(yīng)對(duì)了。在前幾次漫談中,我們提到的事件、事故和問(wèn)題流程的最終結(jié)果都可能觸發(fā)IT服務(wù)變更的發(fā)生。在企業(yè)里,任何變更需求都應(yīng)當(dāng)用預(yù)定義的流程和工具來(lái)規(guī)范需求的提交方式并通過(guò)自動(dòng)流轉(zhuǎn),做到系統(tǒng)能夠?qū)崟r(shí)記錄以方便日后稽查。
在規(guī)范的企業(yè)中,變更請(qǐng)求一定要通過(guò)變更顧問(wèn)委員會(huì)的審核。而這個(gè)委員會(huì)成員可以包括企業(yè)各種角色的代表,如業(yè)務(wù)部門用戶,IT管理層,運(yùn)維人員,供應(yīng)/外包商等。而且具體人員可根據(jù)實(shí)際變更請(qǐng)求來(lái)動(dòng)態(tài)調(diào)整。由變更顧問(wèn)委員會(huì)對(duì)請(qǐng)求進(jìn)行主要的風(fēng)險(xiǎn)評(píng)估。評(píng)估內(nèi)容包括:提出人的角色、提出原因、變更時(shí)間、變更回報(bào)、需要的資源、對(duì)其他服務(wù)的影響等。很多企業(yè)管理者總有心存僥幸心理,覺(jué)得頻繁變更請(qǐng)求的審核既耗時(shí)又好力,想攢到一段時(shí)間后一起擼,然后呢?就沒(méi)有然后了。可是歌德老爺子不是說(shuō)過(guò)嗎:“今天做不成的,明天也不會(huì)做好,一天也不能夠虛度。”很多改變是時(shí)不我待的,消極被動(dòng)的態(tài)度非但維持不了當(dāng)前的所謂“不變應(yīng)萬(wàn)變”,反而會(huì)讓IT團(tuán)隊(duì)甚至管理層感覺(jué)壓力山大。要知道可能您和“別人家的”健康穩(wěn)定系統(tǒng)的差別就在這里。
系統(tǒng)的變更往往會(huì)引起短暫的服務(wù)中斷。而無(wú)論是功能性的服務(wù)變更請(qǐng)求還是計(jì)劃性的服務(wù)中斷請(qǐng)求都需要包含:變更程度(普通、標(biāo)準(zhǔn)或緊急),變更類型(硬件、軟件、網(wǎng)絡(luò)、通信設(shè)備或文檔相關(guān)),自測(cè)風(fēng)險(xiǎn)程度(低、中或高),影響范圍(全部門范圍、整個(gè)企業(yè)范圍、多分支機(jī)構(gòu)范圍),變更進(jìn)度和實(shí)施計(jì)劃,所涉及到的配置項(xiàng)數(shù)據(jù)庫(kù)(Configuration Management Data Base,前面幾期有提到過(guò))里的配置項(xiàng)(CI),結(jié)果預(yù)期和應(yīng)急補(bǔ)救預(yù)案等。
從安全角度來(lái)說(shuō),在實(shí)施變更之前一定要確立好整個(gè)系統(tǒng)的基準(zhǔn)線,給系統(tǒng)的當(dāng)前各種狀態(tài)來(lái)個(gè)“快照”,從而成為變更后參考比對(duì)的依據(jù)。同時(shí)在變更過(guò)程中,應(yīng)做好軟/硬件版本管理。在實(shí)際操作中,可以參考如下變更的流程圖。個(gè)人認(rèn)為,套用華為企業(yè)的說(shuō)法,這叫“力出一孔”。
另外,如果涉及到比較復(fù)雜或大型的變更,我們?cè)谙嚓P(guān)的記錄文檔中還應(yīng)適當(dāng)?shù)呐渖夏荏w現(xiàn)變更步驟和涉及范圍的流程圖。這樣不但能有助于理清變更的思路和波及面,還能供變更后或出現(xiàn)其他問(wèn)題時(shí)進(jìn)行參考和審計(jì)所用。
說(shuō)到文檔化記錄,大家應(yīng)該都有過(guò)這樣的體驗(yàn),當(dāng)我們的智能手機(jī)上的APP裝了太多時(shí),其實(shí)每次我們要找某個(gè)需要的APP并不是認(rèn)真看其圖標(biāo)的樣子或下面的名稱,而是從顏色及其圖案上迅速判斷和定位到的。因此記錄文檔中,我們可以事先規(guī)定好用不同顏色來(lái)定義不同類型的變更,從而便于我們從龐復(fù)的記錄中一眼認(rèn)出或篩選出需要查看的記錄。
總所周知,這是一個(gè)“快魚(yú)吞慢魚(yú)”的快節(jié)奏時(shí)代,很多企業(yè)的IT決策者腦子里想著馬化騰的那句“小步、快跑、迭代、試錯(cuò)”而嘴里念叨著“沒(méi)時(shí)間解釋,快上車”不斷發(fā)布新的產(chǎn)品和服務(wù)功能。這種積極的態(tài)度是值得肯定和采取的,但是如果不想在發(fā)布之后收獲莫名的抱怨或是看到老板及用戶的那張張撲克臉的話,必要的管控定會(huì)為你的“爆款新品”保駕護(hù)航。
發(fā)布管理
在企業(yè)運(yùn)營(yíng)過(guò)程中,往往新的或是需要變更的IT服務(wù)是以項(xiàng)目實(shí)施的形式進(jìn)行發(fā)布的。常規(guī)發(fā)布的過(guò)程包括:發(fā)布策略的制定與規(guī)劃,回退計(jì)劃,分發(fā)與安裝,試運(yùn)行,測(cè)試與驗(yàn)收,用戶支持與培訓(xùn)。
其中,在發(fā)布策略制定階段我們要多考慮采取分時(shí)間和空間的實(shí)施計(jì)劃。如一季度在亞洲區(qū)各分公司實(shí)施,二季度在歐洲洲區(qū)各分公司實(shí)施。在充分控制好兼容性的情況下做好新舊系統(tǒng)的共存。一旦發(fā)現(xiàn)新系統(tǒng)有影響到其他現(xiàn)有IT服務(wù)的時(shí)候,可以讓用戶根據(jù)回退方案退回到舊系統(tǒng)應(yīng)急完成,從而給消除影響爭(zhēng)取了時(shí)間。比如說(shuō)新的郵件系統(tǒng)出于安全性考慮,無(wú)法讓用戶發(fā)送超級(jí)鏈接,但這并不是所有用戶都能馬上接受并轉(zhuǎn)變的。這就需要有個(gè)用戶行為漸變的過(guò)程。
而在分發(fā)階段應(yīng)注意自動(dòng)與手動(dòng)互補(bǔ)。無(wú)疑,自動(dòng)分發(fā)IT服務(wù)(特別是軟件)可以保持發(fā)布的一致性,且突破了時(shí)間和空間的限制,一定程度上減輕了IT人員手動(dòng)安裝的時(shí)間和重復(fù)勞動(dòng)。但對(duì)于一些自動(dòng)發(fā)布過(guò)程中的錯(cuò)誤勘測(cè),場(chǎng)景判斷以及其他方法的嘗試,如某個(gè)系統(tǒng)的補(bǔ)丁包,手動(dòng)安裝的優(yōu)勢(shì)就很明顯。因此企業(yè)一般應(yīng)采取“自動(dòng)在先,手動(dòng)攻堅(jiān)”的互補(bǔ)模式。
在安裝階段應(yīng)注意“推/拉結(jié)合”。“推”是指IT服務(wù)由總部服務(wù)器推送到各個(gè)用戶終端電腦上,因?yàn)閹в幸欢ǖ膹?qiáng)制性,所以一般適用于普遍使用且重要的服務(wù)。而“拉”是指各個(gè)用戶終端電腦從總部服務(wù)器獲取IT服務(wù)(特別是軟件)。如病毒簽名庫(kù)的升級(jí)包,可以讓用戶在覺(jué)得個(gè)人業(yè)務(wù)不急迫的情況下從總部“拉”過(guò)來(lái),而不會(huì)影響到其他應(yīng)用程序的運(yùn)行速度。當(dāng)然也有些用戶從來(lái)不去主動(dòng)“拉”,這就需要“推/拉結(jié)合”了,即對(duì)于在規(guī)定的一段時(shí)間周期后總部勘測(cè)到?jīng)]有進(jìn)行“拉”操作的用戶,就會(huì)強(qiáng)制性的“推”送過(guò)去進(jìn)行安裝。是不是感覺(jué)有點(diǎn)像時(shí)下流行的“推塔”游戲?至少我覺(jué)得有點(diǎn)像。
在驗(yàn)收階段,IT部門除了確保只有正確的、被授權(quán)的和經(jīng)過(guò)測(cè)試的軟/硬件版本才能部署到實(shí)際的運(yùn)營(yíng)環(huán)境以外,還應(yīng)該注意及時(shí)更新配置項(xiàng)數(shù)據(jù)庫(kù)(有提到了哦),特別是已知錯(cuò)誤知識(shí)庫(kù)的建立。該知識(shí)庫(kù)應(yīng)當(dāng)運(yùn)用普通用戶所容易理解的語(yǔ)言來(lái)描述問(wèn)題/錯(cuò)誤的狀態(tài)且避免重復(fù)。在內(nèi)容更新方面,IT部門除了自我維護(hù)外,還需定期從軟/硬件供應(yīng)商的知識(shí)庫(kù)接口收集和導(dǎo)入。已知錯(cuò)誤知識(shí)庫(kù)里的相關(guān)突出內(nèi)容可以在新的服務(wù)發(fā)布前夕向全體用戶公示,從而合理控制好用戶在使用中的期望值和體驗(yàn)度。此外,相應(yīng)的技術(shù)支持和用戶培訓(xùn)也是服務(wù)發(fā)布所必不可少的環(huán)節(jié)。
總的說(shuō)來(lái),這次跟大家分享的兩個(gè)治理和控制方面,是大家工作中經(jīng)常遇到,理論上也比較容易明白的。正所謂“望遠(yuǎn)鏡能幫你看清前進(jìn)的目標(biāo),卻不能縮短要走的路程。”所以真正踐行還是需要一個(gè)長(zhǎng)期堅(jiān)持的過(guò)程。
有周圍小伙伴們贊賞我每周一篇的毅力,其實(shí)告訴大家吧,哥一直在堅(jiān)持120法則。我不但在每周固定7天時(shí)間上乘以120%,也就是提前8到9天做下一篇漫談的準(zhǔn)備;我還時(shí)常和我的朋友圈里的大神們交流,將對(duì)每期漫談的期望值設(shè)定為100分,那么我就力爭(zhēng)做到120分的水平。夠勵(lì)志吧?要不你也加入我們的朋友圈,大家群聊唄?