割接是對正在使用的線路、設備進行操作,將會直接影響到上面承載的業務。割接是數據中心工作的重要部分,由于涉及到業務變更、軟件升級、設備上下線等操作,可能會對現有業務造成影響,甚至中斷,所以割接也是數據中心工作中最具挑戰的部分。一次割接任務完成的是否漂亮,對數據中心未來的運營效果有很大影響,一般在割接之前都要做縝密計劃,確保割接順利。我們知道,數據中心里的故障80%都是人為失誤造成的,而割接必然涉及到人為操作,出錯是必然的,哪個數據中心割接沒出過幾次小問題,只要能夠及時補救,一般不會產生過多負面影響,這緣于數據中心內部是一個非常龐大的信息系統,成千上萬臺協同運轉,哪里配合不好,都可能影響業務,達不到割接之前制定預期的效果。尤其是現在各種新技術不斷在數據中心里落地,雖然提升了數據中心的運行效率,減少了人力成本,可一旦出了問題,排查起來非常困難,就算是頂尖的技術專家也難于對整個數據中心的系統技術都掌握,這都增加了割接難度,使得每次割接都像過鬼門關一樣。那么,我們來看看數據中心業務割接有哪些需要注意的地方,避免犯錯誤,從而提升業務割接的成功率。
首先,要對割接方案進行評估,多大風險,尤其是對正在運行業務的系統是否有影響。根據評估,確定可能影響業務中斷的時長,然后提前向數據中心用戶發公告,對于重要大客戶要單獨溝通,得到大客戶許可之后,再發布割接公告,公告里明確說明本次割接的目的,比如為了提升客戶訪問數據中心的速度、業務系統軟件升級、設備更換等等,讓客戶一看就知道割接做哪些事情。公告里還要講明割接操作開始和結束時間(基本都是夜里兩點到五點的時間段),期間可能引起的業務中斷時長,具體訪問哪些業務會有影響。數據中心在割接之前,有主動告知的義務,讓客戶提前有準備,做好各種數據備份。
其次,要制定詳細的割接方案。包括割接的整體方案介紹、詳細的操作技術方案、回退方案、人力部署和分工安排、預期效果、割接過程中的信息采集和數據監控等等。所以割接前,需要做大量的準備工作,準備得越充分,割接時越順利,也許割接時就幾分鐘甚至只是一個設備操作命令,但準備工作也許要花費幾天甚至數月來準備,這就像嫦娥奔月工程,從嫦娥發射到飛到月球軌道,只有兩三天時間,但我們卻需要花費一兩年的時間來設計和準備工作,前期工作是海量的。要考慮到割接的過程中可能出現異常情況,針對出現不同情況有相應應對的方案,如果在割接前沒有考慮清楚,一旦出現預知之外的情況,將沒有應對方案,在短時間內很難想到很好的解決方案,這時如果處理經驗不足,往往就是執行回退方案,割接出現失敗。還有,割接的所有方案和技術操作都要符合數據中心規章制度和相關標準,不允許違規操作。比如:在重大節日封網期間操作,將高級別的設備操作權限交由低級別工程師,有低級別工程師代替操作,割接時要嚴格按照預定步驟,有條不紊地執行。對于特別重大的割接,還要搭建模擬環境,進行演練,有條件的話還需要在數據中心現網的業務環境中進行割接預演,根據模擬演練的情況,對割接方案進行完善,對不足的地方進行改進。
第三,要做好數據業務備份。不少數據中心的業務是不允許中斷的,數據更是不同于出現錯誤或者丟失的情況。這時就要啟動冗余備份方案,比如可以在割接前將業務平滑切換到備份系統中,割接完再將業務切換回來,保持業務不受影響,有時還可以將數據備份起來,讓業務停轉,割接完成后,再啟動業務運轉,繼續使用備份數據,千萬不可出現無備份,業務裸奔的危險情況。最近,廣西移動在進行擴容割接時,就出現了誤操作導致用戶數據丟失的故障,影響了幾十萬用戶,十幾個小時手機無法通話,這就是一例明顯割接的準備工作不足,數據備份沒有做好的例子。無論在任何情況下,數據是數據中心最寶貴的資產,其中有太多千萬用戶賬戶信息,一旦出現丟失或者錯誤,造成的影響都很惡劣,這比業務一時無法訪問還嚴重,就好比我們正在用電腦寫文章,突然電腦斷電,之前辛苦寫的文章因沒保存全丟了一樣,害的自己還得重新寫,浪費不少時間,這比電腦斷電但之前寫的文章還在要嚴重地多,這樣我大不了等來電時繼續寫就行了。
最后,要做好監控和總結。因為割接幾乎都在后半夜進行,這時數據中心業務量最低,此時割接完可能看不出業務狀態,需要觀察一兩日業務的運行狀態,直到確認完全沒有問題割接執行部分才算基本結束。接下來就是要對這次的割接工作進行總結。數據中心里的割接工作是比較頻繁的,有的數據中心甚至天天晚上都有割接安排。每次割接完后,都要針對割接過程中出現的問題進行分析,及時改進,并在下一次割接中避免。如果割接失敗,更是要總結失敗原因,對整個割接的過程進行詳細分析,調整后面的割接方案,避免同樣的錯不犯第二次。除了對發現的問題及時改進,也要總結經驗,將割接的過程中所見所得記錄下來,這些割接的經驗可以保留下來,供其它人員在割接時學習使用,從而提升整個數據中心運維人員的技能水平。往往在這種割接業務的關鍵工作中,才是最鍛煉人的,也是很好的學習真本領的機會。