1. 前言
呼叫中心的IT服務管理一直是困擾IT管理人員的難題,難點在于呼叫中心對IT服務要求高,涉及技術門類極其復雜。以移動通信公司的10086為例,它是數以億計的客戶和企業接觸的第一界面,直接代表企業形像,體現客戶滿意度;而服務10086的IT基礎設施又極其龐雜。IT技術不僅涉及大型數據中心需要考慮的網絡、主機、存儲、數據庫、應用軟件,還涉及到普通辦公環境需要考慮的桌面、終端、外設等多個層面,另外,還多出了交換、CTI、多媒體等技術門類。可以說是IT技術的“大雜燴”。移動公司不缺乏管理大型數據中心的團隊和經驗,但是并不能照搬到這樣一個多層次、多類別的IT架構上。江蘇移動呼叫中心的IT服務團隊是一個勇于創新的團隊,繼2008年3月在全國率先推出支持大規模駐家座席的技術平臺之后,在2009年又在終端和服務器的IT生命周期管理上進行了有意義的探索。
2. 初次探索
江蘇移動的呼叫中心支撐著10086和12580兩大類業務,3個服務中心分別位于南京和淮安兩個城市,管理著近700臺服務器和2500臺終端。有限的幾名管理員根本無法同時應付諸如此類的繁雜事務——頻繁的系統安裝、遷移、打補丁;大規模的應用布署、調整;此起彼伏的故障報修和系統恢復工作;還有無法預料的計算機病毒爆發和其他安全事件;常規的設備采購、資產管理也牽扯了一部分精力。為了保持移動公司的服務水平,維護企業形像,一直以來都依賴維護人員投入高度的責任感和加班加點犧牲個人時間來完成任務。改變不是一蹴而就的,IT人員不斷在嘗試采用不同的管理技術,改變管理方式,以期能夠變被動為主動。從2006年(準確否?)起我們從多個不同的方向分別進行了探索。
2.1. 硬件還原技術
終端發生的問題是多方面的,可能是操作系統故障、應用程序故障,或者是病毒引起的異常情況。(準確否?)很多情況下修復過程很長,操作步驟很復雜,工作量之大也是不言而喻的。針對形形色色的終端故障,我們采用了一種最簡單的辦法——即采用還原卡技術。引入還原卡之后,無論終端出現何種復雜問題,我們都可以立即把系統盤還原到初始狀態,保證座席能夠在短時間內恢復正常工作。這樣一來就解決了終端修復的大問題。(準確否?)[nextpage]
2.2. 面向流程的IT服務管理平臺
我們引入了一套Service Desk服務管理平臺,通過這套軟件工具來幫助實現IT服務的自動化的流程管理。這是一個純管理的工具,工單派發后還需要人員完成落地的過程。(準確否?)
2.3. 服務器和桌面虛擬化技術
在PC架構的系統上我們使用了VMWare來實現服務器和桌面的虛擬化;服務器虛擬化技術已經比較成熟了,能夠大幅提高硬件資源的利用效率,并且可以根據需要調整資源和應用的相應配置,刀片服務器和VMWare技術的結合大大降低了系統硬件成本,同時也降低了管理的復雜度。
3. 創新提高
可以說,我們在上述方向上的探索是成功的。我們采用的各種技術手段幫助我們切實解決了一些具體的技術難題,并提升了管理的水準。但是,我們總感覺到這些技術手段是各自孤立的,它們之間的銜接存在斷層,缺乏統一性,不能完全自動化。但是經過一系列的技術應用的鋪墊,我們的思路漸漸清晰,而且尋找到一個合適的契機。
2008年初以來,呼叫中心多次爆發蠕蟲和ARP病毒。由于是大面積爆發,IT人員經常措手不及。雖然全網部署了防病毒系統,而且執行強制打補丁的策略,但是,很快就發現在現有的環境下無法執行。
我們發現,終端雖然打過了補丁,但是由于某種故障發生以后,使用還原卡對系統進行了還原,當然新安裝的補丁也被“還原”掉了。一旦爆發蠕蟲病毒,這些還原過的終端很容易交叉傳染——有些感染病毒的終端還原了而有些還沒來得及還原,這些沒有還原的終端繼續傳染給還原后沒有打補丁的終端。如果要把還原狀態設定為打補丁之后,那么每次打完補丁都需要手工更改還原卡的設置,而做到這一點幾乎是不可能的。
通過對呼叫中心發現的這一系列問題的分析,我們發現,無法協同工作的單一的技術手段不僅不能達到終端安全管理的目的,反而帶來了更多問題。
3.1. 基于策略執行的主動式終端安全管理體系
而結合具體情況,我們發現呼叫中心的大部分是屬于固定工作環境的高度受控終端,安全策略相對比較容易制訂,但難的是執行,也就是自動化的檢查、修復。因為:第一,策略是需要強制執行的,執行效果需要循環評估;第二,策略是不斷完善變化的,制訂策略、發布策略和執行策略必須是一個整體;第三,策略的粒度范圍很大,大到禁止不合格終端接入生產網絡、禁止使用USB存儲外設,小到禁止某個源IP訪問某個目的IP(黑名單策略)、只允許某個源IP訪問某個目的IP(白名單策略)。
因此,我們提出要建設基于策略的“主動式終端安全”體系,其實質不僅強調策略制定,更注重是策略自動化執行。而且注意不同策略執行技術之間協同工作。經過討論,我們整理出如下的模型:
按照這個模型,我們考慮使用一個以策略為核心,以制定、檢查和修復為基礎的“三位一體”的技術架構:集中的策略制訂、全面的檢查與監控、自動化的修復和處理。
3.2. 融合技術架構—構建基于生命周期的終端標準化管理平臺
以解決安全問題為契機,以基于策略執行的主動式終端安全模型為基礎,我們找到了“終端安全、終端管理、備份恢復”這三個技術領域形成的一個合集。利用這三方面“融合技術架構”構建基于生命周期的終端標準化管理平臺,幫助我們實現基于策略執行的主動式終端安全管理體系。
融合技術架構是橫跨“安全”、“資產管理”、“補丁管理”、“備份恢復”、“網管”、“遠程控制”等等領域的橫向技術平臺,那么,把一個融合技術架構放到時間序列里看就是“生命周期管理”的領域。
通過呼叫中心基于生命周期的終端標準化平臺的建設,利用其中相互關聯的功能模塊,加強了終端防護能力,提高了終端管理效率,我們簡單列舉幾個有代表性的場景:
場景一
某一臺外來終端可能感染了蠕蟲病毒,此時接入呼叫中心內網,由于所有內網設備都下發了統一的策略,這臺外來終端將被所有其他終端和服務器判別為非法,并被執行拒絕訪問策略。
場景二
安全策略遵從模塊發現部分終端存在安全漏洞,會根據策略自動啟動補丁修復模塊安裝相應補丁,而在安裝補丁前后會調用系統備份任務,便于補丁修復造成系統故障后快速恢復,所有任務完成后自動報告管理員。
場景三
呼叫中心需要對應用程序進行一次全面升級。針對不同的操作系統版本需要分別測試、打包、分發。并根據當前資產信息制訂軟件分發策略。這一切過程都可以在維護中心完成。
場景四
有一批新機器到貨,呼叫中心管理員人員,可以利用快速部署模塊采用定制鏡像方式,根據不同業務需求定制多個系統鏡像,自動網絡分發。這樣,一方面,減少新系統和應用的部署時間;另一方面,減少非正規途徑德操作系統安裝和配置引入的外來威脅。
場景五
當座席發生故障需要管理員幫助的時候,呼叫中心的管理員可以掌握該終端的所有資產信息、補丁安裝、配置以及系統日志,便于及時分析問題,而且不用到需要幫助的計算機設備前,就可以為座席提供故障判斷及解決、操作幫助等服務。
3.3. 標準化的終端管理服務
有了這樣一個“三位一體”的終端和服務器管理的技術架構,我們才可以把維護的各種“工具”組合成“服務”,實現資源的最優配置。
IT服務管理是一個動態的過程,又是成本和效率和組合。我們割裂地看以上場景就很難形成連續性,從而忽視“管理”本身。可是一旦上升到財務和業務流程層面就很容易聯系到ITIL——這樣一個曾經被流程化、空洞化的概念。作為一個IT運營單位,我們更關注可以落地的技術,而不是空泛的流程和概念。我們在實踐過程中強調把融合技術架構自覺地運用到整個終端生命周期管理的過程中,同時防止外延的擴大化。
在實踐中我們發現:我們需要終端資產庫,但更多是用于關聯事件、關聯策略和手段;我們需要服務流程,但更需要實實在在的可以把流程落地的技術。因此我們在探索、發現、選擇、檢驗的過程中,直接跳過了各種花花綠綠的概念性介紹材料,通過測試、培訓、磨合等一系列過程形成有自身特色的終端服務管理體系。而這套終端服務管理體系是有豐富內涵的,既有橫向的融合技術架構,又有縱向的生命周期管理。
4. 實踐效果
由于我們把目標限定于IT維護管理的一個小范圍,很快就取得了預期的效果。可以從以下幾個方面體現:
安全事件大大降低
隨著系統上線,逐步優化使用以來,每天的終端病毒感染量逐漸下降,由原來的每天幾十臺下降到每天5-6臺。大規模的蠕蟲、ARP病毒在新的架構布署以后沒有爆發過。
下一步我們計劃從源頭上阻止惡意威脅進入。
PC利用率大大提高
原來呼叫中心的很多PC因為病毒、硬件故障、系統安裝和配置等各種原因無法使用,隨著系統上線后,病毒問題減少,維護效率提高,大大提高了PC的利用率。
提高信息內容控制的級別
客服系統由于會接觸到敏感的客戶信息,對于信息的保護一直是管理工作的一個重大目標,新系統通過采用軟件層的強制手段消除了終端的安全與信息泄漏隱患,如禁止使用USB設備,禁止訪問與業務無關的網站等。
運維效率提高
系統上線前,大量重復性工作需要管理員人工完成,現在大部分可以通過調度任務,由系統自動完成,OS部署、軟件分發、補丁修復、故障處理所占用管理員的工作量大大降低,運維效率提高了。
任何一項創新都離不開實事求是與客觀的態度。正是由于江蘇移動信息技術中心的團隊強調從實際需求出發去構思,注重實際環境的測試,并在實際生產中運用了實踐和培訓相結合的方法,才能實現IT服務水平的提高。