試想一下,一名區域經理打電話稱:他手下所有的員工都無法訪問網絡了,電子郵件無法收發,連接關鍵銷售應用的接口無法工作,公司每時每刻都在蒙受經濟損失。遇到這種情況下你應該怎么辦?
幸運的是,我們不會經常遇到這種公司IT災難。但是在IT災難發生時,你需要迅速采取措施,冷靜地解決出現的問題。為此,我們在下面為大家總結了一個可以解決任何網絡危機的指南。該指南分五個步驟,并且簡單易行。
步驟1:診斷問題
發生了什么問題?此時應當召集技術專家,切實搞清楚到底是哪里發生了故障。首先由誰來確定故障?如果出現了故障,應當采取什么措施,這些措施是否能夠解決出現的故障?解決問題的最佳方法是組成團隊展開聯合調查。在成立聯合調查組后,由調查組梳理情況,診斷故障,調查組成員最好在同一地點工作。首先要提出質疑,獲取日志文件,查看性能報告和錯誤信息。然后,使用所有能夠使用的診斷工具。雖然這么做可能難以確定導致故障的根本原因,但是我們還應當要做這些工作。
步驟2:充分理解故障所產生的影響
在清楚了導致故障的原因后,你還需要搞清楚它們將會對哪些工作產生影響。故障是影響到了所有的工作,還是僅僅影響到了一個站點或是一個應用,還是僅僅影響到了使用某一接口的員工。查看一下服務中心,看一下哪些員工提交了網絡連接故障報修單。在做這一工作的同時還應當提醒服務中心人員,他們可能會收到大量類似問題的報修電話。
搞清楚故障的影響范圍將有助于評估問題的嚴重性,幫助確定解決問題的優先順序。總的來說,如果故障僅僅影響到一個人,那么與影響到多個站點或多名用戶的故障相比,這一故障的緊急程度就要相對低一些。當然,如果發生故障的線路是連接首席執行官辦公室的VPN就要另當別論了。
步驟3:行動規劃
如果網絡發生了故障,你應當做些什么?如果是真實的故障,你可能無法憑借自己的力量解決這些故障,因此你應當打電話給自己的團隊尋求幫助。將團隊召集起來后,你可能會找到多個解決方案。在這些解決方案中,有些方案執行起來肯定會快一些。在任何人采取行動之前,應當對將要實施的解決方案形成一致意見。
通常,你會發現,首先需要采取一個權宜之計,快速對業務進行失效備援,讓業務運轉起來。然后再(或同時)采取一個綜合性解決方案。這樣一來,你將獲得充足的時間來解決故障,并且不會對臨時性解決方案依賴太久。
需要牢記的是,應當給團隊成員指定任務,讓每個人都清楚他們下一步將要做些什么,同時還應當為分配的任務設定一個完成時限。
步驟4:動手解決問題
現在每個人都清楚他們應當做些什么工作了。除了動手排除故障外,還應當定期召開情況分析會,聽取工作進展報告。解決方案中的某些部分的工作完成起來可能要比其它部分要快,如果出現這種情況,應當及時進行調整,確保每個人都有事做。
與此同時,還應當盡快啟動網絡監控,密切關注診斷工作,查看一下你所做的工作是否與實際情況存在差距。
此外,及時在服務中心上公布故障排除進展和解決方案規劃是一個很好的主意。這樣一來,服務中心工作人員就可以及時向打電話投訴或報修的終端用戶進行詳細的解釋。
步驟5:危機回顧
在危機結束,業務恢復正常運轉后,你的解決方案工作的如何?在解決了危機后,不要迅速結束危機管理。在事件平息下來后,回顧一下發生的故障將有助于確保相同的故障不再發生。從事件經歷中或許能夠學到一些經驗教訓。如果可能的話,應當與團隊中的每名成員分享這些經驗教訓,并且應當花時間總結一些預防措施,防止未來再次發生類似的災難。
為了防止在需要的時候無法查閱,我們建議大家將這一指南放到隨時隨地可以訪問到的地方。此外,我們還建議將這些經驗與團隊成員進行分享,讓他們也知道在危機來襲時應當做哪些工作。這樣一來,你就有信心自己有能力應對出現的任何問題。最好的網絡團隊應當時刻為應對最壞的情況做好準備,即使最壞的情況從來都沒有發生過。