我們過著忙碌的日子,這讓大家都毫無耐心可言;需要多個步驟的私人任務會讓人覺得難以對付。一個典型的例子是:預先規劃,為全家出行訂購機票。
比如說,你好不容易擠出半小時的時間上網購票,看看大家有沒有空,到了秋天探望外婆,以便能在機票大促銷之際淘到實惠。可是如果你訪問不了經常光顧的那家航空公司的網站,或者訪問起來速度特慢,因而無法完成購票,那種沮喪可想而知。你是說“好吧”,過后再試一試,還是會去查看其他航空公司的機票?極有可能會是后者,此外你可能惱怒不已,于是在社交網站上吐槽這次糟糕的經歷。
美國西南航空公司在今年6月初遇到了網站速度變慢持續多日的故障,當時它正在搞秋季機票促銷的活動。高出預期的網站流量導致其網站速度大幅下降,以至于對大多數客戶來說,網頁超時打不開。更要命的是,免費熱線電話同樣打爆了,根本打不進去。西南航空公司照例料到了每年秋季機票促銷會迎來更旺盛的需求,但事先投入的額外容量不夠充足。這番解釋不可能讓覺得不便的客戶感到滿意,也不可能讓哀嘆收入損失的主管們感到滿意。
在我們這個始終聯通的無線世界,廣大客戶對電子商務的要求在不斷地迅速提高。哪怕網站性能差強人意幾秒鐘(更不用說幾天了!),就足以將忠誠的客戶送到他人懷里。IT部門證明自身價值的辦法就是,通過成熟的、優化的容量管理,讓業務部門能夠滿足這些更高的要求。
那么,企業組織如何才能避免諸如此類的客戶服務災難呢?這歸結為做好容量管理的四個必要部分:預測及預防、分析有意義的度量指標、規劃時兼顧業務需要以及反復測試。
預測及預防
想避免收入和信譽損失、客戶流失,最好的辦法就是預防停運,尤其是無法怪罪于重大災難的那種日常故障。要收集和分析機器、電源、日志、使用情況和成本數據,尤其要注重性能和資源使用情況。詳細地清查和評估當前容量。與面向客戶的業務部門合作,根據歷史數據以及規劃的未來項目,共同找出使用方面的趨勢。
一旦你收集并關聯了有意義的數據集,就可以運用預測性分析手段了。這樣一來,可以對照數據(根據當前容量及/或規劃容量)模擬場景,那樣讓IT部門可以預測停運事件有可能因過度使用或機器故障而出現在哪個時間點。利用詳細的數據深入挖掘,分析導致任何意外結果的根源,那樣就能查明弱點,一勞永逸地加以解決,以便演變成令人尷尬的公眾事件。
數據驅動的智能預測(可能的話還有模擬)可以揭示流量方面預計增長或猛增的級聯效應。有了準確的預測,才有可能認真而經濟高效地配置足夠的資源,根據需要滿足需求,而不是在容量匱乏影響最終用戶后,隨意地添加容量。
分析響應,而不是分析機器利用率
由于數據中心中生成那么多的數據,可能很難知道該分析哪些數據,而IT部門常常分神,把注意力放在只能表明部分情況的度量指標上。要關注性能,而不是機器利用率;要了解你的客戶如何訪問、何時訪問及為何訪問你的網站,以及他們對網站性能有怎樣的要求。開清楚最終用戶的實際要求和體驗。如果規劃未來的業務項目,務必要明白業務目標,還要明白最終用戶需要實施的變化理應解決什么樣的問題。
在技術方面,認真分析延遲和響應時間,以便從統計學角度準確洞察最終用戶體驗。分析工作負載事務、應用程序性能和虛擬機,看看多少時間用在服務活動上、又有多少時間用在等待資源上。進行必要的調整,以便針對面向最終用戶的工作負載和事務進行優化。
合理規劃
如果說一分預防勝過十分治療,那么妥善的計劃可以避免大量的補救。要預料到銷售(想想西南航空公司)、促銷、部署新的應用程序和網站、季節性或時段性流量激增帶來的影響。做這種類型的規劃時,與業務部門(營銷、促銷和運營等部門)進行合作很重要,其重要性再怎么強調都不為過。規劃架構升級時,別忘了運行模擬所需要的時間和資源,那樣你才能準確地了解架構在各種場景下對最終用戶而言會有怎樣的性能。
你不可能預測每一種可能的結果,也不可能控制每一個因素,所以規劃響應停運或速度減慢的體系很要緊。響應的速度和效果關系到停運是小問題還是大災難。西南航空公司的停運事件整整延續了兩天,這在分秒必爭的電子商務時代簡直不可想象,大量的電話很快讓網站之外的唯一選擇:熱線電話也不堪重負。事件響應規劃是企業核心服務和競爭能力的一個重要組成部分。
反復測試
與合理規劃一樣,測試也需要時間和資源,而證明有必要為測試投入時間和資源可能有難度。記住這一點很重要,全面的、針對性的測試能揭示不可預見的不兼容性、故障和容量問題。今年早些時候,一臺內部域名服務器(DNS)上所犯的配置錯誤導致iTunes和蘋果商店停運,結果讓蘋果在短短12個小時損失了估計2500萬美元的收入。
在每次變化或升級前后都要進行測試。測試人員往往忽視了之前或之后的測試,或者只管測試,而不解釋測試結果的種種差異。針對各種場景反復測試有助于防止客戶流失和收入流失,服務出現故障后常常會出現這種雙重流失。它還避免了令人尷尬的公眾事件以及隨后而來的品牌或名譽受損,而這會帶來深遠的影響。
healthcare.gov網站大癱瘓就是個典型的警世故事;缺少規劃和測試引起的大范圍服務故障和延遲在社會、經濟和公共福利方面帶來了深遠影響,可能多年過后仍沒有消散。
在巨大而復雜的網站和在線服務生態系統中,想確保完美無缺的性能,要兼顧太多的因素。保持競爭優勢取決于贏得并留住滿意的客戶,要是沒有經過優化的IT服務交付體系,就很難做到這一點。只有結合數據,深入了解你的系統以及客戶如何與系統進行互動,做好容量規劃和測試工作,才是確?;A設施有彈性、業務獲得發展的關鍵。
英文:4 Steps To Prevent Infrastructure Outages