你要認識到正常運行時間的重要性,以及如何在數據中心最大限度地延長正常運行時間。
哪怕系統停機時間只有短短幾分鐘,都有可能降低生產力、導致你失去潛在的銷售額,或者造成更嚴重的后果,具體要看受到影響的是什么系統。但是你心里可能會問:99.9%的正常運行時間與99.99%的正常運行時間到底有啥區別?為了獲得更多的一個9或兩個9,不惜投入成本值不值得?Uptime軟件公司首席執行官Phil Didaskalou為貴公司描述了一種可能很嚇人的情景,這個場景表明了正常運行時間到底有多么重要、為什么多一個9關系那么大。
“你已經比較了其他供應商,看了看自己的預算,一切看起來都基本上都在你的承受能力范圍之內,于是與那家供應商簽了合約,信心十足地認為,99.9%的正常運行時間對貴公司來說夠好了,”Didaskalou說。“兩個星期后,貴公司在周三下午1點啟動了年度促銷活動,向受眾發出了40 萬封電子郵件——你認為在這個時間段開展這項年度促銷活動最合適,可以覆蓋到你的受眾。一個小時后,你這家新的網站托管提供商整整停機了20分鐘。從統計學上來說,你知道,電子郵件接收者大多會在促銷活動的60分鐘內打開和點擊瀏覽你的促銷內容。那么,這到底有什么后果呢?你很可能剛剛失去了30%的受眾。”
一連串9到底說明了什么?
你只要稍微簡單算一下(一年8760小時乘以0.001或0.0001等),就會明白,如果正常運行時間是99.9%、99.99%或 99.999%,那么預計全年的總停機時間分別是8.76個小時、52.6分鐘和5.26分鐘。一般來說,正常運行時間比例中9的個數越多,你遇到長時間停機的可能性就越小。
如果貴公司主要通過網站來賣產品,那么不難看出這些正常運行時間比例對貴公司會帶來怎樣的影響。設想一下:你每分鐘可以賣掉價值100美元的商品。如果是99.9%的正常運行時間,那么你每年損失的銷售額很可能超過5萬美元;相比之下,如果是99.999%的正常運行時間,那么只會損失526美元。但是這還有其他影響,比如說頻繁停機有損貴公司的聲譽。
從公司內部的角度來看,停機時間對生產力大有影響。如果員工們無法穩定地訪問服務器、網絡及其他的必要工具,他們就很難順利完成工作。最重要的事情是找到這樣的正常運行時間解決方案:不僅成本合理,還可以確保貴公司不會在無法接受的時間段遭遇停機。
選購解決方案
在你開始選購正常運行時間解決方案之前,你必須先關注貴公司的要求。你得找到這樣的產品:既適用于虛擬環境和云環境,又適用于你的所有物理服務器,而且能夠正確地計算出正常運行時間,那樣你就能對基礎架構進行相應的優化。
Didaskalou表示,你還應該確定一天當中哪些時間段確保正常運行時間最重要,確定應該多么頻繁地監控應用程序和服務,確定在非工作時間多長的停機時間是可以接受的。而一旦你搞清楚了這些問題,就可以比較分析所有可能的服務提供商,確保他們的能力與貴公司需要的能力相一致。
Didaskalou說:“我會建議探究得更深入一些。應詢問對方使用什么監控工具,對方在什么平臺上運行監控軟件,針對監控和主機托管基礎架構落實了什么硬件備份和故障切換系統。”
Didaskalou建議,公司應該監控和計算自己實際的正常運行時間和停機時間,確保自己實際得到的正常運行時間就是掏錢購買的那種正常運行時間,因為選擇99.999%而不是99.99%需要一筆相當龐大的投入。你進行的監控越頻繁、越準確,發現一致或不一致的可能性也就越大。
學習與改進
如果公司明白正常運行時間有多重要、哪些是最關鍵的時間段,以及需要怎樣長的正常運行時間才能確保成功,很顯然將處于領先位置,但不能滿足于此。你一定要搞清楚自己的應用程序、服務及其他業務工具中哪些最容易出現潛在的停機,然后要想方設法來防止停運。你還必須充分了解正常運行時間的每一個方面和你所使用的服務,那樣才能提高效率,并確保客戶始終隨時可用。Didaskalou還給出了需要牢記的另外幾個注意事項,那樣你就能避免最糟糕的情況。
他勸告:“要知道正常運行時間對貴公司的業務來說意味著什么,要明確關鍵時間段和非工作時間段。確立可用性方面的目標,并記入文檔。要在你的操作人員當中營造恪守職責、關注客戶的文化氛圍。部署成熟可靠的工具,要有準確監控、提醒和服務級別協議(SLA)報告等機制,從而建立必要的反饋回路。確保你明白自己的SLA意味著什么,還要明白提供商所使用數據的完整性。”
文章要點
·正常運行時間極其重要,有助于維護貴公司的聲譽,讓你的產品和服務對客戶來說隨時可用,以及在高峰經營時間保持高效運作。
·多一個9就無異于縮短了停機時間,只要你用來計算貴公司正常運行時間和停機時間的服務很適宜。
·要延長正常運行時間,關鍵是知道貴公司需要什么,并不斷監控你的應用程序和基礎架構,以便找到薄弱環節。
鏈接:更到位的監控間隔意味著衡量起來更精確
一些正常運行時間監控解決方案只能在5分鐘或10分鐘的間隔里檢查服務和應用程序,因而可能會漏過在此期間短暫的停機時間段。這可能導致監控結果不準確,以為正常運行時間比例讓人比較滿意,實則不然。
要解決這個問題,最好的辦法就是你自己定期監控正常運行時間,或者找到能夠以盡可能小的時間間隔來進行監控的解決方案。如果你沒有不斷監控自己的系統,最后有可能掏99.999%正常運行時間的錢,一年下來得到的只有99.99%或更差勁的服務。