很多時候,我們認為災害離我們很遠,但是當災害發生后,我們往往追悔莫及。在數據中心管理方面,我們也需要將那些想當然的經驗主義錯誤消滅在萌芽,任何事都沒有表面看起來那么簡單。無論是你建立數據中新還是管理它,再小概率的事件都有發生的可能,因此數據中心管理者必須始終極為謹慎,做好災備工作,將災害對數據中心的影響降到最低。
小概率事件也有發生的可能
Rackspace公司的主機托管業務及由其承載的Mosso Cloud運行在位于達拉斯的同一座數據中心內部,但2007年11月13日一場無妄之災使其在數小時內陷入了癱瘓。
一位患有糖尿病的大型四驅車司機,由于病發而出現短暫昏迷,而撞上了一棟容納著Rackspace基礎設施供電裝置的建筑物,導致電力供應中斷了。事故造成兩套冷卻機組無法重新啟動,使數據中心出現了過熱。這次中斷一直持續了五個小時,據報道稱Rackspace公司還為此次事故向客戶支付了350萬美元賠償金。
另一個事件,2015年1月9號,一座將被作為Amazon.com數據中心的大型建筑物發生火災,起因則是一名焊工不慎點燃了現場的建筑材料。此次火災觸發了弗吉尼亞州阿什本當地的三級警報。濃烈的黑煙在幾英里之外都清晰可見。
Amazon公司發言人在接受當地ABC新聞媒體采訪時指出,此次火災造成了大約10萬美元損失,但同時補充稱“并沒有對Amazon業務運營帶來任何影響”。
四大災備技術
現在的數據中心承載的業務越來越重要,引入有效的災備技術必不可少,可以有效的能減少數據中心發生故障時帶來的損失。數據中心整體災備技術可以分為以下四種:
冷備
冷備技術是中小型數據中心或者承載業務不重要的局點經常使用的災備技術。冷備技術的用站點通常是空站點,一般用于緊急情況;或者僅僅是布線、通電后的設備。這種方式數據中心業務恢復的時間難以保證,有時臨時搭建的平臺也可能因為不穩定而再次出現中斷。但這種方式不必準備大量的空閑設備,維護成本可以忽略不計。但目前,冷備技術已經越來越無法適應數據中心高要求的發展,逐漸成為一種淘汰的技術方式。
暖備
暖備技術是在主備數據中心的基礎上實現的,前提是擁有兩個一主一備的數據中心。備用數據中心為暖備部署,應用業務由主用數據中心響應,當主用數據中心出現故障造成該業務不可用時,需要在規定的RTO時間以內,實現數據中心的整體切換。當實現主備數據中心切換時,需要斷開主用數據中心路由鏈路,并連接備用數據中心路由鏈路,保證同一時間只有一個數據中心在線。暖備技術還是手工方式,操作時需要有人24小時值守才能完成,工作效果較低。
熱備
相比暖備,熱備最重要的特點是實現了整體自動切換,其它和暖備實現基本一致,實現熱備的數據中心僅比暖備的數據中心要多部署一項軟件,軟件可以自動感知數據中心故障并且保證應用業務實現自動切換。業務由主用數據中心響應,當出現數據中心故障造成該業務不可用時,需要在規定的RTO時間內,自動將該業務切換至備用數據中心。
雙活/多活
通過雙活技術可以實現主備數據中心均對外提供服務,正常工作時兩個數據中心的業務可根據權重做負載分擔,沒有主備之分,分別響應一部分用戶,權重可以是按地域劃分,或數據中心服務能力或對外帶寬。當其中一個數據中心出現故障時,另一數據中心將承擔所有業務。除了雙活技術還有多活技術,多活就是業務在多個數據中心上同時運行,當有一個或多個數據中心故障時,其它數據中心將自動接管所有應用業務。具體實現上,多活技術部署了很多種檢測故障的方式,還可以實時檢測服務器的運行狀態、服務器負載均衡的情況,即使在沒有故障的時候也可以根據應用業務量在多活數據中心之間調整。多活的最大特點是不會造成數據中心的資源存在浪費,數據中心都承載應用業務運行。但投入成本也會高,實現技術也更為復雜,現在在金融行業、互聯網行業的數據中心都樂于采用多活技術。[返回頻道首頁]
四種災備技術對比