企業網D1Net 7月25日 數據中心是一個由諸多電子設備構成的復雜信息系統,對外作為一個整體提供各種信息處理,完成各類數據的計算、存儲、下載等服務。對數據中心的任何調整,都會牽涉到所有設備的處理變化,正可謂如多米諾效應,動一發而觸全身。所謂的多米諾效應,是一個叫多米諾的意大利傳教士將宋朝時得到骨牌游戲帶回了米蘭,這種游戲迅速傳遍整個歐洲,成為了歐洲人一項高雅運動。多米諾效應喻指在一個相互聯系的系統中,一個很小的初始能量就可能產生一系列的連鎖反應,最終形成由量變達到質變的過程。
顯然我們不希望在數據中心總會發生這樣的事情,但是數據中心的很多業務正如多米諾骨牌,動一發而觸全身。先來看看網絡部分,傳統網絡都是由二三層網絡構成,STP/OSPF構成了全網最廣泛應用的基礎技術。而STP和OSPF都是全網設備參與計算的協議,對于二層設備,任何一個末端節點的設備就算出現了端口的UP/DOWN,都會影響到全網設備的計算。當然STP協議通過復雜的計算管理著這個巨型的二層王國,各種事件和消息都可能會全網傳播,有時就會引起全網震蕩,這樣的多米諾現象在數據中心里并不少見。OSPF協議是路由學習協議,全網設備要實現全互通,需要OSPF協議維護全網所有網絡設備的路由表,當一臺設備的路由表發生變化時,它需要通知全網的設備進行路由更新。可見,數據中心網絡作為一個整體,需要對變化的細節做出響應,這樣必然帶來多米諾效應。為了消除這樣的影響,往往通過一些技術手段去削弱這種變化。比如:STP支持實例的劃分,將整個數據中心網絡劃分為多個實例,實例之間是隔離的,當網絡拓撲發生變化時,僅僅影響實例內的設備,實例之外的設備不受影響。OSPF也可以將設備劃分到不同的區域中,路由分為區域內路由和域間路由,當一個區域內的路由變化時,統一通過邊緣路由器發給別的區域,即域間路由。這樣就能有效減少全網的協議震蕩,保持全網路由穩定。確保數據中心網絡不再發生多米諾效應的方法還有不少,這些技術的宗旨就是將危險消除于搖籃之中。
除了網絡,對于服務器設備也是同樣。在數據中心里,服務器的數量最大,服務器主要是計算的功能,一般的數據中心都會擁有數百甚至數千臺的服務器。這些服務器承載著各種各樣的業務。很多業務是要很多臺服務器共同完成的,所以當一臺服務器異常時,可能導致整個業務無法正常運行。比如在計費系統中,如果計算的服務器出現了故障,導致消息記錄堆積,可能導致無法進行正常的計費或者記錄的信息都是錯誤的。實際上在一個計費系統中,還有客戶前端,后期統計,數據存儲等部分,都因為計費服務器的故障而導致整個系統無法正常運行,產生了多米諾效應。解決這類問題出現的方式是采用集群的技術,即多臺服務器虛擬化為一臺設備,處理相同的應用,當其中一臺服務器故障時,立即由集群中的其它設備接管,應用層根本感知不到這種變化。這種集群技術是現代數據中心所必須的,尤其是一些大型數據中心,大型數據中心一般擁有成千上萬臺的服務器,幾乎天天都有設備故障,只有通過集群技術才能確保業務不受影響。
防火墻是數據中心安全的保護神,通過防火墻可以有效攔截針對數據中心的各種攻擊。一般有硬件防火墻和軟件防火墻之分,硬件防火墻一般用于部署在數據中心流量出入口的地方,對數據中心整體流量進行監測。顯然一旦防火墻故障,帶來的影響是嚴重的,整個數據中心的業務全部會掛掉,防火墻的過濾規則設計也非常重要,由于針對的是整網的流量,要考慮周全,不合理的過濾規則仍然可能導致業務無法進行。為了防止防火墻出現故障,一般我們通過部署主備防火墻甚至虛擬防火墻技術,當主用防火墻出現故障時,及時將流量切到備用上來,確保流量不受影響。軟件防火墻一般統一安裝在所有服務器上,當軟件防火墻有BUG,所有的服務器都會受到影響,影響面巨大。軟件防火墻可以對具體應用進行全面防護,正是介入到應用層過深,所以防火墻對業務的影響也是很難發現的,這讓一些隱患早期很難被人所發現,等到問題暴露出來已經晚了,已經無法再對業務進行修復,就算卸掉防火墻也無濟于事。這時重裝系統,重新部署各種應用是唯一的方法,這給數據中心和維護人員都增加了不少工作量。
當然除了這些重要承載業務的關鍵設備,還有很多小的隱患,若不及時消除可能帶來巨大損失。比如:有的設備內存占用率比較高,雖然不影響業務,但隨著占用率的逐步提升,設備的軟件應用在申請內存時頻繁出現失敗,就會不斷有業務中斷。當發現設備的內存利用率超過50%時,應該引起重視,及時消除。除了內存占用率,設備CPU占用率,設備運行環境溫度,各種日志告警,電源風扇異常等小毛病都需要引起足夠的重視,當業務正常時,往往忽視這些告警的存在,但長期以往,小問題就會引發大事故。重視細節,才能徹底消除導致故障的多米諾效應。
“細節決定成敗”這句話是對多米諾效應解決方法的最好詮釋,只有重視細節,不放過任何一個小小的隱患,才能避免多米諾效應的事故發生。我們應該避免在數據中心內部部署易于產生多米諾效應的設備與技術,讓數據中心各個模塊之間相互隔離,但又彼此保持著各種聯系。模塊之間通過各種接口完成業務交互,各模塊獨立運行,避免對業務產生共振,觸發多米諾效應。