相對于PC來說,服務器擁有更高的可用性和可靠性。隨著信息化的不斷深入和關鍵業務平臺的IT信息化進程的推進,使得服務器面臨著有史以來最沉重的壓力,尤其是在ISP、NCP、金融、電信、證券、能源、科研等行業和部門的應用需求,對服務器不斷提出挑戰。
這種挑戰其實本質上就是7*24全天候穩定運行。如何確保在突發情況下服務器能夠正常運轉,并確保故障出現的時候不會帶來業務的中斷運行,成為了服務器容錯技術的重中之重。
“容錯”,顧名思義是服務器對于系統運行中產生的錯誤、故障的容納、糾錯能力,它是企業級應用中對于服務器穩定性追求的目標。人們俗稱的99.999%就是對于服務器系統高穩定性訴求的直觀體現。容錯服務器能夠允許出現一定的錯誤(故障),這些服務器通常都具備有自動修復和支持冗余的功能模塊。當錯誤或者故障出現的時候,這些出錯的部件可以得到及時的修復或者切換,從而確保服務器不間斷運行。在目前,服務器的容錯技術主要集中在服務器集群、雙機冗余備份、單機容錯技術三種。
服務器容錯技術并不是近幾年才出現,早在上世紀八十年代的時候就已經出現并得到應用。容錯其實是來自國外(Fault Tolerant)的意譯,該詞最早來自當時著名的Stratus公司。在上世紀八十年代第一代容錯技術開始進入商用領域。當時主要被應用在金融、電信、證券、航空等行業領域。
隨后,服務器容錯技術得到進一步發展,并先后經歷了二代I860、三代HP PA-RISC、四代IA架構容錯技術發展。目前談論的服務器容錯技術其實更主要的是針對單臺服務器而言。這種方式相比其他方式成本較低、容錯能力較高、可滿足大多數用戶的需求。接下來,我們會重點談談單機和雙機(冗余)容錯技術。
前面我們講過,服務器容錯技術主要由服務器集群、雙機熱備份和單機容錯技術。在這三種服務器容錯技術中,它們呈由低到高的級別遞進,也就是單機容錯技術級別最高,而集群技術的容錯技術級別最低。
雙機熱備份技術是一種系統級的容錯技術,也就是采用軟硬一體的方式來實現容錯。一般它們是在兩臺服務器之外額外增添一個共享磁盤陣列,或者兩臺服務器中的RAID陣列,并通過相應的雙機熱備份軟件共同實現。
雙機熱備實現容錯
雙機熱備容錯技術,主要是“雙保險”的機制來確保其中任何一臺服務器出現故障,及時由另外一臺機器切換并保證業務的連續運行。不過,由于這種方式往往需要借助另外一臺服務器時刻處于后備狀態,對于硬件設施的投入和計算資源的利用來說,存在一定的浪費。
相比之下,單機容錯技術則主要是通過部件冗余的方式來實現。這種單機容錯技術的容錯能力比服務器集群、雙機熱備的容錯能力都要高。
容錯服務器通常對CPU、內存、磁盤和網卡甚至電源實現冗余備份,在任何部件出現問題的時候都不會造成系統宕機和數據丟失。目前很多基于工業標準的x86服務器都能實現這種冗余容錯機制,而且是以更具成本優勢的方式來實現。
容錯服務器是通過硬件部件的冗余設計和同步技術,確保故障帶來的影響降至最低。目前容錯服務器主要圍繞處理器來展開,就目前來說,很多服務器廠商都有自己的容錯服務器。
比如惠普就提供有專門面向關鍵業務容錯技術的NonStop(包括NonStop S和Integrity NonStop)系列服務器,該系列服務器就是根據處理器的不同而被劃分成兩大類,也就是采用MIPS的NonStop S和采用英特爾安騰芯片的Integrity NonStop服務器。
基于安騰架構的Integrity NonStop NS2100
Integrity NonStop具有很多新的設計,其產品家族分為入門級、中高端和最高端服務器。去年惠普還拓展了安騰服務器家族,推出了適用于異構環境的NS2100、NS2200。另外還有兩家比較著名的容錯服務器廠商,包括NEC和Express5800/ft服務器和Stratus的ftServer服務器。后者在容錯服務器技術領域擁有較為成熟的經驗,前后開發出基于Motorola M68000、Intel I860芯片、HP PARISC等不同處理器,以及VOS專有操作系統的服務器產品。后來噶公司逐漸采用了基于Linux、Windows等通用平臺代替專用的VOS操作系統,以降低容錯服務器的應用成本。
NEC Express5800/ft
NEC通過對Stratus進行投資控股,也獲得并采用了與其類似的容錯服務器的開發和推廣策略。在容錯技術領域,NEC早在2001年就推出了首個基于IA架構的容錯服務器。其Express5800/ft系列在Windows及Linux平臺上的可靠性達到了99.999%,這種實時保護技術來源于STRATUS連續處理技術(Fundamentals of Continuous Pro-cessingDesign)。