一般來說服務器的可持續工作能力通常用MTBF(平均無故障時間)來衡量的。服務器每年的宕機時間都非常短暫,當服務器可靠性為99%時,每年停機大約在87.6 小時;但當可靠性高達5個9的時候即99.999%,它年停機時間僅為5分鐘了。那么為什么服務器能長時間持續地工作呢?
運行環境
首先是運行環境,一般機房要求無塵,室內環境良好,溫度控制在零上4到40度,否者對電子零件有影響。通常電子信息設備的工作環境溫度應在18℃~30℃之間,溫度過高或過低將使計算機受到損害并加速其老化,從而影響服務器的使用壽命。因此,服務器一般都放在空氣流動的地方,有24小時的空調為其服務。
運行狀態
服務器的運行狀態影響著其使用壽命,一般服務器CPU的負荷總在80%以上會對風扇和CPU的壽命都有影響,所以服務器一般不會超頻工作。另外工作人員也會定期檢查服務器的硬件工作狀態,有小問題及時解決。應該能用五年以上。
谷歌數據中心一隅
可靠的電源
服務器的工作離不開電源,同時電源也是計算機產生故障的主要因素。首先,必須確保服務器使用的是適當功率的電源。服務器電源的電壓一般為220V/50Hz,并朝著低壓化、大功率化、高密度、高效率、分布式化等方向發展。UPS保證了服務器在突然斷電等狀況下還可以繼續工作。其次,服務器所使用的電源與照明電源分開,使用單獨的插座。
強大的硬件條件
服務器也是電腦,但一般來說,服務器是比較特殊的機器,因為“工作崗位”的關系,有些地方設計得更“特別”一點。針對服務器穩定壓倒一切的特點,服務器 CPU內置多種容錯糾錯機制;內存使用帶ECC校驗芯片的內存,數據干擾出錯風險比非ECC內存降低很多;服務器用的都是純銅散熱器、純銅散熱片,而且機箱風扇也都裝到位了。內置的集成顯卡大多數時間不需要工作。主板都是6層以上PCB,硬盤設計壽命是普通硬盤的2倍等等,這些硬件的設計為服務器的穩定提供了進一步的支撐。
專用的操作系統
專為服務器設計的Windows Server以及Unix和Linux類操作系統可以在不需要外接顯示器的情況下,關掉圖形化界面的服務程序,甚至服務器的操作系統默認連聲卡都沒開啟的。專用的操作系統提供了高安全性、高可靠性、高可用性和高可擴展性,為服務器的穩定性做出了巨大貢獻。
冗余設計
冗余,指重復配置系統的一些部件,當系統發生故障時,冗余配置的部件介入并承擔故障部件的工作,由此減少系統的故障時間。高端服務器產品中普遍采用雙電源系統,這兩個電源是負載均衡的,即在系統工作時它們都為系統提供電力,當一個電源出現故障時,另一個電源就承擔所有的負載。有些服務器系統實現了DC的冗余,另一些服務器產品,如Micron公司的NetFRAME 9000實現了AC、DC的全冗余。
優秀的集群架構
如果服務器集群中有一臺出現了硬件故障怎么辦呢,例如cpu或者內存的故障,十分這樣服務器就會掛掉導致宕機呢?其實,我們優秀的軟件工程師設計出集群架構可以讓多臺服務器運行同一個業務,一臺或者多臺服務器離線并不會對整體業務造成嚴重影響。
專業的維護
世界沒有從來不壞的服務器,這是可以肯定的。業務對可靠性的近似苛刻要求也有其不得已的苦衷。根據統計,金融企業每次宕機損失平均為1000萬美元,所造成的無形資產損失更是無法估量。所以專業的維護對于服務器機房來說也是必不可少。服務器在設計的時候做了大量的備份冗余,在使用的時候運維在不停排除故障。專業的維護人員設計了hadoop、hdfs、lvs等等一系列的維護系統和災后修復策略。超多的維護費用、電費、監控費、安保費等為服務器的穩定運行做出了后勤保障。