在云計算風起云涌的大背景下,用戶熱衷于選擇IaaS基礎設施服務,主要原因是什么?無需單獨購買服務器等硬件資源,直接在所購買的云平臺部署應用環境,省去了大量的IT基礎投資,也可以隨時獲取更彈性的擴展資源。簡單的說,就是簡單、方便、可靠、成本低。
那么,選擇了云主機,是不是云服務的穩定性和可用性就有保證了?用戶就可以高枕無憂了?如果你這么認為,那么就大錯特錯了。
云主機非常態宕機下的用戶常態反映
從理論上說,云主機是在一組集群服務器上劃分出的多個類似獨立主機的部分,集群中的每臺機器都有云主機的一個鏡像備份。當其中一臺機器出現故障時,系統會自動訪問其他機器上的備份。所以云主機在數據安全、運行穩定性方面比傳統的VPS和服務器更強,而且因為它是虛擬的,費用比獨立服務器要便宜得多,所以云主機性價比還是很高的。
然而云主機因為各種原因出現意外故障而死機的現象卻時有發生。今年6月6日,青云的服務商睿江科技機房因雷暴天氣引發電力故障,導致青云廣東1區全部硬件設備意外關機重啟,青云官網及控制臺短時無法訪問,部署于GD1的用戶業務暫時不可用。6月21日,阿里云香港節點出現全線宕機,業務中斷超過12小時,甚至有部分用戶數據出現損毀,在業界引發軒然大波。
而在國外,云主機宕機事件一樣觸目驚心。單單2014年8月,全球發生了幾起大范圍的宕機事件,為這些云服務商帶來了巨大損失:AWS先后發生兩次宕機,導致其損失700萬美元;蘋果iCloud宕機致使300萬用戶受到影響;谷歌全面宕機,5分鐘全球流量下降40%。
縱觀國內外云主機宕機的情況,宕機的原因可以說是非常態的,是各種各樣的客觀因素造成的,絕大多數是不可控的。但是對用戶的影響卻是致命的,損失巨大,即使中斷1分鐘客戶都是難以忍受的,客戶無法接受宕機以及其造成的損失卻是常態的。
實時監控 及時預警
云主機宕機的元兇是包括CPU、內存、硬盤在內的服務器硬件以及引起服務器故障的機房設施。遠離宕機,除了云主機服務商采用必要保證措施以外,有沒有第三方機構對云主機的性能進行評測,讓用戶對云主機穩定性和可用性有一個客觀的認知呢?答案是肯定的。中國軟件網、海比研究與國內領先的應用性能管理服務商云智慧公司合作,針對目前市場上主流的服務商的云主機,在業內首次推出云主機性能評測報告。
此次性能評測覆蓋了百度云、美團云、騰訊云、金山云、阿里云、青云、西部數碼、首都在線、ucloud、華為云、天翼云、安暢網絡、沃云等目前市場上國內主流云服務商。此次評測采用了統一的硬件配置,所選擇的云主機基礎硬件環境均為8核CPU(騰訊、美團、青云為虛擬機CPU)、8GB內存、2M帶寬,系統為Linux 2.6.32的64位版本。通過云智慧監控寶部署在全國范圍的數百個監測點,真實模擬用戶訪問行為,對云主機性能從服務器監控、網站監控等維度進行全方位檢測。
此次評測中服務器性能監控是指針對服務器系統的運行狀態以及各項指標的監控,是的包括CPU平均使用率、CPU負載、內存平均使用率、磁盤I/O寫入平均流量、磁盤I/O讀取平均流量等。7月6日當天監測數據如下表所示。
怎么看這些數據呢?正常的服務器工作狀態是CPU使用率在50%-60%之間,內存在50%-70%之間,超過這個極限值,運維人員就需特別關注,且要發出預警。CPU負載就是CPU的工作量,多核CPU能夠并行處理的事務的數量應該是個數與核數的乘積,CPU的負載數最好不要超過這個數值。CPU負載太高,即目前工作量已經接近于CPU的最大計算能力了,應該發出預警。而硬盤I/O是云主機性能的最大瓶頸,它不僅會影響高并發時服務器的響應速度,更會對數據庫性能的產生影響。當I/O性能大幅降低時,應該及時發出預警,進行必要的干預。
目前,云智慧的監控寶可以根據服務等級協議設置告警,只要指標超過設定值,監控寶就可以第一時間向用戶發送告警通知。監控寶覆蓋的告警通知方式包括郵件、短信、App Push、電話語音、URL回調通知等。
在本次評測中,我們在國內主要的服務商的云主機上都部署監控寶,分別對其以上指標做了詳細的采集和數據分析,用真實的數據向外界展示了當前國內的云服務商的運行質量,是用戶選擇合適的云主機提供商、杜絕宕機、減少損失的可靠參考。