成本費(fèi)用在增加,資源利用率低下,負(fù)載難以預(yù)測(cè),業(yè)務(wù)需求響應(yīng)緩慢,運(yùn)營管理日趨復(fù)雜,IDC 選擇、系統(tǒng)維護(hù)和運(yùn)維管理占用了大量的時(shí)間和精力等等,一大堆的問題讓企業(yè)IT主管頭疼不已。
幸運(yùn)的是,云計(jì)算的到來基本上解決了IT部門關(guān)注的這些問題。通過按需付費(fèi)模式,降低了客戶基礎(chǔ)設(shè)施的TCO;通過規(guī)模化和自動(dòng)化為客戶提供資源的按需彈性供應(yīng)、快速指配和部署;通過屏蔽基礎(chǔ)設(shè)施的復(fù)雜性,簡(jiǎn)化運(yùn)營管理;客戶還可通過問責(zé)服務(wù)商,得到更高服務(wù)品質(zhì)的保障。
于是,IaaS云主機(jī)成為一個(gè)幸運(yùn)兒,企業(yè)愿意選擇,希望通過云主機(jī)服務(wù),低成本、靈活實(shí)現(xiàn)信息化運(yùn)營,跳出了“喝牛奶也要買牛”的困局,可以更多的將精力集中在主體業(yè)務(wù)上。另一方面,企業(yè)愿意在IaaS云主機(jī)上投資,IaaS云主機(jī)供應(yīng)商如雨后春筍般涌現(xiàn)。
然而IaaS云主機(jī)市場(chǎng)魚龍混雜,有的用戶選擇的云主機(jī),其實(shí)就是一臺(tái)VPS。如何挑選云主機(jī)?除了那些響當(dāng)當(dāng)?shù)钠放仆猓覀儜?yīng)該走進(jìn)云主機(jī)的世界,讓真實(shí)可信的數(shù)據(jù),指導(dǎo)我們的選擇。
用戶真實(shí)應(yīng)用環(huán)境下的性能監(jiān)測(cè)最可信
為了幫助廣大用戶對(duì)市面上提供的主流云服務(wù)的性能有更加精準(zhǔn)的認(rèn)識(shí),更理性的選擇云主機(jī)服務(wù),云智慧與海比研究合作,通過云智慧監(jiān)控寶部署在全國范圍的數(shù)百個(gè)監(jiān)測(cè)點(diǎn),真實(shí)模擬用戶訪問行為,對(duì)市面上流行的云主機(jī)性能從服務(wù)器監(jiān)控、服務(wù)監(jiān)控、網(wǎng)絡(luò)監(jiān)控等維度進(jìn)行全方位檢測(cè)。
所選擇的云主機(jī)基礎(chǔ)硬件環(huán)境均為8核CPU(騰訊、美團(tuán)、青云為虛擬機(jī)CPU),8GB內(nèi)存,2M帶寬,系統(tǒng)為L(zhǎng)inux 2.6.32的64位版本。監(jiān)測(cè)覆蓋了百度云、美團(tuán)云、騰訊云、金山云、阿里云、青云、西部數(shù)碼、首都在線、Ucloud、華為云、天翼云、安暢網(wǎng)絡(luò)、沃云等國內(nèi)主流云服務(wù)商。
云主機(jī)非常態(tài)宕機(jī)下的用戶常態(tài)反映
從理論上說,云主機(jī)是在一組集群服務(wù)器上劃分出的多個(gè)類似獨(dú)立主機(jī)的部分,集群中的每臺(tái)機(jī)器都有云主機(jī)的一個(gè)鏡像備份。當(dāng)其中一臺(tái)機(jī)器出現(xiàn)故障時(shí),系統(tǒng)會(huì)自動(dòng)訪問其他機(jī)器上的備份。所以云主機(jī)在數(shù)據(jù)安全、運(yùn)行穩(wěn)定性方面比傳統(tǒng)的VPS和服務(wù)器更強(qiáng),而且因?yàn)樗翘摂M的,費(fèi)用比獨(dú)立服務(wù)器要便宜得多,所以云主機(jī)性價(jià)比還是很高的。
然而云主機(jī)因?yàn)楦鞣N原因出現(xiàn)意外故障而死機(jī)的現(xiàn)象卻時(shí)有發(fā)生。7月22日,青云用戶大會(huì)當(dāng)天,青云北京機(jī)房遭到攻擊,導(dǎo)致36Kr、GitCafe、SegmentFault等網(wǎng)站和應(yīng)用無法訪問。6月21日,阿里云香港節(jié)點(diǎn)出現(xiàn)全線宕機(jī),業(yè)務(wù)中斷超過12小時(shí),甚至有部分用戶數(shù)據(jù)出現(xiàn)損毀,在業(yè)界引發(fā)軒然大波。
而在國外,云主機(jī)宕機(jī)事件一樣觸目驚心。單單2014年8月,全球發(fā)生了幾起大范圍的宕機(jī)事件,為這些云服務(wù)商帶來了巨大損失:AWS先后發(fā)生兩次宕機(jī),導(dǎo)致其損失700萬美元;蘋果iCloud宕機(jī)致使300萬用戶受到影響;谷歌全面宕機(jī),5分鐘全球流量下降40%。
縱觀國內(nèi)外云主機(jī)宕機(jī)的情況,宕機(jī)的原因可以說是非常態(tài)的,是各種各樣的客觀因素造成的,絕大多數(shù)是不可控的。但是對(duì)用戶的影響卻是致命的,損失巨大,即使中斷1分鐘客戶都是難以忍受的,客戶無法接受宕機(jī)以及其造成的損失卻是常態(tài)的。
高并發(fā)下主機(jī)性能實(shí)時(shí)監(jiān)測(cè)
云主機(jī)宕機(jī)的元兇主要是由CPU、內(nèi)存、硬盤在內(nèi)的服務(wù)器基礎(chǔ)設(shè)施穩(wěn)定性、可用性方面出現(xiàn)性能瓶頸造成的。遠(yuǎn)離宕機(jī),除了云主機(jī)服務(wù)商采用必要保證措施以外,需要對(duì)云主機(jī)的性能進(jìn)行客觀的評(píng)測(cè),讓用戶對(duì)云主機(jī)穩(wěn)定性和可用性有一個(gè)準(zhǔn)確的認(rèn)知,這也是云智慧希望能幫到廣大用戶的。
此次評(píng)測(cè)中服務(wù)器性能監(jiān)控是指針對(duì)服務(wù)器系統(tǒng)的運(yùn)行狀態(tài)以及各項(xiàng)指標(biāo)的監(jiān)控,包括CPU平均使用率、CPU負(fù)載、內(nèi)存平均使用率、磁盤I/O寫入平均流量、磁盤I/O讀取平均流量等。我們?cè)谠浦鳈C(jī)的初始環(huán)境下,部署了一個(gè)相同版本的PHP博客應(yīng)用WordPress,然后在監(jiān)控寶中選擇100個(gè)遍布全國各主要省市,使用移動(dòng)、聯(lián)通、電信和教育網(wǎng)接入的監(jiān)控點(diǎn),以2分鐘一次的訪問頻率,同時(shí)向云主機(jī)上的WordPress首頁發(fā)起訪問,形成100并發(fā)的真實(shí)訪問壓力,在這個(gè)壓力下測(cè)試獲得云主機(jī)的各項(xiàng)性能指標(biāo),監(jiān)測(cè)數(shù)據(jù)如下表所示。
怎么看這些數(shù)據(jù)呢?正常的服務(wù)器工作狀態(tài)是CPU使用率在50%-60%之間,內(nèi)存在50%-70%之間,超過這個(gè)極限值,運(yùn)維人員就需特別關(guān)注,且要發(fā)出預(yù)警。CPU負(fù)載就是CPU的工作量,多核CPU能夠并行處理的事務(wù)的數(shù)量應(yīng)該是個(gè)數(shù)與核數(shù)的乘積,CPU的負(fù)載數(shù)最好不要超過這個(gè)數(shù)值。CPU負(fù)載太高,即目前工作量已經(jīng)接近于CPU的最大計(jì)算能力了,應(yīng)該發(fā)出預(yù)警。而硬盤I/O是云主機(jī)性能的最大瓶頸,它不僅會(huì)影響高并發(fā)時(shí)服務(wù)器的響應(yīng)速度,更會(huì)對(duì)數(shù)據(jù)庫性能的產(chǎn)生影響。當(dāng)I/O性能大幅降低時(shí),應(yīng)該及時(shí)發(fā)出預(yù)警,進(jìn)行必要的干預(yù)。
網(wǎng)絡(luò)質(zhì)量是影響云服務(wù)的最大因素
如果云主機(jī)的硬件配置、I/O性能決定了企業(yè)應(yīng)用的可用性,那么云主機(jī)的帶寬質(zhì)量無疑是影響網(wǎng)站或應(yīng)用響應(yīng)時(shí)間的重要因素。網(wǎng)絡(luò)帶寬是指在一個(gè)固定的時(shí)間內(nèi)(1秒),能通過的最大位數(shù)據(jù)。就好象高速公路的車道一樣,帶寬越大,好比車道越多。網(wǎng)絡(luò)帶寬作為衡量網(wǎng)絡(luò)使用情況的一個(gè)重要指標(biāo),也是互聯(lián)網(wǎng)用戶包括云服務(wù)用戶選擇互聯(lián)網(wǎng)接入服務(wù)商的主要因素。
現(xiàn)在網(wǎng)絡(luò)帶寬種類很多,有雙線、單線、多線、BGP等。不同的云服務(wù)商會(huì)提供云主機(jī)+帶寬不同方案。通常來說,雙線、多線、BGP適用于覆蓋全國的應(yīng)用,其中單線是指這個(gè)IDC機(jī)房要么是聯(lián)通線路接入,要么是電信線路接入;雙線是機(jī)房由電信、聯(lián)通兩條線路同時(shí)接入的,因?yàn)殡p線有兩條線路接入,所以無論是電信還是聯(lián)通用戶都可以快速訪問;而采用BGP機(jī)房的云服務(wù)器能輕松實(shí)現(xiàn)單IP多線路,幾乎沒有跨網(wǎng)瓶頸,也是速度最快的。客戶應(yīng)當(dāng)根據(jù)自己的用戶覆蓋范圍合理選擇帶寬配置。
誠然,服務(wù)器性能、程序架構(gòu)、帶寬質(zhì)量都會(huì)對(duì)網(wǎng)站的響應(yīng)速度產(chǎn)生影響,但從近期頻發(fā)的云主機(jī)事故來看,網(wǎng)絡(luò)是最容易對(duì)云服務(wù)造成影響的因素。因此,業(yè)內(nèi)專家一般用網(wǎng)絡(luò)性能作為評(píng)價(jià)云主機(jī)性能的主要指標(biāo)。
分布式監(jiān)測(cè)網(wǎng)絡(luò)評(píng)估真實(shí)網(wǎng)絡(luò)性能
通常的網(wǎng)絡(luò)測(cè)試受到條件限制,只能用非常有限的網(wǎng)絡(luò)接入點(diǎn)和接入方式進(jìn)行網(wǎng)絡(luò)質(zhì)量的檢測(cè)和評(píng)估,得到的數(shù)據(jù)樣本未必準(zhǔn)確。云智慧自產(chǎn)品發(fā)布之初,就致力于全球分布式監(jiān)測(cè)網(wǎng)絡(luò)的建設(shè),目前已經(jīng)部署了200多個(gè)監(jiān)測(cè)點(diǎn),遍布國內(nèi)各主要省份城市和港臺(tái)歐美等地區(qū)。而這次IaaS云主機(jī)網(wǎng)絡(luò)性能評(píng)測(cè)選擇了國內(nèi)100個(gè)分布在不同運(yùn)營商、不同地區(qū)的監(jiān)測(cè)點(diǎn),以確保網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)盡量接近真實(shí)數(shù)據(jù)。
此次評(píng)測(cè)采用的網(wǎng)絡(luò)評(píng)測(cè)指標(biāo)包括:Ping監(jiān)控,對(duì)指定的服務(wù)器進(jìn)行ICMP Ping檢測(cè),獲得可用率報(bào)告以及響應(yīng)時(shí)間、丟包率等數(shù)據(jù);Traceroute監(jiān)控,則通過發(fā)送小的數(shù)據(jù)包到目的地址直到其返回,獲得其可用率數(shù)據(jù)以及響應(yīng)時(shí)間; HTTP監(jiān)控,是指通過HTTP協(xié)議對(duì)站點(diǎn)的可用率及響應(yīng)時(shí)間進(jìn)行監(jiān)控。
其中,可用率是指網(wǎng)站或者服務(wù)器可以正常訪問的時(shí)間占總時(shí)間的百分比,比如網(wǎng)站首頁在一天內(nèi)總是可以正常訪問,那么首頁這一天的可用率為100%。如果網(wǎng)站首頁有9分鐘無法訪問,而一天共有1440分鐘,那么首頁的可用率為:((1440 - 9) / 1440) * 100%,也就是99.37%。
響應(yīng)時(shí)間是指從用戶對(duì)站點(diǎn)或服務(wù)器發(fā)送請(qǐng)求開始,一直到目標(biāo)內(nèi)容下載到用戶端,這段時(shí)間就是響應(yīng)時(shí)間。對(duì)于Ping類型監(jiān)控,響應(yīng)時(shí)間其實(shí)就是我們經(jīng)常在命令行中用ping命令看到的time值,也就是我們常說的Ping值。
云智慧監(jiān)控寶分布式監(jiān)測(cè)網(wǎng)絡(luò)對(duì)主流云主機(jī)網(wǎng)絡(luò)性能的評(píng)測(cè)的數(shù)據(jù)如下表所示。
雖然在評(píng)測(cè)周期內(nèi)數(shù)據(jù)好得驚人, Ping可用率、Traceroute可用率、HTTP可用率除了個(gè)別的云主機(jī)外,基本上都達(dá)到了100%,但是對(duì)不同應(yīng)用,不同的云主機(jī)的響應(yīng)時(shí)間卻相差巨大。用戶應(yīng)該根據(jù)自己應(yīng)用的不同和網(wǎng)站評(píng)測(cè)數(shù)據(jù),做出自己的選擇。
選擇云主機(jī)要看性價(jià)比
云主機(jī)業(yè)務(wù)在中國開展已經(jīng)有幾年的時(shí)間了,云服務(wù)商的數(shù)量也在不斷增加,用戶的選擇的范圍擴(kuò)大。但有選擇其實(shí)和沒選擇,對(duì)很多中小企業(yè)而言,一樣是痛苦的。那么如何理性的選擇云主機(jī)呢?
首先選擇適合自己的硬件配置。不同的云主機(jī)服務(wù)商提供的硬件配置也不同。通常,云主機(jī)的硬件配置按CPU個(gè)數(shù)、內(nèi)存和硬盤大小的不同進(jìn)行合適的搭配。目前來看,云主機(jī)硬件按完成任務(wù)類型的不同,搭配可分為均衡型、高CPU型、高內(nèi)存型,以便于客戶在不同的場(chǎng)景下使用。而通常的入門級(jí)、中端和高端的分類對(duì)用戶而言沒有什么參加價(jià)值。
其次,關(guān)注云服務(wù)商的價(jià)格模型。云主機(jī)按什么收費(fèi)?如何收費(fèi)?一般情況下,云主機(jī)服務(wù)商采用“服務(wù)器+帶寬模式” 的基本價(jià)格模式,提供不同的收費(fèi)方案。目前常用的收費(fèi)模式分為:按時(shí)計(jì)費(fèi)、按月計(jì)費(fèi)、按年計(jì)費(fèi)以及按流量計(jì)費(fèi)等不同的計(jì)費(fèi)方式,同時(shí)一些服務(wù)商還提供按需后付費(fèi)的模式。
第三,比較不同服務(wù)商價(jià)格策略。穩(wěn)定、透明以及公正、靈活的價(jià)格體系最能給客戶帶來安全感,穩(wěn)定的價(jià)格體系,能夠從本質(zhì)上保護(hù)客戶的利益,使客戶的成本和花費(fèi)可預(yù)期、可控制。因此,在選擇是不能忽視云主機(jī)服務(wù)商上的價(jià)格策略。
第四,比較云主機(jī)的性能指標(biāo)。 雖然所有的云服務(wù)商都聲稱其服務(wù)可用率超過99.9%,但是由于國內(nèi)網(wǎng)絡(luò)環(huán)境的復(fù)雜性,以及服務(wù)商軟、硬件實(shí)力的差異,造成用戶在相同硬件、系統(tǒng)和網(wǎng)絡(luò)資源配置下,獲得的IaaS服務(wù)質(zhì)量存在差異。因此,用戶在選擇云主機(jī)產(chǎn)品時(shí),應(yīng)該堅(jiān)持?jǐn)?shù)據(jù)優(yōu)先,綜合考慮。
目前,衡量云主機(jī)的性能指標(biāo)主要包括主機(jī)的性能、存儲(chǔ)I/O帶寬以及網(wǎng)絡(luò)性能三大類,每一類都有很多依照業(yè)界標(biāo)準(zhǔn)推出的測(cè)試環(huán)境和測(cè)試指標(biāo),可以客觀地反映云主機(jī)的實(shí)際性能。
最后,考慮云主機(jī)的性價(jià)比。毋庸置疑,單純比性能和配置或者單純考慮價(jià)格是不夠的,性價(jià)比無疑成了用戶選擇的重要標(biāo)準(zhǔn)。需要注意的是:并不是價(jià)格越低越好,而是看同樣的配置和性能保證在不同的服務(wù)商那里需要花多少錢;要考察整體價(jià)格,不能使起步價(jià)格和部分價(jià)格;要以真實(shí)用戶體驗(yàn)數(shù)據(jù)為標(biāo)準(zhǔn),如云智慧采用監(jiān)控寶得到的監(jiān)測(cè)結(jié)果就真實(shí)可靠,值得用戶信賴。