云斷電難免發生,但對于象AWS這樣的主流廠商來說,并不常見。看看Azure、Google、Rackspace和其他IaaS供應商在2014年的表現。
今年的云斷電數據表示,越來越多的成熟公有云可以更好的避免云斷電發生,但還是有些出乎意料的情況出現。
云廠商不斷的在他們的平臺上傾注大量的資金和策略以增加可靠性。扣除那些低端的公有云,運行時間已經大為改善,但有一個主要的例外,一家位于波士頓的云咨詢公司云技術合作伙伴的高級副總裁David Linthicum說到。
“雖然公有云供應商擴張的很快,他們似乎在經營他們的業務上也變得越來越聰明,可能除了微軟以外,因為微軟還是犯了些很愚蠢的錯誤,”Linthicum說道。
在眾多大型公有云廠商之中,Amazon EC2在過去一年保持了最長的運行時間,在全球所有區域內總共只停機了2.43小時,據CloudHarmony指出。CloudHarmony是一家位于加州Laguna Beach的公司,負責第三方獨立的監控云廠商運行時間。
微軟Azure,在11月18日有過眾所皆知的跨區域大斷電,在眾多大型廠商之中有著最長的,接近40小時的計算服務斷電時間,根據CloudHarmony的說法。
“有些服務已經運行了較長的時間并且比其他的服務更穩定一點,這是因為它們已度過了粗糙和不穩定的階段,解決了比其他服務更多的問題,” CloudHarmony的創始人Jason Read說道。
運行時間的改善多半歸功于經驗,額外的數據中心用作故障轉移,更多的自動化,更好的內部溝通和更快發現導致斷電的規律的能力,Linthicum說道。
供應商們花費大量的金錢來維護他們的服務并變得更積極主動,因為一連串的斷電事件將成為企業購買云服務時考慮總體擁有成本的首要因素。
AWS表現最佳
根據他們的合作伙伴表示,亞馬遜Web服務(AWS)在之前幾年有過備受矚目的斷電事件,但在今年,這方面卻完全無聲無息。
“我們有過一些服務影響及一些緩慢的狀況,但就我所知我們沒有一個客戶有遇到停機的情形,”一家位于華盛頓州Liberty Lake的云咨詢公司,Amazon的合作伙伴,2nd Watch的CTO Kris Bliesner說道。
這家公司原本計劃開發一個可以替他們顧客在斷電時作為早期預警系統的應用。但這個計劃現在已經在他們的開發列表上優先級降到最低,Bliesner說道。
“我們只是不再看到那么多斷電了,”Bliesner說。
某種程度上,這很可能是因為AWS已經發展出設計大規模并高度可靠的基礎架構的能力,并度過了成長過程的痛苦時期,那些現在正影響著其他那些不太成熟的云供應商,Bliesner說道。
這正是從AWS副總裁兼杰出工程師James Hamilton那里傳達出的訊息之一。Hamilton在今年的re:Invent大會上展示了Amazon的大規模創新。
Amazon已經開始設計他們自己的網絡,存儲和服務器設備,而這使他們的成本下降并增強了可靠性,Hamilton說道。
“企業總是對網絡設備供應商提出許多復雜的要求,而供應商則將所有這些復雜的要求匯總成數千萬行的無法維護的代碼,而那就是我們最終得到的東西,”Hamilton在他的演講中說道。“我們不用所有的那一整套東西。。。為什么我們的設備比較可靠的原因是因為我們沒有選擇去解決那么困難的問題。”
Amazon對于每周不斷加強他們的基礎架構監測指標是近乎“信仰性”的,而這也加強了他們的可靠性,Hamilton說道。AWS的可用區(AZ)系統將多個數據中心連接至數個AZ里面,而這些AZ為了保持高可用性都有同步鏡像處理。例如關系數據庫服務(RDS)的服務都有提供多AZ復制的功能,增加了數據被重復冗余存儲地點的數量。
AWS的客戶也從經驗中學到關于要創建更有彈性的應用。當RDS被第一次推出,26%的客戶使用了多AZ復制的功能。這個數字現在已經增加到了40%,而目標是增加到70%,據Hamilton說。
在AWS云系統中的新數據庫,例如Aurora,則提供了更強的彈性。這個彈性源于AWS對于數據庫底層的存儲引擎的重構,而這個引擎存在于Aurora內部與主數據庫完全隔離,這樣在錯誤時便能夠很快速的恢復。Aurora也會將數據復制三次,在AZ間創建六份拷貝。
Amazon的數據中心設計也經過不斷改良來提供最佳的可靠性,根據Hamilton的說法。數據中心最多可存放5萬到8萬個服務器。
“我們可以很輕松的構建更大的數據中心,但是……越大就越有風險,萬一出了什么問題,損失將會是巨大的,”Hamilton說。
因為AWS從經驗中學到如何在它們規模化的同時優化可用性,那些較晚涉足基礎架構即服務(IaaS)市場的AWS競爭者們可能還是會遇上過去Amazon常發生的那些眾所周知的斷電事件,根據Bliesner的看法。
“在某種程度上來說,如果Azure或Google想要競爭,他們就必須要做出可擴展性的飛躍,而客戶是否會在那個擴展的過程中面臨更高的斷電風險呢?”他說道。“我的猜測是會。”
但是,Amazon在一個領域上是落后于Google云的。Google云存儲發生過八次斷電,總時長為14.23分鐘,而Amazon的S3發生過22次斷電,總時長2.66小時,根據CloudHarmony的說法。
沒有什么可以萬無一失
級聯錯誤會發生,而當公有云供應商碰上大斷電時,基本上都是因為人為錯誤,而不是硬件基礎架構故障,一家位于康涅狄格州Stamford的Gartner公司的分析師Jonah Kowall說道。
“雖然他們用了所有最佳的辦法來避免這些問題,但在一個不斷變化的復雜系統里, [斷電] 就是會發生的,”Kowall說道。企業通常來說總是反應慢了些,因為他們難免會過度設計他們的基礎架構和流程,Kowall說道。云帶來了一種有點像“第22條軍規”那樣的自相矛盾的狀況,因為云的吸引人之處在于速度和敏捷性,但較短且沒經過仔細審查的更新周期會帶著錯誤,從而為顧客制造出問題,他補充道。
定期重啟通常是計算停機的原因,這也暗示了一個管理不良的基礎架構,Read說道。
“廠商總會有斷電的時候,”Read說道。“而好的廠商會完整的調查,找出根本原因是什么,通過改變策略或軟件來保證這種同樣的事件不會再度發生。”
而從這些錯誤中學習往往會有助于跨平臺,根據Paul Voccio,Rackspace Hosting的軟件開發副總裁表示。
“隨著這個產業的不斷成熟,每個人都在互相學習要如何規模化的運營他們的服務器,并且以可提供支持的方式,”Voccio說道。
在Rackspace位于圣安東尼奧的總部,Voccio在他桌前有著兩面巨大的屏幕來監測公司公有云的數據。而當其他云的新興領域受到更多關注時,幾乎沒有什么能和保持運行時間在公司內部所受到的關注一樣。
“顧客們是真心期待我們能夠時時刻刻保持運行的狀態的,”Voccio說道。“而我們也對此非常重視。”
Rackspace,聲稱從2009年開始就保持著在所有數據中心都有99.999%的運行時間,他們每周都舉行會議來討論系統性能并確保定期的維護不會產生沖突。這家公司非常重視他們數據中心的彈性和冗余性,并了解到隔離集群對于快速診斷問題和確保問題不會影響到其他的數據中心來說是非常關鍵的,Voccio說道。
Rackspace的計算云在過去一年全部區域的斷電時間為7.52小時,據CloudHarmony表示。這家公司成為了焦點,當他們遇到一個Xen 虛擬機程序的bug而不得不重啟的時候,外界對于他們處理該事件的方式給與了批評。
很難告訴客戶我們遇上了一個必須解決的問題,但客服不能和他們說,因為公司禁止談論,Voccio說道。
Rackspace常常拿他們所謂的狂熱技術支持來做為其品牌特點,但Voccio提到,他跟同事們說,如果顧客在不用尋求技術支持的幫助前就得到他們想要的,那不是更好嗎。
“雖然,是的,我們總是很樂意為大家服務,但大部分客戶都希望他們永遠不需要打這個電話,”Voccio說道。
透明度仍然是障礙
供應商們確實在他們的網站上提供了幾周的運行信息,但是TechTarget聯系到的廠商沒有一家提供年同比的數據。
廠商們對于公開信息持猶疑的態度,有些連提到何時系統有小錯誤或者部分斷電發生也不肯,Read說道。而狀態頁面的可靠性也可能有問題,加上如果供應商們托管他們自己的網站,一次斷電將會清空供客戶查看的監控儀表板。
“我們看到的部分問題是,許多著名的企業云提供商限制了你能夠驗證他們是否正常工作的能力,對于SaaS來說,尤其如此,”Kowall說道。
大多數人試圖通過軟件從世界各地每隔幾分鐘登錄,進行幾個操作來模擬用戶,以確保功能正常,但廠商們不喜歡這樣,因為這會增加系統額外的負擔,Kowall說。廠商試圖通過合約來限制這種行為,而更有可能的是,他們不希望人們讓他們為穩定性負責,這就是問題所在,他補充說。
“你必須同他們協商,在他們系統內你的哪些行為是允許的,”Kowall說道。
廠商們應該要做得更多來增加云的透明度,這樣顧客才知道系統里發生了什么,Rackspace的Voccio說道。
“客戶想要了解更深層的信息,”Voccio說道。“這會讓廠商更加猶豫,所以我們正在研究方法為整個系統提供更高的透明度。”
Google拒絕接受采訪,但是發表了一個聲明,稱公司致力于讓Google云平臺可靠。
微軟的發言人拒絕對此報告發表評論。