隨著云被各行各業廣泛的應用,云的穩定性和可靠性也顯得越來越重要。許多公司逐漸將關鍵業務和數據部署到云平臺上。隨著近期云安全事件的爆發,我們不得不反思,是不是所有的云服務商都做好了保證業務和數據安全的準備?
微軟Azure去年11月的大規模故障還讓人心有余悸,國內的云服務商也出現了大面積服務中斷。2015年6月6日下午,因服務商“睿江科技”機房遭遇雷暴天氣引發電力故障,青云廣東1區全部硬件設備意外關機重啟,造成青云官網及控制臺短時無法訪問、部署于GD1的用戶業務暫時不可用。與此同時,另一家云服務商LeanCloud也發生了長達4小時的服務中斷情況。
云的穩定性依賴于數據中心的穩定性和云平臺自身系統穩定性。
什么樣的數據中心才是穩定的數據中心?國內數據中心大致分為運營商機房、運營商合作機房、中立機房。運營商機房是嚴格遵守IDC建設標準建造的,對建筑承重、抗震、電力、制冷、消防、安防都有一套專門的驗收標準。運營商合作機房也是按照運營商的標準設計建造的機房。而中立機房一般良莠不齊,可靠性難以保障。
青云廣東1區所在機房遭受雷暴天氣引起UPS瞬間波動,UPS啟動自我保護,釋放電流導致瞬間斷電。按照目前T3級機房標準以及目前防雷技術的成熟度,類似青云這樣的故障是不應該發生的。除了硬件設備的支持,更重要的是IDC服務商在運維上的流程和規范。如N+N的電力冗余、定期電力巡檢及維護、UPS定期帶載供電、電池的維護和更換等。大多數云服務商都是以研發為主,對網絡、IDC、運維關注度不夠。一方面是重視程度不夠,另一方面對網絡、IDC、運維的熟悉程度也與專門的運維有一定差距。云服務商與IDC服務商之間的協作成為了整個云穩定鏈條中的短板,選擇一家專業、靠譜的IDC服務商顯得尤為重要。
在微軟去年11月的故障中,Azure團隊針對AzureStorageTableFront-Ends進行了一次升級,目的是減少CPU開銷,提升存儲服務性能。在未完成大規模驗證的情況下,Azure團隊就將該變更全面部署到整個云系統中了。很快就觸發了一個Bug,導致系統進入死循環無法提供服務。
專業的軟件開發團隊通過規范的代碼管理流程開發,并嚴格執行代碼上線流程是可以保證云平臺的穩定性的。國內大多數云服務商都將精力放到新功能的開發上,而忽視了云平臺的穩定性。如果云服務在給用戶帶來靈活、方便的同時,忽略了可靠性,那云服務就沒有意義。
微軟和青云分別在IDC的穩定性和云平臺的穩定性上吃過虧,那有沒有云服務商能在根本上規避掉這兩種風險呢?如果一家云服務商既擅長云平臺技術研發,又在IDC運維上有深厚的功力,那這兩個問題就迎刃而解了。
森華易騰是國內領先的IDC綜合服務運營商,有著極為豐富的運維經驗。優思得是國內OpenStack最早的實踐者,為OpenStack社區貢獻了大量的優質代碼。森華易騰與優思得達成了戰略合作伙伴,優思得專注于云平臺研發,森華易騰則利用優思得的云技術部署成對外提供公有云服務的森華云。結合森華易騰在IDC運維方面的豐富經驗和優思得在云領域的技術實力,森華云在穩定性、可靠性上有著天然的優勢。
森華云自上線以來未出過一起嚴重故障,根本的原因在于讓專業的人做專業的事。森華易騰提供國家級機房;自建高速環網實現各機房互聯;專業的監控團隊實時監控機房、網絡狀況,高級網絡工程師、運維工程師7x24小時駐場待命,保證森華云基礎環境的穩定可靠。優思得專注于云平臺研發,依托OpenStack開源社區,不斷提高代碼健壯性,結合用戶需求進行定制化開發,推進云平臺往面向客戶的方向發展。
從森華云運營的實際反饋結果來看,這種運維與研發之間的結合是成功的,森華云會按照這種模式繼續前進,為用戶提供更穩定、可靠的云服務。