SLA降低了使用云廠商數據中心而產生的風險
免受云宕機事件影響的第一步就是要評估云廠商數據中心的可靠性。大部分的云廠商都擁有著很少數量的數據中心,通常情況下只有一個,而這些數據中心易于產生與企業相同類型的故障。最廣為人知的云計算故障往往是那些整個云計算數據中心發生故障的事件,通常都是由于自然災害而發生的故障。為了在有可能發生的故障中保護好你自己,你必須要求特定的數據中心配置信息或從你的供應商那里獲得可用性保證。
對于服務器、存儲設備和網絡的可用性,最好的策略是在談判時就確定SLA,以便于指定可用性保證和發生故障時恢復服務的時間。用戶應當了解在云計算數據中心所在的區域是否會經常發生諸如颶風或暴風雪這樣的災害性天氣,這一點是非常重要。同時,還應確定數據中心是否配有備用電源,是否配有一個能夠接替正常工作的備用數據中心。
備份數據中心必須位于不同于主數據中心的另一區域,所以它就不會受到相同問題的影響,同時它還必須擁有足夠的容量以處理云應用的故障轉移。由于很少有供應商能夠為主數據中心的100%故障轉移提供足夠的備份數據中心容量,所以SLA將說明如何管理故障轉移。
在這種情況下,為優先級支付費用可能是必要的。如果你的云服務包括了地理多樣性以支持分布式的用戶群體,那么你自己的各種設施就可以為云廠商故障提供某些保護措施;仔細檢查你的合同以確保有足夠的容量來處理額外的負載。
網絡性能問題或缺少將導致云宕機事件
云計算故障的最常見原因通常并不是云計算,而是網絡。大部分的云應用都是通過互聯網進行訪問的,而互聯網可用性則是大多數云宕機事件的罪魁禍首。解決這個問題的唯一方法就是采用虛擬私有網絡(VPN)或虛擬局域網服務,或確保同時讓多個互聯網服務供應商(ISP)提供服務以供網站訪問云應用使用。如果安全性和合規性問題可以得到解決,并得到供應商的合同確認,那么這是一個很不錯的選擇。除非云廠商已經使用了運營商提供的VPN服務,否則很可能需要你支付一筆特殊費用。
隨著小型企業的互聯網服務成本不斷下降,為一個分支辦公室提供兩個ISP就成為可能。但是,請確保在兩個辦公室之間沒有共同的故障點。通常,可在多個供應商之間共享對等點和共享互連“酒店”。即使是ISP之間最普通的訪問布線,也有可能使雙網絡連接的好處落空。
必須解決云應用的彈性問題
如果云計算數據中心和云計算網絡故障問題都已解決,那么下一個問題就是應用程序本身的彈性問題了。管理高可用性和云服務的最大問題都涉及數據庫訪問和可靠的事務處理。
如果一個數據中心發生故障,即便另一個備用數據中心能夠備份使用這些數據的應用程序,在數據中心中所存儲的數據都是不可用的。除非是在多個位置的“熱待機”狀態維護應用程序數據,否則一次故障都將導致數據訪問丟失,從而使其它冗余措施都大部分實效。這個問題同樣也存在于內部數據中心備份,因此那些為他們自己數據中心提供冗余的企業會發現相同的措施在云計算中也會同樣有效。與其說這是個技術策略還不如說這是個金融策略;由于云計算存儲和服務費用的原因,在云計算中維護冗余數據的成本要更高。一個更好的解決方案是把你所有的內部數據都布署在一個高可用性的受保護數據中心中,并從多個云計算位置進行訪問。
最好的可用性管理必須是與應用程序本身集成。任何時候,數據庫更新都是對多個副本同時進行的,如果在更新過程中發生了故障,那么數據完整性就存在著丟失的風險。聯機事務處理系統通常包括一個“兩階段提交”的過程以確保不會由于無法成功更新所有數據庫副本而發生問題。有時,單個數據庫的更新也會因為網絡故障而處于一個不確定的狀態。有必要審查專為確保網絡故障或數據中心故障而開發的應用程序,從而確保所存儲的數據庫不會發生數據受損或不一致的風險。
期望云應用能夠具有比內部應用相同或更高的可靠性是不合理的。此外,你所設定的可靠性和特定目標可能會讓你花費很多。當構建你的業務案例時,請記得考慮可靠性成本,或者你可能會發現你的應用程序必須在可靠性和成本之間作出某種妥協。