云計算為很多企業提供了機會,以按需供應的基礎設施和“無限”的規模來應對意外情況。但是在真正的災難情況下,“無限規模”的物理實用性開始顯現。
一位平臺架構師表示,他在2020年3月批準了一個HDInsight群集(微軟公司提供的托管Hadoop產品)到我生產環境的部署。正在為期待已久的基于Azure的數據平臺的下一階段上線,當他突然從DevOps主管那里接到電話時,主管說,“我在新的生產群集上出現配置錯誤,無法部署。而群集無法擴展,無法獲得足夠的節點。雖然有足夠的配額,但是沒有足夠的節點來擴展集群。”
事實證明,這種情況是微軟Azure北歐地區數據中心容量已滿。微軟公司像所有云計算提供商一樣,超額配置了其物理基礎設施,也就是他們可以向客戶提供虛擬機和CPU核心配額,因為他們知道客戶不會全部嘗試一次消耗掉所有容量,但卻遇到了意外情況。
歐洲各國由于疫情持續蔓延而頒布出行禁令,企業必須對要求全體員工在家工作迅速做出反應。在發布出行禁令幾天之后,IT部門必須應對對VDI和協作工具的空前高峰,并且他們大量地轉向云計算,畢竟,這就是采用云計算技術的目的。
MicrosoftWindows虛擬桌面(基于云計算的Windows10遠程工作解決方案)最近非常及時地進入了通用可用性,IT部門急于部署遠程桌面解決方案。Microsoft Teams提供了可擴展且無縫的協作和電話會議解決方案,但是所有會議突然都變成了在線會議,這一峰值需要滿足于某個地方的物理基礎設施。
其結果是Azure數據中心對計算的需求激增,并且無法滿足所有客戶的需求。除了無法部署新資源之外,一些客戶還難以啟動現有資源,例如,一臺虛擬機會在一夜之間關閉并按計劃啟動,而他們無法在早上再次啟動。
該分析師為此與負責此特定客戶的Microsoft客戶團隊進行了交談,他們表示,其容量管理團隊已了解情況,并正在為醫療保健和緊急服務的客戶確定容量的優先級。當分析師得知有更多硬件在訂購中時,情況看起來很暗淡,但供應鏈正在影響交貨時間。
幸運的是,客戶經理能夠在每日容量管理會議上代表客戶并提供必要容量的理由。還被告知微軟公司將20,000個vCPU工作或內部工作負載移出了Azure北歐數據中心,并在一周后成功部署了HDInsight群集。
分析師目前正在為另一個客戶端制定災難恢復(DR)策略,該策略基于在一個Azure區域中發生的服務(如果不太可能發生區域性故障)的故障轉移。這是一種基于微軟公司自己的架構建議的標準模式。但是,如果整個Azure區域確實崩潰了,那么其余Azure區域中對資源的需求還會突然增加。在災難恢復測試中可以實現的恢復時間目標(RTO),實際上可能由于容量限制而在實際事件中無法實現。
在設計Azure災難恢復策略時,分析師為此提出的建議是:
•盡管不能依靠配額來確保資源的可用性,但是需要確保在次要區域中增加配額
•準備在發生故障轉移時與Microsoft容量管理團隊交談以討論容量問題
•利用微軟的客戶團隊,他們可以在發生故障轉移時幫助保護容量,并根據對客戶的影響和對微軟公司的聲譽影響來構建其案例。
•了解在故障轉移到云計算提供商時,客戶的恢復時間目標(RTO)將處于最佳狀態-最終您不擁有基礎架構,云提供商可能無法滿足需求。
•考慮采用多云方法,使客戶可以故障轉移到AWS、谷歌云平臺或其他云計算環境,甚至內部部署環境。