Amazon根據客戶反饋更新了AWS最佳架構實踐(AWS Well-Architected Framework),增加新的卓越運營(Operational Excellence)維度。
AWS最佳架構實踐中包括了一系列最佳實踐,用于構建和運營安全、高效且具有成本效益的云端系統。Amazon一并為AWS用戶給出了架構指南,該指南也適用于其它云平臺。
該架構框架是在一年前發布的,這次更新基于客戶的反饋和對過去使用經驗的總結。如果有人不熟悉這個框架,我們建議先讀一下這篇InfoQ前期發表的文章,因為在本文中我們將僅介紹新引入的變化。
在去年版本所給出的四大維度(安全、可靠性、高效和成本優化)之上,這次AWS架構團隊引入了第五個維度,即卓越運營。卓越運營是“通過系統監控實現交付業務價值和持續改進支持流程的能力”。為確保對生產負荷的卓越運營,框架推薦了以下的最佳實踐:
運營自動化:盡可能做到自動化運營。
運營流程和業務目標保持一致:僅采集支持業務需求的度量指標,對運營事件做出適當的響應。
做定期、小規模、增量的變更:工作負荷應由定期小幅度更新的組件構成,更新中無需停止服務。如有必要,運營中應可回滾這些更新。
測試對突發事件的響應:在系統中注入故障,查看系統是如何對突發的運營事件做出響應的。制定明確的響應此類事件的程序。
從運營事件和故障中學習:為了改進系統,監控并分析系統對各種運營事件的行為。
保持運營過程的與時俱進:系統會隨時間發生改變。為準確地反映系統當前的狀況,需要適時更新程序和指南。
為了構建良好的云端系統,最佳架構實踐給出了若干設計原則:
避免對容量需求妄加猜測:盡量使用云的可伸縮能力,而非猜測容量需求。后者會導致提供的容量不準確。
對系統進行生產規模級別的測試:將系統擴展到生產所需的規模,測試并查看在真實生產環境中系統的運行情況。一旦測試結束,就釋放掉額外的資源。
自動化以便簡化架構實驗過程:將整個系統創建流程自動化,使系統更易于被復制。此外,這種做法讓回退到之前的狀態變得更容易。
考慮演進式架構:自動化讓架構師可以根據需要設計系統,測試和搭建工作也會變得更容易。
數據驅動架構:采集所需的運營數據,用于評估架構改變對工作負荷的影響。采集的數據還可用于調優自動化代碼。
以模擬運行的方式實現改進:通過注入故障模擬生產環境中的運營事件,這樣可以了解系統在故障發生時的行為,并在必要時解決這些故障。
該框架中還包括了關于最佳架構實踐五個緯度的問答。問答中提供了解決實際問題的指南,包括如何防止對AWS root賬戶的非法使用、規劃網絡拓撲、對計劃之外的運營事件作出響應,等等。如果想要深入地了解如何成功創建一個云端系統,我們建議閱讀論文“AWS最佳架構實踐”。
查看英文原文:The AWS Well-Architected Framework Adds Operational Excellence