當組織的IT硬件不在內部部署數據中心運營時,解決其發生的故障可能很棘手。因此,這些組織必須與托管數據中心服務提供商簽署完善的服務等級協議(SLA),以確保快速響應。
托管提供商主要提供數據中心的空間、電源、冷卻、物理安全性,但托管服務也面臨數據中心停機期間響應速度較慢的潛在缺點。采用托管服務的組織必須仔細規劃重要數據的存儲位置,并遵循服務級別協議,以最大程度地減少托管數據中心服務中斷的影響。
當然,組織可以自己建設和運營內部部署數據中心,擁有、建設和維護基礎設施和設備,雇傭員工,實施政策和運行應用程序,并設定應對任何中斷所需的優先級。當遇到問題時,組織領導者知道讓誰處理,并且員工可以專注于組織的利益。
作為托管服務商客戶的組織來說,這些控制權交給托管服務提供商,他們負責故障排除并與客戶保持聯系。但是托管服務提供商通常是為了自己的商業利益而運營的企業,有時并不能滿足托管客戶的需求。
是什么導致托管數據中心停機?
托管服務提供商以遠程管理的數據中心為核心,通常可以將數據中心的停機追溯到許多可能影響內部部署數據中心面臨的相同問題。停機的原因一般分為四類:電源、人員、災難、連接。
1.電源。托管服務提供商通常在其數據中心內實現更大的彈性,例如備用電源系統。其備用電源包括為服務器和機架設備供電的不間斷電源(UPS),以及在市電中斷時可以為數據中心設施供電的工業級備用發電機。但是,UPS故障、發電機啟動或維護不足以及備用電源系統的其他問題,可能會在市電停電時導致托管客戶的業務中斷。
2.人員。人為錯誤是造成數據中心停機的主要原因。例如配置錯誤的路由器、服務器、身份驗證系統以及硬件和軟件基礎設施其他錯誤可能導致客戶無法訪問系統。內部和外部攻擊或其他惡意活動(如拒絕服務攻擊)也可以干擾或破壞客戶所托管的工作負載。
3.災難。客戶希望托管數據中心設施具有更強的彈性和更高的可靠性,因此通常希望遠離自然災難(颶風、洪水、地震等)和人為災難(火災、車禍和戰爭)。雖然謹慎的托管措施應該可以減少這種風險,但不可能完全避免和消除,而不可預見的災難會使托管數據中心設施癱瘓或毀壞。
4.連接。托管服務本質上是遠程實施的,而WAN或互聯網連接對于托管服務提供商至關重要。大多數托管服務提供商都允許客戶使用一個或多個可用電信提供商的服務。電信基礎設施也不完善,也不是100%可靠的,這可能會導致使用某些電信服務的客戶連接中斷。在這種情況下,必須由電信提供商(而不是托管服務提供商)來恢復服務,但是對這些托管客戶的影響可能像發生火災或洪水一樣嚴重。
對內部和外部場所進行故障排除
作為托管數據中心客戶的組織在解決托管數據中心發生的故障尤其具有挑戰性,因為解決問題的過程首先取決于識別/確定問題,然后確定托管數據中心提供商(或客戶)是否對故障和糾正措施負責。
傳統托管數據中心
例如,假設客戶的工作負載在傳統托管數據心設施中運行,并且托管服務提供商只提供空間、電源、制冷和其他服務。如果數據中心設施出現故障(例如電源故障),則客戶將依賴托管提供商提供的電力服務,并且托管服務提供商將根據現行服務等級協議(SLA)的條款負責查找和糾正電源問題。而根據問題的嚴重程度,修復過程可能需要數小時甚至數天的時間。
但是,客戶仍將負責部署到托管服務提供商的所有服務器、存儲、網絡和其他業務設備。服務器、存儲子系統、網絡交換機故障,甚至是應用程序故障(軟件錯誤)可能是造成停機的原因。客戶將采用系統管理工具監視和報告硬件和軟件的狀態,他們有責任找到并解決問題,可能是通過重新啟動服務器、更換服務器或采用其他潛在的修復方法。
如果客戶確實要負責修復,他們將面臨完成工作的挑戰。對出現故障的應用程序進行修復和排除可能需要實際操作,這可能需要數小時來部署人員和執行修復所涉及的實際工作。在某些情況下,托管服務提供商的員工將會提供幫助,但需要客戶額外付費。
托管或托管主機
在托管數據中心或托管方案中,托管服務提供商將提供數據中心空間、服務器、存儲設備、網絡以及其他基礎設施,而客戶可以從托管服務提供商那里租用。但是,托管服務提供商對整個基礎設施負有全部責任,客戶不用接觸或關注托管服務提供商的基礎設施。如果托管數據中心設施或計算資源發生故障,則托管服務提供商必須處理并發布停機通知,然后按照服務等級協議(SLA)中規定的條款對故障進行故障排除和補救。在這種情況下,客戶通常會通過已建立的支持渠道(例如電子郵件、電話或門戶網站)將故障告知托管服務提供商(例如某個應用程序無法正常工作)。
如果問題實際上出在客戶的應用程序而不是托管服務提供商的基礎設施(即托管數據中心設施正常運行,但是客戶的應用程序遭受崩潰或其他異常),那么托管服務提供商就沒有更多的義務來確定客戶的應用程序是否正常工作。客戶必須具有適當的監視以跟蹤應用程序運行狀況或了解應用程序性能。當應用程序出現問題時,客戶的IT團隊可以選擇遠程操作重新啟動應用程序,或者要求托管服務提供商幫助采取糾正措施。
托管數據中心支持的類型
當出現問題時,組織必須找到快速且經濟高效的方法來解決問題,同時保持行業標準或法規遵從性所要求的數據完整性和工作負載安全性。客戶可以使用四種類型的支持:
1.工作人員。當客戶將自己的設備部署在托管設施中時,可能會自己雇傭IT員工管理和維護,而不是托管服務提供商。這有助于確保IT任務的執行符合客戶的最佳利益,但是其員工到路途遙遠的托管數據中心工作可能既耗時又會增加成本。
2.遠程控制。客戶可以聘請托管服務提供商的員工協助開展各種IT任務。這些任務可能包括物理設備故障排除、更換、配置。通常根據突發事件或請求遠程操作,并且其費用將添加到客戶的每月賬單中。
3.遠程管理。現代IT系統管理工具擅長通過網絡訪問硬件設備以執行常見的管理任務。這些工具通常可以重新啟動服務器、重新啟動應用程序、遷移虛擬機以及備份和恢復數據。遠程管理在管理日常任務時非常有效,無需客戶派遣員工在托管數據中心工作。
4.托管服務。托管服務提供商通常提供客戶可以參與的一系列服務,例如托管電子郵件。某些服務費用可能會添加到每月的托管費用中,而某些服務(例如備份)可能會帶來額外的費用。但是,托管服務提供商通常可以參與添加新服務,更改現有服務或減少或取消不需要的服務。
減輕數據中心托管設置中的不確定性
托管服務提供商可能會給客戶帶來更多不確定性和復雜性。在偏遠地區運營的托管數據中心設施可能會受到地緣政治不確定性和安全性問題的影響。托管服務提供商管理成本的愿望可能會削減支持人員數量,從而可能降低其響應能力。托管服務提供商的合并和請求可能會影響其日常運營。
客戶可以通過謹慎的應急計劃和大量監控措施來緩解這些托管問題。常見步驟包括:
•工作負載適用性。必須評估每個應用程序在托管數據中心中的適用性。由于法規遵從性、安全性、性能或其他問題,并非所有應用程序都適合托管。有些工作負載應該保留在內部部署數據中心。
•遣返。如果托管服務失敗或證明托管不適合應用程序時,則遷移到托管數據中心的每個工作負載都應采取遣返措施,可以在組織的內部部署數據中心恢復應用程序。
•備份和災難恢復。托管工作負載并不保證可用性。重要的工作負載可能需要額外的托管服務投資,以建立備份和災難恢復框架,以確保應用程序在托管服務中運行時的可用性。托管服務提供商在默認情況下不提供此類服務。
•詳細監控。使用監視工具(例如應用程序性能監視)和用于重要工作負載的工具來跟蹤應用程序的運行狀況和性能,以及托管服務提供商及其資源的可用性。了解托管服務提供商的服務等級協議(SLA),并使用監控結果來驗證托管服務提供商是否遵守服務等級協議(SLA)。
•尋求幫助。托管服務提供商將提供各種幫助臺以尋求支持。客戶應該清楚了解可用的幫助,如何請求幫助,以及在必要時如何采取行動并及時采取糾正措施。
歸根結底,托管服務提供商是客戶的業務合作伙伴(而不是員工),并且托管服務提供商提供的資源和服務不能被認為是理所當然的。客戶有責任管理自己在托管數據中心環境中運行的工作負載,并且需要能夠與托管服務提供商協作以維護每個工作負載的可用性和性能。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。