數據備份和恢復有點像黑盒。在災難發生之前,人們通常不知道其措施是否完善,并且總是有改進的空間,特別是隨著云計算和混合選項的應用日益廣泛。在此,網絡領域的四位專業人士對是什么讓他們意識到應該采取更多措施來加強組織的備份和恢復流程,以及如何實現這一目標進行了分享和闡述。
匹茲堡州立大學(PSU)改進磁帶備份的存儲方式
突發事件:2011年5月,一場龍卷風襲擊了密蘇里州喬普林市,而附近城鎮的消防隊長Tim Pearson則被要求進行救援。Pearson 說,“突然之間,我來到了一個我以前比較熟悉的小鎮,但當時卻差點認不出來。后來我們在街道十字路口標出原有的名字,以幫助人們確定方向。”如今,他已經成為堪薩斯州匹茲堡州立大學的基礎設施和安全主管。
他和匹茲堡州立大學數據中心的同事們正在努力確保數據中心正常運行。在工作中,他意識到,匹茲堡州立大學(PSU)采用傳統的磁帶備份方法存儲數據,每周更新一次,但并沒有為應對該地區惡劣天氣模式提供足夠的可靠性。“我們不得不重新審視我們的漏洞。”他說。
地理多樣性
解決方案:最初,Pearson和他的團隊通過在該數據中心對面的圖書館的地下室部署一臺Dell Equalogic存儲陣列來解決該大學磁帶存儲的地理脆弱性。該團隊還在威奇塔州立大學(WSU)添加了戴爾MD3200存儲陣列,匹茲堡州立大學(PSU)通過堪薩斯市的研究和教育網絡連接到該陣列。每天的數據通過人工多次復制到輔助站點中。數據備份每晚發送到威奇塔州立大學(WSU),從而消除了現有的繁瑣的磁帶處理過程。
Pearson說,“從存儲庫中檢索的磁帶可能需要一周時間才能恢復。而從遭遇災難的主要站點或輔助站點取出的磁帶來恢復數據變得更加困難。”
雖然輔助站點和威奇塔州立大學(WSU)存儲陣列運行良好,但匹茲堡州立大學(PSU)團隊決定進一步改進備份和恢復,在Hedvig公司的分布式存儲平臺(軟件定義存儲)中實現自動編排。Hedvig公司使用商定的策略在多個節點之間實時管理數據復制:主數據中心、輔助站點,以及威奇塔州立大學(WSU)存儲陣列。他說,“只要三個節點中有兩個啟動并運行,我們的數據就可以正常訪問。”
最近由于計劃外路由器重啟,導致威奇塔州立大學(WSU)存儲陣列暫時關閉,并對存儲系統進行了測試。Pearson說,“Hedvig存儲系統注意到了一個問題,進行了隔離,并在15分鐘后鏈接重新上線后立即啟動威奇塔州立大學(WSU)存儲陣列。我們的數據中心在整個事件中繼續正常運營。”
Hedvig存儲系統與匹茲堡州立大學(PSU)的遺留存儲系統配合得很好,遺留系統仍然安裝在帶有iSCSI連接的Unix服務器上。Pearson說,“我們看到的大多數其他供應商都不支持這種類型的傳統配置,但是Hedvig存儲系統可以很好地處理它。他們面向客戶的代理接口(小型物理或虛擬Linux服務器)作為Hedvig存儲環境的多協議連接器,提供一系列塊和面向對象的協議,包括NFS、Amazon S3甚至iSCSI。”
匹茲堡州立大學(PSU)的IT團隊將可恢復性作為日常維護的一部分進行測試,從而降低節點,并記錄響應時間。所有存儲網絡配置都經過充分記錄和更新。
Pearson說,“我在消防隊和喬普林數據中心的工作經歷讓我意識到,人們不能把任何事情視為理所當然,我的建議是盡可能在存儲網絡中獲取地理多樣性。”
懲教服務團隊支持備份漏洞
突發事件:愛荷華州懲教服務部系統管理員Dwain Caldwell說,“有兩個時刻讓我們改變了備份和恢復方式:一個是人為事件,另一個是自然災害。”Caldwell在愛荷華州的DCS司法機構工作,該機構為愛荷華州東北部的11個縣提供懲教服務。
Caldwell表示,幾年前,該機構的一個內部人員訪問了一個網站,卻不知道受到勒索軟件的攻擊。勒索軟件侵入了主文件系統,Caldwell和他的團隊很快進行了處理。他說,“雖然團隊可以采用有效的備份進行恢復,但是恢復正常操作所需的時間比預期的要長。雖然培訓內部員工有所幫助,但我們無法控制社交工程。我們能夠控制的是更快地恢復運營。”
第二起事件是一場自然災害,風暴使洪水進入主站點所在的建筑物,并導致主站點建筑物斷電。Caldwell 說,“在發生這種情況之前,我認為不會完全停機。這個事件發生之后,我認識到,將主要站點和次要站點放在一起并且沒有第三種替代方案是一種不可靠的策略。”
虛擬化加速了數據恢復
解決方案:近年來,DCS司法機構和懲教部門一直致力于虛擬化他們的計算環境,包括使用虛擬桌面基礎設施,Caldwell表示,DCS司法機構的虛擬化率約為80%,這使得實施新的數據備份和恢復計劃變得更加簡單。
DCS司法機構使用Nutanix Core超融合基礎設施來處理數據中心和遠程站點中的VDI和數據保護以及災難恢復。他說,“我們能夠設置備份和恢復策略,所以如果有人犯了錯誤,這一切都會在幕后發生。”
Nutanix經常存儲生產環境的快照,因此如果DCS司法受到勒索軟件攻擊,Caldwell及其團隊可以自動將系統恢復到最近的快照,通常每15分鐘一次。
IT團隊已經開發了測試恢復時間的實驗,包括關閉服務器機房以使節點脫機。他說,“目標是看看該節點上的虛擬機需要多長時間才能在其他節點上重新恢復。”
他說,恢復應用程序與恢復數據密切相關,因為大多數應用程序都依賴于數據。他說,“用戶需要訪問歷史數據,就像訪問應用程序本身一樣。”
如果Nutanix系統無法提供數據,例如遭遇洪水或風暴等災難,Caldwell可以利用存儲在同一城市和另一地理位置的EMC Data Domain存儲設備上的備份數據,而備份位置越近,備份的數據越多。他說,“我們將把最好的備份轉移到虛擬沙盒環境中,然后將其推送到主數據中心。”
Caldwell說,“如今的備份解決方案比以前更加普遍。企業曾經必須確保恢復磁帶的環境與原始配置完全匹配。在我們的虛擬機管理程序環境中,能夠更快速有效地獲取數據,虛擬化環境和自動化還使得所有存儲職責可由IT團隊的兩名成員處理,我們能夠更好地執行備份和修復工作。”
Microsoft Office 365的備份和恢復
突發事件:總部位于加州溫哥華的Aquilini集團有很多子公司,包括Vancouver Canucks和Rogers Arena競技場。該公司還擁有所有競技場的業務,其中包括食品和飲料服務,以及酒店、建筑公司,餐廳、藍莓和蔓越莓農場。這些投資的共同主題是需要保護數據,無論是客戶信息、監控攝像機鏡頭還是銷售點交易。
當第三方主導的SAN升級出錯,并且有可能丟失大量數據時,對其存儲保護措施進行了測試。
Aquilini集團IT主管Bryce Hollweg說,“我們的數據如果丟,將會導致收入損失和客戶不滿。”幸運的是,該公司內部IT團隊已很好地備份數據。并能夠恢復所有數據。但這一事件讓Hollweg更加積極主動地備份所有數據,甚至是云中應用程序生成的數據。
SaaS的第三方備份
解決方案:Aquilini集團已為其近1500名員工的應用程序遷移到Microsoft Office 365。雖然微軟公司擅長保證應用程序的正常運行時間,但與大多數SaaS提供商一樣,它不太愿意承擔數據完整性的責任。Hollweg說,“我們有一些敏感數據流經Office 365網絡,我們需要保護它,此外,企業郵箱的數據泄露無疑會導致生產力下降。可以設置的安全層數越多越好。云計算應用的二級和三級措施并不是一種不好的做法。”
Aquilini集團使用Veeam Backup for Microsoft Office 365作為輔助措施,以保護Exchange Online、SharePoint Online、團隊(聊天)和OneDrive免受意外刪除、支持快速恢復和滿足法規遵從性要求。備份可以存儲在本地、Microsoft Azure或Amazon Web服務中的云平臺中,也可以存儲在第三方提供商的設施中。
Hollweg表示,他不介意采用多個有針對性的工具來管理,因為保護是根據存儲的數據類型定制的,這使得可恢復性更快、更容易。他說,“隔離信息是很好的措施,如果有人破解了代碼,他們可能訪問獲取更多的隱私數據。”
虛擬機的本地保護
突發事件:當位于佛羅里達州杰克遜維爾的招聘和醫療IT咨詢機構CSI Companies公司決定用VMware虛擬化其環境(包括SQL Server)時,Matt Greaves希望確保恢復時間目標保持不變。
CSI公司IT總監Greaves說,“當我們開始對所有虛擬機進行恢復測試時,其結果很可怕。需要恢復整個網站,我們認為需要30個小時,也可能是90個小時。這是一個巨大的痛點。我們每周需要支付3000到4000人的薪酬,即使薪酬系統停工兩小時,也會造成嚴重的問題。”
CSI公司先前使用的備份和恢復軟件要求IT團隊人工設置何時執行備份,以確定何時執行備份以及為哪個應用程序執行備份。這會存在一些空白,使數據備份過期或不完整,而這樣的空白事件發生之后,唯一的選擇就是通過人工挖掘和恢復單個事務日志。
本地備份可以降低成本
解決方案:Greaves決定利用虛擬化環境,并從Rubrik部署了一個獨立的存儲設備,該設備直接連接到VMware環境中。它可以將特定的策略應用于vCenter中列出的虛擬機,并自動保護粒度級別的數據。他說,“它們執行策略驅動的備份點,這樣我就可以設置SQL服務器每隔幾分鐘獲取一次事務日志快照,然后每隔幾小時獲取一次完整的數據庫快照。事務日志現在根據需要自動應用于完全恢復。”
他說,“備份和恢復曾經是日常管理的事情,現在我們需要管理Rubrik的唯一時間就是如果我們得到警報,并需要進行調查。”
Greaves表示,他們可以通過位于企業SharePoint網站上的最佳實踐表快速了解Rubrik的使用情況。
他考慮將應用程序和基礎設施轉移到云端,其中包括備份和恢復,但對其高昂的價格猶豫不決。他說,“對于基礎設施來說,進入云計算很容易,并且開始進行操作,但是使用這些工具每小時要支付費用。當我們進行成本分析時,將所有內容保存在數據中心要便宜得多。”
專家建議使用SaaS備份
許多IT經理對其從現場或從輔助數據中心備份和恢復數據的能力充滿信心。當企業引入基于云計算的服務時,事情就變得不明朗。
Nemertes Research公司首席信息官兼首席研究分析師John Burke表示,“我們看到很多企業參與云計算服務,以取代CRM等應用程序的內部部署服務,而無需真正了解該服務如何處理備份和恢復問題。”
客戶通常會過度關注故障轉移功能和業務連續性,但不會考慮數據損壞問題或需要回滾到前一周數據的時間。Burke說,“這并不總是一種默認能力。”
Enterprise Strategy Group公司高級IT驗證分析師Vinny Choinski對此表示認同,他強調說,“在SaaS方面,數據恢復是企業的責任。如果有人刪除數據怎么辦?謹慎的做法是確保自己了解應用程序的恢復環境。”
篩選備份和恢復服務提供商的一個選擇是,向企業的SaaS提供商詢問他們的偏好。選擇其中一個合作伙伴更輕松地集成SaaS備份。
雖然為SaaS采用備份和恢復服務可能會增加企業計劃成為應用程序的低成本選項,但Burke和Choinski都表示,如果不這樣做會使企業的數據容易受到攻擊。