數據的備份和歸檔具有不同的功能,很多人沒有認識到兩者之間的差異,這可能導致訪問問題,甚至法律問題。而對于備份人員來說,備份和歸檔之間的差別非常明顯,很容易理解。
什么是備份?
備份是為了在損壞或丟失的情況下恢復所述數據而創建的數據副本。在備份完成后,不會刪除原始數據。
備份的例子包括筆記本電腦或臺式機上所有文件的每次備份,或者iPhone上的所有照片都會被復制到iCloud,以防數據隨著手機丟失而丟失。人們還將備份文件服務器(非結構化數據)和數據庫(結構化數據)。備份可能會更加關注數據,如數據庫轉儲、服務器的操作系統、裸機備份,或兩者都支持VMware 的VMDK文件的備份。
備份的定義實際上歸結為目的,備份的目的始終是相同的:如果發生某些事情,則恢復數據。例如,RAID 6存儲陣列的三個磁盤可能存在故障,并且需要還原其所有數據。有人可能會意外或惡意刪除VMware、Hyper-V或AWS EC2配置中的一個或多個虛擬機,并且需要還原它們。人們可能有一天會意識到組織中的每個文件都已被勒索軟件包加密。如果沒有良好的備份系統,其最終的選擇只能是支付贖金。而有了良好的備份系統,則可以找到勒索軟件所勒索的數據,然后恢復所有數據,而無需支付黑客勒索費用。
什么是歸檔?
歸檔是為參考目的而創建的數據副本。雖然不是必需的,但在進行歸檔后通常會刪除原件。
如果備份的目的是將某些數據恢復到平時的樣子,那么歸檔可以用于多種目的。最常見的目的是幫助人們找到很久以前的一些數據。它可能是單個文件,其中包含一個非常重要的項目,例如幾年前客戶簽署的合同。它可能是一組相關的數據,例如某個建筑物的所有結構圖。或者它可能是企業過去制作的都已經過時的所有CAD圖紙。
另一個相關數據集可能是可以證明給定點的所有電子郵件和/或文件。也許一名員工被解雇了,這是因為公司認為他實施了沒有許可的行為,然后。企業的訴訟可能會發出一個電子發現請求,要求所有發送給他們的電子郵件,其中非工作時間或他們將要兼職的公司名稱。其他人可能正試圖證明其工作狀態,并希望查看來自特定管理人員的所有電子郵件,這些管理人員的電子郵件將會列出。
歸檔可以幫助人們完成所有這些任務。某人可能擁有企業所提供的每個銷售訂單、報價或合同的歸檔。可以在線保留當前的合同和訂單,但是將所有這些合同和訂單保存在歸檔中,歸檔應該有一個索引,允許通過這些訂單的內容檢索訂單和合同。或者某人也可能擁有公司發送或接收的每封電子郵件的歸檔。
某些電子郵件歸檔系統可以從電子郵件服務器中清除已存檔的電子郵件,這些電子郵件可以通過超過一定大小,或在n天內未被訪問等條件進行消除。這有助于保持電子郵件系統的精簡,節省計算和存儲資源,并使備份工作更容易。如果法律不要求人們保留所有電子郵件,那么這甚至可能是歸檔的目的。
恢復與檢索
即使歸檔的目的是節省主存儲空間,它也需要能夠執行檢索而不是恢復(如果要將其稱為存檔)。備份系統還原和歸檔系統檢索。
還原時,它通常是單個文件、服務器或數據庫。當人們檢索某些內容時,它通常是相關數據的集合,可能存儲也可能不存儲在同一服務器上,甚至可能存儲在相同的格式中。還可以對單個時間點執行還原,例如將數據庫還原到某天的樣子。檢索使用一段時間的數據,例如過去三年的所有電子郵件。
數據恢復需要人們了解文件或數據備份時的大部分內容,否則很難找到它。人們需要知道它所在的服務器的名稱,它所在的數據庫或目錄,要返回的文件或表的名稱,以及上次查看的日期。檢索不需要這些信息,人們只需要知道所有與一組參數匹配的文件或記錄。例如提供過去三年中創建的包含特定短語或由特定人員創作的所有文件或電子郵件。
差異為何重要
許多人嘗試將他們的備份系統用作歸檔系統,這意味著他們將備份保存多年,甚至永遠。在第一次獲得真正的檢索請求時,人們會發現從執行恢復的操作中執行檢索是多么困難。這將使檢索花費更多、更長的時間,可能是幾個月而不是幾分鐘,并且花費更多的成本,甚至高達數百萬美元。
如果檢索是針對來自訴訟的電子發現請求,并且無法及時滿足,那么可能會有法院發出不利推理指令的風險。人們花費六個月的時間來滿足他們所知道的簡單要求,而卻遠遠沒有完成。法官推斷其試圖隱瞞什么。比較聞名的例子是摩根士丹利的訴訟案例,他們在這種情況下損失了數十億美元。
因此,不要將備份用作歸檔。如果人們有著長期存儲需求,請采用一個實際的歸檔系統。這將有一個前期成本,但從長遠來看它將是值得的。