磁帶用于計算機已經有60年的歷史了,它比現在許多人在工作中使用的技術更舊,磁帶備份市場現在與歸檔市場相比,在整個市場中所占比重非常小,磁帶遷移是磁帶社區面臨的最大問題。
大型歸檔數據遷移通常是一個持續的過程,有兩個關鍵原因:
1、磁帶密度每18-24個月就會以大約2倍的速度增長,但磁帶性能只增長了大約20%,這意味著在磁帶驅動器數量沒有增加的情況下,遷移歸檔數據所花的時間將會很長。
2、磁帶驅動器接口,如光纖通道1Gb和2Gb,不再得到支持,如果不遷移,將需要更多的磁帶庫,成本會急劇上升。
鑒于這些原因,遷移到新磁帶技術是一個不斷發展的過程,遷移必須包含其它硬件,如服務器、RAID存儲和交換機。
遷移曾經是順風順水的,但有許多原因造成這一歷史不再復現。我知道只有很少的站點遷移了備份數據,但和我一起工作過的人都知道他們必須遷移歸檔數據,備份數據在大多數時候都是暫時性的,是的,薩班斯?奧克斯利法案要求保存某些數據,但大多數公司都沒有足夠重視它。此外,磁帶有長達5年的讀取時間,因此你可以將它們放入冷存儲。
這種類型的數據和歸檔數據,如醫療記錄,哈勃太空望遠鏡或NOAA衛星圖像等進行比較是很微小的,現在,汽車和飛機制造必須要歸檔全部的結構模型數據和設計信息,萬一要出現問題才好執行反查,在不遠的將來,我們的基因組將被保存起來。大型歸檔比磁帶密度和磁帶性能增長更快,目前,LTO密度增長了近2倍,但性能卻只增長了20%左右,每年?每個月?還是定期?。許多站點將歸檔數據從舊磁帶驅動器X遷移到新磁帶驅動器Y所花的時間都超過了1年。歸檔軟件現在使從歸檔軟件A廠商轉移到B廠商變得更容易了,但是,這僅限于那些沒有使用專有磁帶格式的廠商,這個過程才會很順利。我甚至沒有遇到過這種情況,因為它和廠商有很大的關系。磁帶介質遷移是非常困難的,需要制定詳細的計劃,確保一切順利進行。
有一些因素需要考慮:
硬件因素
根據歸檔軟件的不同,有四種類型的硬件必須作為遷移計劃的一部分進行評估:
1、磁帶驅動器,舊的和新的;
2、用于和這些驅動器通信的光纖通道交換機端口;
3、RAID存儲;
4、服務器。
需要的舊和新磁帶驅動器數量取決于兩個因素:
1、你希望多快完成遷移;
2、用戶當前的負載是多少,在遷移期間你想或需要多大的負載才滿意。
磁帶
確定需要的磁帶驅動器數量非常困難,你需要多少新磁帶驅動器才能滿足用戶需求?你需要多少舊磁帶驅動器才能滿足用戶需求?你需要多少新磁帶驅動器滿足更多數據的遷移?它們會隨時發生變化嗎?如果某個作業要等待檢索歸檔數據,對中心有多大的影響?很明顯,要回答這些問題非常困難,如果你的數據足夠準確,其中部分問題的答案可能是標準的,但是,諸如某個作業等待造成的影響這種問題是無法標準化的,從舊磁帶往新磁帶讀取數據要花多長時間完全不可預測。
以LTO-4 800GB,速度120MB/s為例,假定你開始從驅動器讀取數據,采用的策略就是讀取磁帶盒上的所有數據,讀取整個驅動器將要2個小時的時間,因此磁帶驅動器將要被使用2小時。當然,這是一個和HSM軟件有關的策略問題。這僅僅是規劃遷移時需要考慮的一個方面。
根據歸檔數據使用模型(例如,數據是作為計算作業的輸入嗎?如氣候模型),歸檔支持多少時區,以及用戶日常工作時間的不同,歸檔負載通常是變化的,因此難以作出準確的判斷,你必須多準備一點磁帶驅動器,因為驅動器通常比預計的使用時間要長。
這通常是一個預算平衡問題,舊磁帶驅動器的成本通常很低,新驅動器的成本通常更高,但是,你等待遷移的時間越長,磁帶驅動器和磁帶的成本越低,但更多時間是花在獲取舊驅動器上的數據上,因此,很難確定最優的成本模型。
光纖通道交換機端口
如果你有更多的磁帶驅動器和更多的存儲,你將需要更多的交換機端口,你可能有足夠的剩余端口添加新硬件,如果新的存儲或磁帶驅動器需要下一代光纖通道,你可能需要升級你的交換機。
RAID存儲
大多數歸檔系統必須讀取舊磁帶上的數據,寫入磁盤,再從磁盤讀取寫入到新的磁帶,如果歸檔軟件要求你使用磁盤作為遷移過程的一部分,你需要增加存儲空間和帶寬來支持遷移,究竟需要增加多少取決于你有多少剩余帶寬和存儲空間。例如,端到端讀取一個LTO-4磁帶,并輸出到LTO-5需要使用大量的空間和帶寬,如果你想一次性完整寫入,你必須讀取1.5TB空間,持續140MB/s的帶寬寫入磁帶,如果數據可壓縮,最大可達240MB/s。這可能要占你RAID控制器很大一部分帶寬,假設是8Gb光纖通道,都要占30%。
服務器
需要將數據讀取到磁盤的歸檔系統(與之相反的是磁帶-磁帶遷移的歸檔系統)將需要更多的CPU時間片讀取數據,確認檢驗和寫入檢驗和,它們也需要更多的內存帶寬和PCIe總線帶寬將數據移出系統,服務器和存儲,以及磁帶帶寬增長相稱是最困難的問題。
軟件因素
很明顯,每個歸檔軟件廠商都有一套工具為遷移數據提供支持,這些工具通常有許多可調整的參數,允許管理員控制遷移速度和對系統產生的影響。一般來說,他們會根據工作負載,而不是讀取磁帶需要的時間進行適當調整,調整的所有問題必須提前考慮到。
用戶
用戶通常對資源的可用性抱有較高的期望,一般都會寫入SLA(服務水平協議),如果你正在遷移磁帶,你必須確定會給用戶帶來多大影響,并保證不會違背SLA,通常,這需要在遷移時間和響應時間之間進行權衡。
一切都與錢有關
如果你投入的資金和時間有保障,可以在數周內遷移數PB數據,現實中卻很少有人這么做,但遷移也不會花上10年才完成,連5年的都少見,在制定遷移計劃時,它成為平衡用戶需求,需要什么硬件,以及始終存在的財政壓力的主要挑戰。
最常被忽略的一個方面是維護舊硬件的成本,另一個必須考慮的問題是空間和磁帶庫卡槽的成本,因空間耗盡,購買另外的磁帶庫可能比遷移到更高密度的新磁帶上更節省成本,一個簡單的電子表格不能解決這個問題,必須明確用戶的需求,當前硬件配置,維護成本,空間耗盡購買新磁帶庫的成本,以及它們之間變化時的相互制約關系。磁帶遷移不是一件容易的事,不能很精確地完成,有些東西不可能提前預知。
大多數情況下,我依靠以前類似工程取得的經驗進行判斷,我通常會設法力爭在1年,最長18個月內完成遷移,我會盡力增加磁帶驅動器和存儲的數量,最開始用一定量的磁帶和驅動器,隨著遷移工作的進行,磁帶和驅動器價格的下降,我會再慢慢購買更多的設備。在大型歸檔環境中,磁帶通常是成本最大的項目(例如,50000盒磁帶,平均價格85美元一盒,最后也會超過420萬美元),因此,盡可能等待更長的時間,會節省更多的成本。
磁帶遷移的成本很高,難度也不小,但是,等待磁帶和硬件抵達壽命終點的成本可能更高,并且會將你的數據置于危險之中,因此,要掌握好時機,不要等得太久了