身為行業顧問和Enterprise Storage Forum長期撰稿人的Henry Newman在高性能計算和存儲方面擁有27年的工作經驗,他認為,在線備份廠商似乎打錯了算盤。以下是他的文章全文。
幾天前的文章顯示大部分在線備份供應商在磁盤和磁帶之間,似乎都更傾向于前者,這讓我恍惚間覺得自己又回到了1999年,那個時候似乎利潤已經不太重要了。同時考慮采購和能耗兩個因素,那么倘若這些廠商使用磁帶庫、而不是磁盤的話,也許不但能夠節省費用,還能夠盡快地開始提供服務——也許服務的可靠性也會更高。
那些相信SATA能夠幫助降低磁盤費用的人也許應該看看我去年發表的《使用SATA存儲的真實成本》一文。如果你希望得到高性能和可靠性,磁盤不一定會便宜。
在線備份團體似乎正在磁盤備份的大道上穩步前進。我不相信這對于家庭備份、小型企業甚至大企業備份來說,是一個正確的決定,因為磁盤技術在很多方面都比磁帶技術要貴很多,磁帶技術在環保方面也具有更多的優勢。一些在線備份廠商采用了MAID技術以降低能耗,但是磁帶仍然比MAID要便宜,即使將MAID節省能耗的因素考慮在內也是如此。
成本
讓我們比較一下不同廠商提供的不同技術。我之所以選擇這些廠商并不是要推薦它們,只是因為這些廠商的產品價格可以很方便地通過網絡查到。這也許不是絕對價格,但是我們只要有大致的價格,就足以進行比較了。
大型企業IBM磁帶庫的基本模塊價格為38,365美元,擴展模塊價格為28,125美元。它可以支持大約6,000個左右的插槽,以及同等數量的磁帶驅動器。讓我們假設你有20個LTO-4驅動器,每個驅動器的價格為16,710美元,LTO-4磁帶價格為140美元/盒。整個磁帶庫的價格應該是1,634,439美元,使用了15個擴展單元;20個驅動器和6,000盒磁帶。
未經壓縮的總容量應該是4.6PB左右,壓縮之后大約為9.2PB。在未經壓縮的情況下,平均費用為357,049美元/PB,壓縮情況下是178,524美元/PB。根據規格說明書,LTO-4壓縮比為2:1。
現在讓我們使用標準的針對SATA的RAID來實現同樣的存儲,因為備份和恢復和互聯網帶來的性能瓶頸相比,對性能的影響幾乎是微不足道。
我選擇了Sun StorageTek 6940的磁盤控制器,它實際上是LSI的產品,被很多廠商貼牌使用。我采用的配置方式是每個托架上安放16個1TB的驅動器,用控制器連接12個托架,這樣總容量就達到了192TB,價格為663,695美元。
對于Sun 6940的來說,在不壓縮的情況下,LTO-4平均每PB的價格為3,456,745美元,壓縮的情況下是178,524美元/PB。
這讓磁盤比未經壓縮的磁帶要貴10倍。當然,有些情況需要說明:
Sun 6940的帶寬大約為1800MB/秒,20個未經壓縮的磁帶驅動器的帶寬大概是2400MB/秒(20×120MB/秒)。
我沒有計算HSM(hierarchical storage management,分級存儲管理)軟件的價格,它的價格并不便宜,但是還是比磁帶自動設備的價格要便宜很多,我也沒有計算HSM用來作為緩存的少量高可靠性磁盤的價格。
能耗成本
[NextPage]
如果選擇磁盤技術的話,還需要考慮另外一項費用,這就是能耗。假設我的在線備份公司需要一個未經壓縮容量為4.2PB的磁帶庫。磁帶庫的能耗非常小。如果使用活動的SATA驅動器的話,能耗就完全是另一回事了。4.6PB的SATA磁盤如果使用RAID-6 8+2增加可靠性的話,就需要5,250塊磁盤,而且還沒有計算任何熱備。我還會增加3%的熱備以求安全,這就是5,355塊磁盤,平均每個托架16塊磁盤的話,需要335個托架。在SATA驅動器上使用SAS接口的話,可靠性會比較高,每個驅動器能耗平均為13瓦。如果使用標準SATA接口,每個驅動器平均要耗費11.6瓦的電能。
總能耗計算是:5,355驅動器×13瓦/驅動器+335×375瓦/托架,也就是195千瓦。讓我們按照0.10美分/千瓦時計算能耗費用。
這還沒有包括所產生的熱量BTU(英國熱量單位),我發現比較好的估算方法是將費用乘以1.45倍。所以按照目前的能源價格,每年的能源費用為247,994美元,而目前的能源價格看起來在短期內不太可能降低。而且,磁盤驅動器不會壓縮數據,而磁帶驅動器可以在硬件層面自動完成數據壓縮。這對于家庭互聯網備份來說問題不大,因為數據會使用預先壓縮好的格式進行保存,例如jpg或者mp3,因此,最公平的比較方法是將未經壓縮的磁帶和未經壓縮的磁盤進行對比,甚至在壓縮比差不多的情況下也是如此。
性能
我們中絕大部分人在家或者公司都是通過線纜modem或者DSL連接訪問互聯網的。我要說真正的數據運動速度一般都穩定在128Kb/秒到大約3Mb/秒左右。這意味著8MB的文件在低端連接速度的時候,需要傳輸512秒,而高端連接速度的情況下只需要21秒。我懷疑我們當中是否絕大部分人能夠經常達到3Mb/秒的下載速度,起碼對于線纜modem來說,是很困難的,而上傳則永遠達不到這個速度。
磁帶挑選、裝載和定位時間大約是69秒。顯然,在有磁盤緩存的情況下,上傳并不需要擔心,因為數據被緩存到磁盤上,然后被寫入。真正的問題出現在下載的時候。
這種類型的服務有兩種情況:最多恢復幾個文件;或者在遇到大災難的情況下,恢復一切。如果我只需要恢復少量文件,不會同時產生任意文件,那么如果它們立刻沒有排上隊的話,可能每個文件我都需要等待69秒。如果它們立刻就排上了隊,而磁帶驅動器又可用的話,那么我可能只要忍受69秒的等待,之后所有的文件就會被存入。我會等69秒,然后就開始向磁帶傳輸數據。如果我需要恢復大量的數據,HSM軟件就將開始從磁帶上為我準備這些文件,準備的速度比我在家或辦公室需要恢復的電腦收取數據的速度要快得多。剛開始會有69秒的延遲,但是在恢復文件的時候,由于有互聯網連接帶寬的限制,從磁帶將數據讀取到HSM磁盤緩存的速度就完全不構成影響了。所以,至少對于我來說,這完全沒有問題。
當然,MAID的響應速度比磁帶要快得多。MAID的能耗也比磁帶小得多,但是同等容量的磁盤驅動器比磁帶卻貴得多。MAID仍然有RAID的問題,但不是8+2的問題,而是3+1的問題,所以奇偶中浪費的工件就更多了。如果你遇到了延遲問題,MAID確實可以解決它,但是在通過互聯網進行大文件恢復的時候,真的會遇到延遲的問題嗎?
磁盤驅動器平均每個字節的費用要遠高于磁帶平均每個字節的費用,大量文件恢復的延遲問題會被HSM預備文件機制所掩蓋,對在線備份使用活躍磁盤的做法有意義嗎?如果你只是不小心刪錯了文件,并且想恢復你母親在Sandy姑媽60歲大壽宴會上的照片,或者想恢復某個Barry White唱的歌,多等這一點點時間又何妨?撇開環保的問題不談,為這種類型的應用浪費能源是否值得?既然磁帶就足以勝任這些工作,為什么還要把大把的錢花在多耗費的能源或磁盤驅動器上?
我不認為有什么理由要這樣做,除非問題在于缺乏技術力量。我經常說,HSM很難用,但是這不是我的專業。HSM從上個世紀70年代就已經出現了,經受了實際使用的考驗。也許問題在于這種存儲技術過于復雜,妨礙了人們使用HSM。無論存在的障礙是什么,我都認為在線備份廠商應該重新審視一下該技術。如果不存在其他的問題,那么一些富有進取心的在線備份廠商也許應該考慮使用這種雖然有點過時、但是仍然非常不錯的磁帶架構,并且以此在競爭中獲得價格優勢。