如何理解PB級數據?說到這個數據量級,人們首先會聯想到CADAL項目(大學數字圖書館國際合作計劃),該項目可以說是開啟了大數據時代PB級數據管理的一個典型案例。他的成功運行搭建為眾多方案商提供了借鑒。
PB級數據挑戰多
據大學數字圖書館國際合作計劃管理中心副主任黃晨介紹:“CADAL項目面臨的三個大數據應用挑戰是:首先是 PB級數據需要長期保留;其次,需要24小時不間斷為高校師生服務;最后,多重業務需要共享資源。為此,我們在建設中,從系統穩定性、易用性、分級存儲/信息生命周期管理、硬件升級更新與業務連續性、可用性、性能六個方面去考慮。
事實上,CADAL在開展二期項目的過程中,就明顯感覺到了大數據上述的三大應用挑戰。經過一期和二期工程建設,CADAL項目已經完成250多萬冊古籍和相關音視頻資料的數字化,面向全國2000所高校開展服務,部分資源向公眾開放。250多萬冊古籍和相關音視頻資料加在一起,數據量已經達到600TB。三期工程將繼續擴大資源建設,數據量將很快達到PB級。
為此,信息基礎架構平臺需要能夠動態地支持多重工作流,滿足不同的性能要求、不同的容量要求,并且隨時能夠改變;需要有效地管理共享資源,存儲資源按需分配,同時通過配額管理功能,以提高利用率。
選擇方案的關鍵點
據了解,250萬冊的紙質圖書,需要1棟15層的大樓才能容納。如圖2所示。而采用現代的技術手段,只需要一個機柜,就足夠應對250萬冊甚至更多圖書的數字化影像。圖所3所示。
圖2某省圖書館介紹,建筑面積18073平方米,書庫主體15層,可容納250萬冊藏書
圖3 這樣一組EMC Isilon機柜可以保存幾千萬冊數字化圖書
面對上述挑戰,據CADAL項目管理中心數據主管劉濤老師介紹說,CADAL項目管理中心從系統穩定性、易用性、分級存儲/信息生命周期管理、硬件升級更新與業務連續性、可用性、性能六個方面進行綜合考察。最終選擇了EMC Isilon,總容量1PB的EMC Isilon大數據存儲系統在CADAL項目管理中心部署完成,投入使用。
方案核心優勢
這一方案的核心優勢主要表現在兩個方面:
一是支持文件、FTP等多種靈活的訪問方式,簡化了操作,提高了效率。
CADAL圖書數字化的大致工作流程是:共建高校申報圖書資源à項目管理委員會審定à共建高校負責數字化處理并將數字圖書提交給管理中心à管理中心將數字圖書發布到前端存儲對外提供服務,同時備份多份份到后端存儲。
劉老師經常要做的一件事情是:通過工作機將共建高校提交的數字圖書從臨時存儲復制到前端和后臺存儲。由于各臺服務器連接不同的光纖存儲,需要把存儲設備掛接到服務器才能操作,并且各服務器還應用不同的操作系統,數據需要走“臨時存儲à工作機服務器à服務器à后端存儲”的路徑。換成Isilon之后,數據只需要走“臨時存儲à前端服務器à后端Isilon存儲”的路徑,由于Isilon的吞吐量很大,并且沒有文件系統和LUN管理的兼容問題,可以同時從多個臨時存儲往后端Isilon存儲保存數據,且沒有額外的速度損失,效率大大提高。以前,從共建高校接收數字圖書較多時,后端的發布或備份服務器上的數據流量會比較大,會影響其它數據訪問或應用,發布和備份會出現瓶頸;如果大量使用光纖存儲,服務器端的成本也會增加。采用Isilon之后,硬件上帶寬提高了,系統上跳過了操作系統層面的處理,這種現象有較大改觀。
二是支持磁盤分級存儲、節點分級存儲和SSD固態硬盤加速,既保證了大容量,也保證了高性能。
CADAL的做法是,將活躍的數據保存在配有固態硬盤的高速Isilon節點上,其它數據保存在普通Isilon節點上。不同高校圖書館提供的數字圖書分區保存,存儲空間按需分配,并實行配額管理,提高存儲利用率。
PB知識鏈接:
TechTarget自己的百科網站Whatis有關于PB大小的定義:“PB是數據存儲容量的單位,它等于2的50次方個字節,或者在數值上大約等于1000個TB。”
那么一個TB呢?
“TB是一個計算機存儲容量的單位,它等于2的40次方,或者接近一萬億個字節(即,一千千兆字節)。”
未來學家Raymond Kurzweil他的論文中對PB的定義進行延伸:人類功能記憶的容量預計在1.25個TB。這意味著,800個人類記憶才相當于1個PB。
如果這樣還不夠清楚,那么Adfonic的CTO Wes Biggs給出了下面更直接的計算:
假設手機播放MP3的編碼速度為平均每分鐘1MB,而1首歌曲的平均時長為4分鐘,那么1PB歌曲可以連續播放2000年。
如果智能手機相機拍攝相片的平均大小為3MB,打印照片的平均大小為8.5英寸,那么總共1PB的照片的并排排列長度就達到48000英里——大約可以環繞地球2周。
1PB足夠存儲整個美國人口的DNA,而且還能再克隆2倍。