自20世紀80年代以來,我們的生活以令人眩暈的速度向數字化攀升。我們大部分的相片、錄像、對話、研究和著述現在都以0和1的字符串形式存儲在分布于全世界的個人電腦或數據中心里。數據專家EMC推測在2013年,世界將有大約4.4 ZB的數據(4.4萬億GB)。到2020年,預期還將上漲10倍。換句話說,歷史已經在網上了。
當這意味著我們可以空前方便地接觸得到海量知識文化的同時,它也意味著數字化數據對保管人至關重要,且未來我們所記錄的「歷史」處于刪除、腐化、盜竊、荒廢、自然或人為災難的潛在危脅之下。怎么會這樣的?
數據威脅
在以往的歲月,我們在石頭、蠟板、羊皮紙、小牛皮、紙以及任何我們能拿到手的東西上寫東西。而且這些可讀副本保存得真的很好——有些洞穴壁畫存在超過了40000年,而埃及的象形文字也不過始于公元前約3500年。
如果在線的醫學知識丟失了,我們會回到中世紀騙術醫療的時代嗎?
任何見過他們照片或音樂藏品被抹掉的人,知道數字化文檔或者丟失得多么輕易。就像幾乎毀掉偉大亞歷山大圖書館的那場大火的數字版,其中許多文名卓著的書和卷宗,在公元前48年,也許不像聽起來這般勉強。比如說,一個核爆產生的電磁脈沖(EMP)就可以輕易抹去整個電子網絡并將整個文明帶入徹頭徹尾的停滯狀態。電腦,和打印出來的的書不一樣,需要電力才能工作。Billionaire 對沖基金經理Paul Singer去年警告他的投資者們,電磁脈沖是對美國及其同盟「最顯著的威脅」。
Google副總裁Vint Cerf擔憂我們未能正確地保存我們的數字資料
在一個數字網絡化不斷攀升的世界里,同樣悲慘的結果還可能是由一個惡意軟件的病毒部分或國家發起的信息戰導致。數據的丟失可能讓世界陷入「數據黑暗年代」,「因特網之父」、網絡語言和架構發明者之一Vint Cerf警告我們,許多最早期的軟磁盤都無法讀取了,它們里面保存的數據已永久丟失。如果數據是用已倒閉的私人公司軟件寫的或壓縮的,新的技術和操作系統可能無法將這些數據讀譯出來。
未來世代將要面對保存完好卻無法讀取的數據汪洋,因為他們失去了打開它們的鑰匙。實際上,最新的操作系統常無法處理更早版本書寫的文件。而且現代網絡瀏覽器對網絡插件比如JAVA和Silverlight的兼容性也越來越差了,潛在地使某些舊網站無法讀取。「這些數據形式肯定不會像巖畫一樣持久,」 BOX數據管理公司的行政總裁及創立者之一Aaron Levie說,「這肯定是個問題,沒有可互換的、可移植的的數據格式真是一風險。」
長期思考,如何應對?
Cerf先生建議給內容、應用和操作系統一起來次「數字的X光快照」,以有效的對它們寫成時的初始狀態進行復制。這種他所謂的「數字牛皮紙」,正在由卡內基梅隆大學Mahadev Satyanarayanan的Olive項目進行論證 。
EMC幫忙把梵諦岡圖書館的8萬2千份手稿數字化了
但這需要信息被要數據化并保存在云端的虛擬機中,達到這個目的「并非易事」,Cerf先生說。其他人相信,科技企業迫于市場壓力會提出他們自己的解決方案。「我們不認為會有數據黑暗時代」,EMC的產品市場負責人Jeremy Burton說。他相信隨著儲存能力越來越不是問題,行業范圍內的數據存儲標準會變得越來越通用。十年前,保存1GB數據要花費30英鎊;而現在只要幾便士。「我們樂于看到數字歸檔服務的增加」,他說,「新生代會希望得到任何他們想要的信息,不只是最近幾天或幾月的數據,而是所有的數據。」
數據中心雨后春筍般在全世界出現,但他們有多安全?
EMC幫梵諦岡將其圖書館中的8萬2千份手稿數字化,大約4萬5千GB的數據,數字化時用到了被廣泛接受的FITS標準。Aaron Levie相信,這是對長期保護數據至關重要的通用標準。
我們的數據有多安全?
直到15世紀古登堡印刷機出現,復制和傳播紙質文件一直是個辛苦事,獲取知識僅是少數精英的特權。
手寫稿抄來辛苦且不耐火
但在「云」時代,我們可以無限拷貝文件且在數個地方存儲大數據庫鏡像并實時更新。「現在公司數據常規備有三份,并在不同地理區域分散保存」,Burton先生說。由日益復雜的物理和網絡安全系統保護的防炸彈的數據中心正變得越來越常見,就像銀行、保險公司、政府做的那樣,其他需要保證數據安全和長期存取的既得利益方也開始打起精神以應對潛在威脅。
讓我們面對它,我們中大多數人對Facebook、Twitter、Instagram和所有其他社會化媒體如何保存以及如何安全保存我們的數據一無所知。我們知道這些數據有多重要,以及如果我們失去它可能有什么后果,但這僅僅是個開始。