微軟與華盛頓大學的研究員們已經演示相關方案,旨在利用合成DNA作為數據歸檔存儲介質。
如果這項技術足夠強大,則完全可以將沃爾瑪這樣的巨型企業的全部數據存儲設備縮小為一塊方糖尺寸,研究員們指出。
“我們認為時機已經成熟,基于DNA的存儲方案已經具備可行性,且能夠立足于此設計并架構相關系統,”研究員們在其論文中寫道。
該研究團隊已經成功將來自四幅圖片的數字化數據存儲在合成DNA片段當中。更重要的是,他們亦能夠逆轉該過程——即從較大DNA池中檢索正確序列,并利用提取到的完整字節重構圖像。
華盛頓大學計算機科學與工程研究科學家們混合DNA樣本以實現存儲功能。每條DNA中存儲一個數字化文件。
另一項實驗則證明,華盛頓大學的“盧旺達法庭之聲”項目能夠編碼并檢索數據,從而實現視頻文件歸檔。該項目共使用49段視頻,分別來自盧旺達戰爭罪法庭中對法官、律師以及其他相關人員的訪談。
“生命造就了DNA這一夢幻般的分子,其能夠有效存儲各類基因信息以及生命系統的運作方式——其非常緊湊且極為耐用,”威斯康星大學計算機科學與工程副教授、研究論文聯合作者Luis Ceze表示。
“我們基本上就是在利用DNA存儲數字化數據——包括圖片、視頻、文檔,且其管理周期能夠長達數百甚至數千年,”他補充稱。
DNA數據存儲研究進展神速。1999年,DNA存儲方案還僅僅只能編碼并恢復長度為23個字節的信息。
到2013年,來自英國EMBL歐洲生物信息學研究院的科學家們已經能夠將馬丁·路德·金的“我有一個夢想”演講MP3文件存儲在DNA當中。
研究員們在《自然》雜志上發表的論文中指出,只需一杯DNA即可存儲至少長達1億小時的高清視頻數據。
而且根據英國研究員們的解釋,存儲在DNA鏈中的數據可以持續數萬年之久。
讀取DNA的方式非常簡單,但向其中寫入卻難度很大。這方面共存在兩項挑戰:其一,利用現代方案僅能制造短DNA序列;其二,DNA在寫入與讀取時容易出錯,特別是在重復相同的DNA字母時。
以上三幅圖片為此次DNA數據存儲實驗中的對象。
微軟與華盛頓大學的研究員們指出,他們開發出了“一種新型方案”,能夠將長字符串轉換為DNA序列的四種基本組成部分——腺嘌呤、鳥嘌呤、胞嘧啶與胸腺嘧啶,分別簡寫為A、G、C與T。
要訪問這些數據,研究員們在DNA序列內編制出類似于郵編及街道地址的符號。聚合酶鏈反應(簡稱PCR)技術——常用于分子生物學當中——幫助他們能夠更為輕松地識別自己正在搜索的郵編。
利用DNA測序技術,研究人員得以“讀取”數據,并利用街道地址重新排序數據以將其恢復為視頻、圖片或者文檔。
“將1和0轉換為A、G、C和T非常重要,因為只有采用非常精妙的實現方式,我們才能提高存儲密度并降低錯誤率,”論文聯合作者Georg Seelig解釋稱。
微軟與華盛頓大學的研究員們宣稱,他們已經在編程語言與操作系統架構支持ACM國際大會上公布了研究成果。
“DNA擁有可觀的發展潛力,”研究員們表示,因為其存儲密度極高,理論極限比磁帶高出八個量級。磁帶技術能夠在巴掌大的卡帶中存儲最高185 TB數據。
微軟與華盛頓大學的研究員們還證實了合成DNA的長效性,稱其能夠在惡劣環境中帶來超過500年的半衰期。相比之下,磁帶壽命為10到30年,而磁盤驅動器則僅為3到5年——研究員們指出。
研究員們還強調稱,預計到2020年存儲于計算機中的全部數據——包括歸檔、視頻、圖片、企業系統數據以及移動設備信息——將達到44萬億GB,這一數字來自IDC與EMC的研究報告。
“這相當于2013年全部數據總量的十倍。雖然并非全部信息都需要進行長期保存,但可以肯定的是數據存儲設備的增長速度完全跟不上數據的產生速度。”
不過在投入商業使用之前,DNA存儲系統還需要克服一系列難題。首先,DNA合成與測序的效果還遠稱不上完美,每核苷酸中仍存在1%的排序錯誤率。因此,DNA存儲需要設計出合適的編碼方案,從而帶來額外的容錯能力。
再有,DNA存儲不擅長實現隨機數據存取,這意味著整體而言讀取延遲遠高于寫入延遲。目前的進展只能夠實現大型數據塊存取;即使僅讀取單個字節,也必須對整套DNA庫進行測序與解碼。
科學家們已經提出了對應的解決方案,即利用聚合酶鏈式反應(簡稱PCR)對需要的數據進行定向放大,從而通過針對性測序改善隨機接入能力。如此一來,我們將不再需要對整套DNA庫進行測序。
“這是我們借用大自然產物的絕對實例,”Ceze解釋稱。“但我們也在使用現有計算機技術對其加以完善,例如如何糾正內存錯誤,并讓最終成果回歸自然。”
原文標題:Scientists could use DNA to shrink a data center into a sugar cube