研究人員創建了一種在DNA中存儲數據的新方法。圖片來源:Novi Elisa/shutterstock
人類正面臨著一個數據存儲的問題——全世界在過去兩年中產生的數據比之前的數據總和還要多,并且這種信息迸發的趨勢很快就將超過硬盤能夠承載的能力。如今,研究人員報告說,他們想出了一種新的方式將數據編碼進脫氧核糖核酸(DNA),從而創造出迄今最高密度大規模數據存儲方案。
在這套系統中,1克DNA具有存儲215拍字節(2.15億千兆字節)的能力。原則上,它可以將人類有史以來的所有數據存儲在一個大小和重量相當于兩輛小貨車的容器中。然而這項技術能否起飛主要取決于成本。
用DNA存儲數據有很多優勢。它是超級壓縮的,并且在寒冷干燥的地方可以保存數十萬年。同時只要人類社會還在讀取和書寫DNA,他們就能夠解碼這些信息。
美國哥倫比亞大學計算機學家Yaniv Erlich表示:“DNA不會像卡式錄音帶和CD那樣隨著時間而降解,并且它也不會過時。”此外不同于其他高密度的方法,如在一個表面上操縱單個原子,新技術可以一次書寫和讀取大量DNA,從而使其按比例擴增。
科學家從2012年便開始將數據存儲于DNA中。當時,哈佛大學遺傳學家George Church、Sri Kosuri和同事,利用由4個字母A、G、T和C組成的DNA鏈編碼0和1的數字化文件,從而將一本具有52000個單詞的書籍編碼到數千個DNA片段中。
然而研究人員當時特殊的編碼方案效率相對低下——每克DNA僅能夠存儲1.28拍字節的數據。其他方法或許做得更好。但是,沒有人能夠存儲超過研究人員認為DNA理論上可以實際處理的一半數量的信息——大約每個DNA核苷酸編碼1.8比特數據。
Erlich認為他能夠接近這一極限。因此他與紐約基因組中心科學家Dina Zielinski分析了用于編碼和解碼數據的算法。他們從6個文件入手,包括一個完整的計算機操作系統、一種計算機病毒、1895年拍攝的一部叫做《拉西約塔來了一輛火車》的法國電影,和由信息理論家Claude Shannon在1948年進行的一項研究。
研究人員首先將文件轉換為0和1的二進制字符串,并將其壓縮成一個主文件,然后將數據分割成二進制代碼的短字符串。他們設計了一種被稱為DNA噴泉的算法,能夠將字符串隨機打包為所謂的水滴,之后他們又增加了額外的標簽以便以后能夠按照正確的順序重新組裝這些字符串。總的來說,研究人員生成了由72000個DNA鏈組成的數字列表,每個DNA鏈的長度為200個堿基。
研究人員把這些文本文件交給了Twist Bioscience,這是一家位于加利福尼亞州舊金山的初創企業,后者對這些DNA鏈進行了合成。兩個星期后,Erlich和Zielinski收到了一封郵件,里面有一個小瓶子,而瓶中便是編碼了他們的文件的一點點DNA。為了解碼這些DNA,兩人使用了現代DNA測序技術。這些序列被輸入計算機,在這里遺傳編碼被重新轉換為二進制代碼,并使用標簽重組為6個原始文件。
研究人員在3月2日出版的《科學》雜志上報告說,這種方法工作得很好,新文件不包含任何錯誤。他們還可以通過聚合酶鏈反應(一種標準DNA復制技術)為這些文件制作幾乎不受數量限制的無差錯文件副本。Erlich說,此外,他們能夠在每個核苷酸編碼1.6比特的數據,這比之前其他的任何方法多了60%,并且是理論極限值的85%。
“我愛這項工作。”目前供職于加利福尼亞大學洛杉磯分校的生化學家Kosuri說,“我認為這從本質上是一項決定性研究,表明你可以用這個規模在DNA中存儲數據。”