在未來某一天,DNA所記錄的將不僅僅是一個人的生命藍圖,它將可以存儲大量的文件、音樂、視頻,并且用它小到難以置信的身量保存這些文件至幾千年。
DNA,即脫氧核糖核酸,在普通人的認識中,它是一種傳承生物遺傳物質的分子,一部分DNA序列負責攜帶遺傳訊息被稱為基因,另一部分DNA序列,有些直接以自身構造發揮作用,有些則參與調控遺傳訊息的表現。在地球生命伊始,DNA就承擔起了自然并且是必須的信息存儲和傳遞的功能。因此DNA所攜帶的信息常被比喻為生命的“藍圖”。
既然DNA可以存儲生物的遺傳信息,并且可以持續上萬年,是否有可能成為一種新的存儲電子數據的媒介?
指尖上的莎士比亞
位于英國欣克斯頓的歐洲生物信息研究所的研究員利用一種新的方法,將大約739KB的文件存儲到了DNA片段上。研究人員稱,待DNA編碼和合成的價格不斷下降后,這種生物存儲介質將在數十年內形成競爭力。他們的論文發表在1月23日的《自然》雜志上。
團隊負責人尼克·戈德曼(Nick Goldman)在接受《中國科學報》記者郵件采訪時說,研究所的團隊在幾乎不可見的微量DNA中儲存了154首莎士比亞十四行詩、一張JPG格式的照片、一篇PDF的科學論文和美國民權領袖馬丁·路德·金《我有一個夢想》演講中的26秒時長的片段。總共大約739KB。
DNA含有用一種簡單卻無比強大的編碼寫成的遺傳指令,這些指令由腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)四種被稱作堿基的化學物質組成。
為了將文件存入DNA,戈德曼和他的同事將文本、圖片或音頻數據轉成二進制代碼。之后,用戈德曼編寫的程序將這些二進制代碼的“0”和“1”再轉換成代表DNA的4個堿基的代碼A、T、G、C。通過這串字母,他們繪制了幾千個DNA片段的藍圖,每一個都包含文件的一段。戈德曼說,文件被分成片段,每一個片斷要用指數代碼標記,代碼包括片段所歸屬文件以及在文件中的位置,就像是一本書中的頁碼和每頁的標題一樣。
通過兩周的努力,他們將這些文件成功的完成了一個寫入和讀取的過程。“我們把這些片段合成完整的DNA,然后用DNA測序儀讀取堿基A、T、G、C的順序,”戈德曼說,“再用軟件將堿基翻譯成二進制代碼‘0’和‘1’,這樣就可以成功的將文件讀取了。”
論文一發表,就引來了媒體的一片評論,很多國外媒體評論說,他們將DNA帶入了一個革命性的數據存儲時代,只需手掌般大小的人造DNA,便可容納全世界高達30億TB的數據。要想讀取這些內容可以通過DNA測序,使其轉換成計算機編碼即可。
哈佛大學DNA專家喬治·丘奇(George Church)稱,這種技術能夠讓一個人在指尖上存儲維基百科的全部內容,而且現在全世界存儲在磁盤上的信息都能夠儲存在手掌上。
1克DNA等于300萬張CD
實際上,在2012年就已經先后有兩篇相關的研究論文發表,一篇來自斯坦福大學,一篇來自哈佛大學。
2012年5月21日,《美國國家科學院院刊》刊登了斯坦福大學研究人員的研究成果,他們成功地將電腦文件編入了噬菌體的DNA片段并植入大腸桿菌的DNA,實現了在活體細胞的DNA中重復擦寫數字信息。
但是這種方式有一些不足之處。首先,細胞會死亡,這并不是你存儲學期論文的好方法。另外,細胞還會分裂、復制,其中會不斷發生變異,從而改變數據的內容。
為了解決這些問題,喬治·丘奇領導的研究團隊發明了一種DNA信息歸檔系統,完全不需要利用細胞。2012年8月17日,《科學》雜志報道了這一實驗,并且評論該實驗可能會為人類開發遠超當前電腦芯片和磁盤容量的數據存儲設備指明方向。他們將一本《創世紀》約610KB的內容寫入DNA片段。
丘奇告訴《中國科學報》記者,他們利用一臺噴墨打印機,將“0”轉換為堿基中的A或C,“1”轉換為堿基中的G或T,這4個堿基相當于4種墨水。每一個“點”都用159層“墨滴”被印刷在一片玻璃上。每一點中的每一個分子都有159個堿基的長度(159位)。
通過這樣的轉換,數據被存儲在DNA片段中,同樣的每段DNA中也包含著記錄數據在源文件中位置的信息。
在讀取信息時,需要DNA測序儀和電腦將所有片段按序重新組合起來,并轉換為數字的格式。計算機還需要負責處理錯誤信息,因為每個數據塊都可能會被復制上千次,經過比對,任何小錯誤都可以被發現和糾正。
戈德曼說,與丘奇團隊所做的工作的區別就是,他們的方法避免存儲中的錯誤,但需要一些冗余信息,冗余技術是計算機系統可靠性設計中常采用的一種技術,是提高計算機系統可靠性的最有效方法之一,但也會占用空間。他們希望在未來能將這些冗余部分盡量縮小而有更多的有效存儲空間。
丘奇說:“DNA原本就是一個自然數據庫。它記錄著與生命有關的一切數據。我們只是簡單地利用它的高容量達到一些新的目的。”
戈德曼告訴《中國科學報》記者,如果將一個小試管裝滿DNA,大約是0.5克,而1克DNA可存儲2.2PB(1PB等于1024TB)的數據,相當于300萬張CD的存儲量。DNA的信息存儲密度是目前已存在的存儲介質的至少1000倍。
價格昂貴難接地氣
利用生物技術存儲信息這條路,人類實際上已經探尋了幾十年。丘奇說:“1974年,我19歲開始作為一名核糖核酸的研究者,就已經在思考關于我們熟知的電子數據‘0’和‘1’與DNA當中4個堿基代碼(A、C、G、T)之間的關系。”同時,他也在研究如何能降低在DNA上讀寫數據的成本。
他告訴《中國科學報》記者,麻省理工學院的喬·戴維斯(Joe Davis)在1986年將像素為5×7的電子圖片編碼錄入到DNA。“到了2012年,我們終于將成本降低到可以將一本書《創世紀》的內容寫入DNA,并且進行了700億次的復制。”他說,“我用了十幾年研究這種方法,但是僅僅用了幾周就測試出了這個新想法。700億次的復制僅僅用了幾分鐘和幾美元。”
丘奇認為,哈佛大學和英國研究人員進行的這兩次實驗,是DNA存儲研究領域的一次跳躍,可以預見的是很快會有更多的成就出現。他甚至表示,在未來的兩年,DNA存儲技術就有可能普及。
戈德曼告訴《中國科學報》記者,他們之所以選擇了莎士比亞的著作和馬丁·路德·金的演講作為存儲內容,就是因為,他們希望通過這些重要的著作體現此次研究的重要性。另一方面是說明DNA可以作為一種長期儲存的方式,因為這些著作是要長久流傳下去的。而那一篇PDF的科學論文正是生物學家沃森和克里克描述DNA雙螺旋結構的文章,也具有重要的意義。同時戈德曼也希望能通過他們的方法,實驗不同的文件格式的存儲,比如文本文檔,圖片、視頻以及PDF。他說:“雖然這種存儲方法目前很昂貴,卻可以為子孫后代保存下重要的歷史和信息。DNA擁有令人驚奇的穩定性,因此它可以用任何簡單的、便宜的而且不消耗能量的方法保存上幾千年。”
存儲數字信息的常規方法在其存在的很長一段時期內都在不斷地顯現問題。磁帶是最具代表性,不僅易碎,而且磁條上的涂層用不了幾十年就會消失。即使是其他的用于存儲信息的物理媒介,存儲格式也總是發生變化。這意味著一些數據總要通過轉換成一種新的格式去存儲,不然就有可能丟失。與此相比,隨著時間的流逝,DNA更加穩定,并且只有一種存儲格式。
但到目前為止,DNA的合成成本依然很高。戈德曼的團隊估計,目前在DNA中編碼每MB的數據成本需要1.24萬美元,讀取則需要220美元。如果價格能降兩個數量級,那么在接下來的10年DNA存儲器的價格將很快低于磁帶。“我們有可能在10年內將DNA存儲用于商業存儲。”
丘奇認為,目前DNA的缺點就是讀寫比較慢,并且很昂貴。但實際上噴墨打印的方式已經加快了速度并降低了成本。
美國杜克大學半導體研究公司存儲技術項目主管維克多·芝諾夫(Victor Zhirnov)認為,由于目前DNA存儲的成本太高,在它進入實用階段初期時使用頻率不會很高。
丘奇也表示他還在研究這個問題,他說:“我們正在提高我們讀取和寫入DNA數據的能力,但是我想完全跳出目前的框架去思考這個問題。”
②③DNA含有用一種簡單卻無比強大的編碼寫成的遺傳指令,這些指令由腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)四種被稱作堿基的化學物質組成。