歐洲生物信息研究所(EMBL)的研究人員開(kāi)創(chuàng)了一個(gè)新途徑,可以將數(shù)據(jù)資料存儲(chǔ)在DNA里,而DNA是一種可以存放數(shù)萬(wàn)年的材料。利用該存儲(chǔ)法,有可能將至少1億小時(shí)的高清錄像存儲(chǔ)在大約一茶杯的DNA中。
全世界擁有巨量的數(shù)字信息,而且新的數(shù)字內(nèi)容仍不斷地大量涌入,這給數(shù)據(jù)存儲(chǔ)工作帶來(lái)了真正的挑戰(zhàn)。硬盤(pán)不但昂貴,而且需要不斷地供電;甚至質(zhì)量最好的“非耗電”歸檔材料(如磁帶),在10年之內(nèi)質(zhì)量就會(huì)有所下降。這在生命科學(xué)領(lǐng)域是一個(gè)越來(lái)越突出的問(wèn)題,該領(lǐng)域有大量包括DNA測(cè)序在內(nèi)的數(shù)據(jù)資料,構(gòu)成了科學(xué)記錄的基礎(chǔ)。
“我們已經(jīng)了解到,DNA是存儲(chǔ)信息的可靠途徑,因?yàn)槲覀兛梢詮拿歪锵蟮墓穷^里提取DNA,而猛犸象可以追溯到幾萬(wàn)年之前,因此我們了解到這是個(gè)存儲(chǔ)的好方法。”歐洲分子生物學(xué)實(shí)驗(yàn)室生物信息研究所的尼克·高曼解釋說(shuō),“DNA分子極小,但密度大,儲(chǔ)存時(shí)不需要電力,因而運(yùn)輸、保存都很容易。”
讀取DNA相當(dāng)簡(jiǎn)單,但是到目前為止,編寫(xiě)DNA一直是把DNA存儲(chǔ)變?yōu)楝F(xiàn)實(shí)的主要障礙。主要存在兩種挑戰(zhàn):首先,利用目前的方法只能制造出短鏈DNA;其次,不管是編寫(xiě)DNA還是讀取DNA都很容易出錯(cuò),特別是當(dāng)同一個(gè)DNA字符出現(xiàn)重復(fù)時(shí),尤其容易出錯(cuò)。研究人員正著手創(chuàng)建一種可以解決上述兩個(gè)問(wèn)題的編碼。
“我們知道,我們需要單獨(dú)地利用短鏈DNA來(lái)進(jìn)行編碼,而且需要采取一種方法,使我們?cè)诰幋a時(shí)不可能出現(xiàn)一連串的同一字符。因此我們估計(jì),把編碼拆分為許多前后互相搭接的片段,利用索引信息來(lái)顯示每個(gè)片段在全部編碼中所屬的位置,制定一個(gè)不允許重復(fù)的編碼方案。這樣,只有在四個(gè)不同的片段中犯同樣錯(cuò)誤時(shí),編碼才會(huì)失敗——這樣的情況極為罕見(jiàn)。”尤恩·伯尼說(shuō)道。
這個(gè)新方法需要通過(guò)編碼信息來(lái)合成DNA。安捷倫科技公司(Agilent Technologies, Inc)是位于加州的一家公司,自愿為此項(xiàng)研究提供服務(wù)。登錄到安捷倫科技公司的網(wǎng)站,尤恩·伯尼和尼克·高曼給該公司發(fā)送了以下資料的編碼版本:一個(gè)mp3格式的馬丁·路德·金的演講《我有一個(gè)夢(mèng)想》;一張jpg格式的EMBL照片;一篇pdf格式的沃森和克里克合作的重要論文《核酸的分子結(jié)構(gòu)》;一份包括所有莎士比亞十四行詩(shī)的txt格式文件;還有一份敘述本研究中編碼情況的文件。
“我們從互聯(lián)網(wǎng)上下載了這些文件,并利用這些文件來(lái)合成了數(shù)十萬(wàn)段DNA,合成的結(jié)果看起來(lái)就像一小塊泥土。”安捷倫科技公司的埃米莉·勒普勞斯特說(shuō)。安捷倫科技公司將這個(gè)合成樣本郵寄給EMBL,EMBL的研究人員能夠不出差錯(cuò)地為合成DNA測(cè)序,為文件解碼。
“我們利用DNA分子創(chuàng)造了一種容錯(cuò)編碼,據(jù)我們所知,這種分子形式將會(huì)在1萬(wàn)年甚至更長(zhǎng)的時(shí)間里保持良好的狀態(tài)。”尼克·高曼說(shuō),“只要有人知道這種編碼是什么,利用一臺(tái)可以讀取DNA的機(jī)器就能夠獲取編碼所存儲(chǔ)的文件。”
盡管還有許多實(shí)際的問(wèn)題需要解決,但是DNA固有的高密度性和耐久性使之成為引人矚目的存儲(chǔ)媒介。研究人員下一步將要完善這種編碼方案,使DNA存儲(chǔ)早日付諸實(shí)用。