人類在儲(chǔ)存資料一直面對(duì)一個(gè)問題:資料在過去兩年內(nèi)儲(chǔ)存的數(shù)目已經(jīng)超過以往歷史的紀(jì)錄。資訊的急流有朝一日將會(huì)超過目前硬件所能儲(chǔ)存的空間。而研究者竟然將腦筋動(dòng)到大自然最原始的儲(chǔ)存硬盤上:DNA。
聽起來(lái)有點(diǎn)不可思議,但其實(shí)用 DNA 儲(chǔ)存資料早就不是一件新鮮事了。自有生命以來(lái),萬(wàn)物就開始利用 DNA 當(dāng)作儲(chǔ)存媒介。DNA 就像一座旋轉(zhuǎn)階梯,當(dāng)作梯子的就是鹼基 ATCG,由這 4 個(gè)鹼基排列出的序列可以編碼所有生命。而科學(xué)家嘗試做的,就是將數(shù)位資訊的 0 和 1 轉(zhuǎn)換成這 4 個(gè)字母。
一定會(huì)有人覺得何必這么麻煩,那是因?yàn)?DNA 有其他硬盤沒有的好處,首先它占用的空間極小,而且非常持久,只要保存在冰冷干燥的陰暗處,猛瑪象的 DNA 都可以析出并定序。最重要的是,DNA 永不過時(shí),不像 CD 或錄音帶會(huì)沒落。
自 2012 年來(lái)科學(xué)家們一直嘗試在用 DNA 儲(chǔ)存資料,來(lái)自哈佛大學(xué)的遺傳學(xué)家喬治·茄契(George Church)和加州大學(xué)洛杉磯分校的生化學(xué)家斯理·克蘇里(Srirram Kosuri)及他們的團(tuán)隊(duì)將 DNA 的 4 個(gè)字母──ATCG 錄制成數(shù)位化的 0 和 1,將一本有 5 萬(wàn)個(gè)字母的書轉(zhuǎn)錄在上千個(gè)片段的 DNA 上。看似成功,但實(shí)際上成效非常差,每克 DNA“只能”儲(chǔ)存 1.28PB(1PB=1024TB)。使用其他方法也許能再改進(jìn)一些,但沒有人可以達(dá)到理想目標(biāo)的一半。
理想上科學(xué)家們究竟要做到多好呢?他們認(rèn)為每個(gè) DNA 的核甘酸應(yīng)該可以儲(chǔ)存 1.8bits。想必有人會(huì)疑惑為何不是整數(shù)的 2,因?yàn)樗麄円部剂康较∩賲s無(wú)法忽視的 DNA 讀取失誤。
來(lái)自哥倫比亞大學(xué)的電腦科學(xué)家雅尼夫·埃利希(Yaniv Erlich),仍然堅(jiān)持他可以更接近這個(gè)極限。他和紐約基因體研究中心的副研究員迪娜·資林斯基(Dina Zielinski)將目光轉(zhuǎn)向常用來(lái)編碼和解鎖的算法程序。他們利用 6 個(gè)檔案,包含了一個(gè)完整的電腦運(yùn)作系統(tǒng)、史上第一部電影《火車進(jìn)站》……等等,接著將它們轉(zhuǎn)換成二進(jìn)制,壓縮成一個(gè)壓縮檔,在分成數(shù)串二進(jìn)位的代碼。最終產(chǎn)生出一股 200 個(gè)鹼基長(zhǎng)、共 7 千股的數(shù)位清單。
他們將這些檔案?jìng)鹘o位于舊金山的生物科技公司 Twist Bioscience,請(qǐng)他們合成出 DNA 序列。兩周后,兩人就收到一小瓶轉(zhuǎn)錄檔案的 DNA,為了將它解碼,他們利用現(xiàn)代 DNA 定序科技:序列會(huì)被送進(jìn)電腦轉(zhuǎn)換回二進(jìn)制,并利用標(biāo)簽重組回 6 個(gè)原始檔。根據(jù)埃利希宣稱,他們的儲(chǔ)存容量效率極佳,每個(gè)核甘酸就能編碼高達(dá) 1.6bits,比其他對(duì)手好上 60%,更逼近理想目標(biāo)的 85%。
然而用 DNA 儲(chǔ)存資訊會(huì)一直面臨一個(gè)問題:那就是序列定序同時(shí)也會(huì)毀損此序列,讀取越多,DNA 也會(huì)逐漸消失。埃利希說:“假設(shè)我們決定編碼《Let it Go》這首歌(電影《冰雪奇緣》主題曲),DNA 將會(huì)在一周內(nèi)消耗殆盡。”另外,本質(zhì)上 DNA 十分容易復(fù)制,然而將 DNA 編碼的資料備份卻是一件瑣碎的事,因?yàn)槊看蝹浞荻紩?huì)有出錯(cuò)的風(fēng)險(xiǎn)。
但埃利希和茲林斯基設(shè)計(jì)出一種名為“DNA 噴泉”的演算法,可以將他們分類好的二進(jìn)位代碼包裝進(jìn)所謂的“水滴”中,他們還加了額外的標(biāo)簽幫鹼基在稍后重新排列成正確順序。而復(fù)制錯(cuò)誤的困擾因此迎刃而解,就算復(fù)制超過 10 份,他們?nèi)钥梢酝昝佬迯?fù)。
巧合地,Netflix 和 Spotify 的串流服務(wù)平臺(tái)也是利用噴泉代碼解決相似的問題。做法大致就是將資料劃分成“水滴”,只要得到足夠的水滴,不管遺失哪部分都可以重新建構(gòu)所有串流影音。埃利希還將之比喻成一塊巨大的數(shù)獨(dú)拼圖,只要有些正方形區(qū)域,依然可以推斷出完整的樣貌。
DNA 儲(chǔ)存也將會(huì)形成主流,而且會(huì)越來(lái)越便宜。目前 DNA 的定序確實(shí)昂貴,合成 DNA 更是所費(fèi)不貲,但兩者的價(jià)格一直在跌落。不過就算持續(xù)減價(jià),合成 DNA 仍需要一定的技術(shù),因?yàn)橹挥猩贁?shù)工廠支持相關(guān)研究的實(shí)驗(yàn)室。埃利希預(yù)測(cè)強(qiáng)況將會(huì)扭轉(zhuǎn),并表示:“別忘了第一部硬盤需要 4 個(gè)人才拿得動(dòng),經(jīng)過 10 年已經(jīng)變成指頭大小。盡管目前只有少部分資金投入合成 DNA,但我希望借由更優(yōu)秀的設(shè)備,將 DNA 儲(chǔ)存資料的潛能完全激發(fā)出來(lái)。”
也許在未來(lái)的某一天,我們周遭隨處可見的硬盤,將被一瓶瓶 DNA 取代。