Microsoft正在實(shí)驗(yàn)用人工合成DNA實(shí)現(xiàn)數(shù)字化數(shù)據(jù)存儲(chǔ),并于最近向遺傳學(xué)初創(chuàng)公司Twist Bioscience購買了一千萬條DNA。
據(jù)悉Microsoft有關(guān)DNA存儲(chǔ)的實(shí)驗(yàn)是與華盛頓大學(xué)(University of Washington)合作進(jìn)行的。聯(lián)合研究團(tuán)隊(duì)最近提交了一份描述下圖所示完整DNA歸檔存儲(chǔ)系統(tǒng)架構(gòu)述的論文。
DNA存儲(chǔ)系統(tǒng)由一個(gè)對(duì)數(shù)據(jù)進(jìn)行編碼,以便將數(shù)據(jù)存儲(chǔ)在DNA中的DNA合成器;一個(gè)包含大量“隔間”,將DNA的存儲(chǔ)池與數(shù)據(jù)卷進(jìn)行映射的存儲(chǔ)容器;以及負(fù)責(zé)讀取DNA序列并將其重新轉(zhuǎn)換為原始數(shù)據(jù)的DNA序列器組成。
DNA存儲(chǔ)技術(shù)目前有個(gè)非常有趣的問題需要解決:尋址。DNA鏈?zhǔn)荄NA存儲(chǔ)的基本單位,DNA鏈由大約100-200個(gè)核苷酸組成,可存儲(chǔ)50–100比特信息。這意味著一個(gè)典型的數(shù)據(jù)對(duì)象需要映射至大量DNA鏈。研究人員目前使用了鍵-值架構(gòu),因此這里的關(guān)鍵在于首先需要關(guān)聯(lián)至包含所需鏈的池,隨后通過隨機(jī)訪問機(jī)制訪問池中的鏈。
另一個(gè)有趣之處在于數(shù)據(jù)的呈現(xiàn)方式。DNA由4個(gè)堿基(A、C、G、T)組成,因此base-4是最直接的數(shù)據(jù)呈現(xiàn)方法,例如01110001可通過base-4的方式轉(zhuǎn)換為1301,并映射為DNA序列中的CTAC結(jié)構(gòu)。然而除此之外,研究人員還選擇了一種base–3呈現(xiàn)方式,借此可通過一個(gè)核苷酸實(shí)現(xiàn)糾錯(cuò)。那么在上述的例子中,01100001可轉(zhuǎn)換為base-3格式的01112,并映射至為DNA序列中的CTCTG結(jié)構(gòu)。
有關(guān)DNA存儲(chǔ)原理的詳細(xì)信息,包括如何通過編碼改善可靠性,以及目前進(jìn)行過的幾個(gè)實(shí)驗(yàn),可參閱上文提及的PDF論文。
根據(jù)Twist Bioscience公司介紹,相對(duì)傳統(tǒng)數(shù)字化存儲(chǔ),基于DNA的歸檔技術(shù)可提供兩個(gè)重要優(yōu)勢(shì):壽命更長(zhǎng),最新研究數(shù)據(jù)顯示DNA數(shù)據(jù)存儲(chǔ)的壽命高達(dá)2000年;并且數(shù)據(jù)密度更高,一克DNA即可存儲(chǔ)一兆GB數(shù)據(jù)。
根據(jù)Microsoft和華盛頓大學(xué)研究人員的介紹,DNA存儲(chǔ)并不是閃存或硬盤的替代品:
我們將DNA存儲(chǔ)視作一種最持久的深層存儲(chǔ)體系,可提供高密度且持久的歸檔存儲(chǔ)方案,以及數(shù)小時(shí)乃至數(shù)天的訪問時(shí)間。
這種想法的重點(diǎn)在于,DNA的合成和排序可以任意程度的序列化方式進(jìn)行,因此可以輕松獲得所需的讀寫帶寬。
Microsoft公司DNA存儲(chǔ)項(xiàng)目主管Doug Carmean澄清說,他們使用Twist提供的DNA進(jìn)行初步測(cè)試“證明了數(shù)字化數(shù)據(jù)可通過這種方式進(jìn)行編碼,并可100%還原為原始數(shù)據(jù)”,但在這種技術(shù)正式商用之前還有很多工作有待完成。
作者:Sergio De Simone