現代數據存儲技術瞄準基因序列
或許最多10年之后,沒有人會再相信磁帶儲存。圖片來源:Wes Fernandes
對于Nick Goldman來說,在DNA中編碼數據的想法始于一個笑話。
那是2011年2月16日,Glodman和一些生物信息學領域的朋友在德國漢堡聊天,話題是他們如何才能儲存全世界涌來的基因組序列和其他數據洪流。他記得當時談話的科學家因為傳統計算機技術成本昂貴和具有局限性而懊惱不已,他們開始開玩笑說或許可以嘗試科幻方法。“我們想,‘有什么能阻止我們利用DNA儲存信息呢?’”
隨后,笑聲戛然而止。“那是恍然明悟的一刻。”Goldman說,他是英國辛克斯頓歐洲生物信息學研究所(EBI)的一名團隊負責人,那時他們想到的是與硅基記憶芯片讀寫信息的微秒時間量程相比,DNA儲存可能會非常緩慢。它可能需要花費數個小時,通過合成DNA鏈條以形成具體的基礎模式來編碼數據,還會花費更多時間利用一種測序機器恢復這些信息。但是如果采用DNA,整個人類基因組都能夠裝入人類肉眼看不見的一個細胞中。對于信息儲存的純粹密度來說,DNA可能是硅以外進行長期數量級信息儲存的最好方式。
“我們坐在酒吧里拿著餐巾紙和圓珠筆。”Goldman說,然后開始記錄我們的想法:“需要做些什么讓它發揮作用呢?”研究人員的最大擔心是DNA合成和測序經常發生錯誤,而且比值高達每100個核苷酸基中就會出現一例錯誤。這會讓大規模數據儲存完全不可靠,除非他們能夠找到一種可用的糾錯方法。他們能夠編碼這些信息成為堿基對從而辨別并解除錯誤嗎?“經過一個晚上的商討。”Goldman說,“我們知道我們可以。”
DNA數據儲存
Goldman和EBI的同事Ewan Birney將這一想法搬進了實驗室,兩年后,他們宣布成功利用DNA編碼了5個文件,其中包括莎士比亞的十四行詩和一小段馬丁·路德·金的《我有一個夢想》的演講。而那時,美國哈佛大學生物學家George Church及其位于馬薩諸塞州劍橋的團隊已經公開了利用DNA編碼的單獨示范。但是當時EBI的文件為739千字節(kB),直到今年7月,來自微軟和華盛頓大學的研究人員宣稱編成200兆字節(MB)的文件之前,它一直是曾經編碼的最大DNA檔案。
利用DNA作為儲存介質的最新實驗信號已經超越了基因組學的范疇:全世界正面臨數據傾軋。到2020年,從天文學圖像和期刊論文到YouTube視頻,全球數據檔案預計將達44萬億千兆字節(GB),是2013年信息儲量的10倍。
這正是為什么難以獲得的數據現在需要依賴老式的磁盤記錄永久檔案的原因。這些信息媒介儲存比硅的儲存密度大得多,但是讀起來卻非常慢。然而,即便這一方法也變得日益不可持續,華盛頓特區美國情報先進研究計劃署(IARPA)計算神經學家David Markowitz說。
他表示,很難想象一個數據中心的磁帶驅動器上擁有艾字節(10億GB)的信息。這樣的一個中心將需要10年間花費10億美元來建造和運行,并且需要數億瓦的電量。“分子信息儲存具有將這些條件減少三個數量級的潛力。”Markowitz說。如果信息能被打包成類似大腸桿菌基因的密度,那些全球的信息儲存需求可能只需要大約1公斤的DNA。
實現這一潛在目標并不容易。在DNA能夠作為傳統儲存技術的可行競爭者之前,研究人員需要克服從DNA編碼信息可靠性和恢復用戶需要的信息到讓核苷酸鏈獲得價格低廉、方便迅捷的一系列挑戰。
盡管如此,解決這些挑戰的工作正在進行。北卡羅來納州半導體研究公司(SRC)正在進行DNA信息儲存工作。“10年來,我們一直在尋找硅以外的物質”進行數據儲存,SRC主任及首席科學家Victor Zhirnov說,“它很難置換。”他說,但是DNA作為其中的一名具有實力的候選途徑,“似乎很有可能實現”。
長期記憶
第一個用4個DNA堿基對繪制1和0等數據信息的人是藝術家Joe Davis,他在1988年曾與哈佛大學研究人員合作。他們在大腸桿菌中插入了DNA序列,編碼了僅僅35個比特。在組成5×7的矩陣后,使所有的1均對應暗像素,所有的零均對應亮像素,形成了記錄生活和女性故事的古德國詩歌。
現在,Davis正在與Church的實驗室合作,從2011年開始探索DNA數據儲存。這個哈佛團隊希望,這一應用有助于減少合成DNA的高成本,正如基因組學已經降低了測序成本那樣。Church在2011年11月與現在加州大學洛杉磯分校工作的Sri Kosuri以及約翰斯·霍普金斯大學基因組專家Yuan Gao合作,進行了概念驗證實驗。該團隊利用許多DNA短鏈編碼了一本Church共同編著的659kB的書籍。每個短鏈的一部分都是一個地址,闡述了這些片段經過測序之后應該如何整理,而其余的短鏈則包含了數據。最終,在對這些鏈條進行測序之后,Kosuri、Church 和Gao發現了22處錯誤,對于可靠信息儲存來說,這些錯誤顯然過多。
同時,在EBI,Goldman、Birney及其同事也在利用大量DNA鏈條編碼其739kB的數據儲存,其中包括圖像、文本、視頻文件以及Watson和Crick關于DNA雙螺旋結構的一篇標志性論文的PDF文件。為了避免重復性的堿基和其他錯誤,ENI團隊采用了更加復雜的方式。通過使用被25個堿基逐漸改變的相互重合的100個堿基長鏈,ENI科學家還確保堿基組件中都有不同的糾錯以及相互對照版本。
盡管如此,具有諷刺意味的是,他們依然丟失了25個堿基中的兩個。然而,這些研究結果讓Goldman相信,DNA擁有成為價格低廉、長期數據儲存介質的潛力,那將需要極少的能量實現海量數據儲存。“或許最多10年之后,沒有人會再相信磁帶儲存。如果你需要保證文件復本的安全,一旦你能夠將其寫在DNA上,就可以把它丟在一個洞穴里忘掉它,直到你希望重新讀取它的那一天。”
新興領域
自從在2013年訪問英國時聽到Goldman談起DNA儲存之后,這種可能性已經吸引了華盛頓大學計算學家Luis Ceze和雷德蒙德微軟研究公司的Karin Strauss的關注。“DNA的密度、穩定性以及成熟度讓我們對它非常感興趣。”Strauss說。
在伊利諾伊大學香檳分校,計算學家Olgica Milenkovic及其同事已經開發出一種隨機存取方式,可以重新編輯編碼的數據。他們的方法可以在處理DNA長鏈兩端的序列時儲存數據。研究人員隨后或是利用聚合酶鏈反應或是利用CRISPR-Cas9等方法挑選、增加以及重新編寫DNA鏈條。
DNA數據儲存方面面臨的其他挑戰是規模化以及加速合成分子,Kosuri說,他承認因為這些原因,他本人對該方法并不看好。他回憶說,在哈佛大學做實驗的初期,“我們做到了700kB。使其增加1000倍達到700MB,才是一張CD的容量”。而若要真正解決全世界的數據檔案問題,至少需要拍字節的儲存能力。“這并非不可能。”Kosuri說,“但是人們需要意識到這樣大的規模是建立在提高百萬倍的基礎上。”而這肯定不容易。
Goldman堅信這只是時間問題。“我們的估計是需要使其儲存能力提高10萬倍才能讓這種技術的效益看得見,我們認為它非常可靠。”他說,“過去的表現或許不能說明什么。現在每一兩年就會出現新的讀取技術。六個數量級的增長對于基因組學來說只是小菜一碟。請拭目以待。”