精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:存儲企業動態 → 正文

Nature:如何用一公斤的DNA滿足全球的信息儲存需求?

責任編輯:editor007 作者:章敏 |來源:企業網D1Net  2016-09-05 21:41:14 本文摘自:雷鋒網

導讀:現代的歸檔技術已無法跟上日益增長的信息海嘯。但大自然可能早就有了該問題的答案。

Nature:如何用一公斤的DNA滿足全球的信息儲存需求?

  DNA如何存儲下整個世界的數據

對于英國欣克斯頓歐洲生物信息研究所(EBI)組長Nick Goldman來說,在DNA中編碼數據的想法是從一個玩笑開始的。

2011年2月16號星期三,Goldman正在德國漢堡的一家酒店中,與他的一些生物信息學家同事談論如何將大量現有的基因組序列和其他被世界遺棄的數據儲存到DNA中。他記得,當時科學家們對傳統計算技術的成本和局限性感到非常沮喪,他們開始用科幻的替代品開玩笑。“我們思考,是什么阻礙了我們使用DNA來存儲信息?”

隨后玩笑終止了。Goldman回憶道:“這是醍醐灌頂的時刻”。

的確,在硅存儲器芯片中讀取或寫入數據方面,DNA存儲與硅存儲的微秒級時間尺度相比慢的可憐。人工合成特定模式的DNA字符串需要幾個小時來編碼數據,還要更多的時間去使用測序機恢復信息。但DNA將整個人類的基因組納入到了一個肉眼看不見的細胞中。對于信息存儲的純粹密度,DNA可能超越了硅幾個數量級—對于長期歸檔來說趨于完美。

Goldman回憶,當時他們拿著餐巾紙和圓珠筆坐在酒吧里,開始梳理想法:“想要實現該想法,你需要做些什么?”研究員最大的顧慮是往往每100個核苷酸就有一個1個DNA合成和測序錯誤。這將使大規模的數據存儲變得完全不可靠——除非他們可以找到一個有效的錯誤糾正方案。他們能否以允許它們檢測并糾正錯誤的方式,將信息編碼到一個堿基對?在整個夜晚的討論結束后,Goldman覺得他們找到了方向。

他和他的EBI同事Ewan Birney將該想法帶入了實驗室,且兩年后宣布到他們已經成功的使用DNA編碼了五個文檔,包括莎士比亞的十四行詩和馬丁·路德·金“我有一個夢想”演講中的一部分。隨后,生物學家George Church和他在馬薩諸塞州,劍橋,哈佛大學的團隊,推出了一個獨立的DNA編碼演示。但739千字節(KB)是EBI曾制造出的最大DNA檔案文件——直到2016年7月,微軟和華盛頓大學的研究人員宣稱研究飛躍到了200兆字節(MB)。

傳統的存儲介質并非長遠之計

最新的實驗表明,使用DNA作為存儲介質的興趣遠遠出了基因組:整個世界正面臨著一個數據壓縮挑戰。統計所有的天文圖片和YouTube視頻的期刊文章,到2020年,全球數字檔案館將達到大約44兆千兆字節(GB),相比于2013增長超過了十倍。2040,如果一切的東西都以即時訪問的方式存儲,如,用于記憶棒中的閃存芯片,存檔將會比預期多消耗10–100倍的微芯片級硅。

這也是為什么很少被訪問數據的永久檔案,目前依賴于老式磁帶的原因之一。這個媒介打包的信息可以比硅更密集,但閱讀速度要慢得多。然而,在華盛頓DC的美國情報高級研究項目活動(IARPA)的計算神經科學家David Markowitz指出:‘’這種方法并非長久之計‘’。他說:‘'可以想象出磁帶驅動器上有一個擁有艾字節(十億字節)的數據中心會是什么樣子。‘’但這樣的一個中心將需要10億美元資的金,以及10年以上的時間來建設和維護,還需要數百兆瓦的電力。Markowitz說道“分子數據存儲有潛力將這些所有的要求減少三個數量級”如果信息可以被密集包裝至存入到大腸桿菌的基因中,那么只要約一公斤的DNA就可以滿足世界的存儲需求。

Nature:如何用一公斤的DNA滿足全球的信息儲存需求?

要實現這種潛力并不簡單。在DNA可以成為傳統存儲技術的競爭對手之前,研究人員將不得不克服許多挑戰,從在DNA中可靠的編碼信息和只檢索用戶需要的信息,到使核苷酸字符串足夠便宜且迅速。

但是,迎接這些挑戰的努力正在加快。半導體研究公司(SRC),在Durham,北卡羅萊納的一個基金會——由芯片制造企業聯盟支持,正重返DNA存儲研究工作。Goldman 和Birney有英國政府撥款研究下一代DNA存儲方法,并計劃成立一個公司來進行他們的研究。在4月份,IARPA和SRC舉辦了一場針對學術界和產業界研究人員的研討會,包括來自如IBM公司,和直接研究該領域的研究人員。

SRC主任和首席科學家Victor Zhirnov說道:

“十年來,我們一直在尋找超越硅的數據歸檔。”

“這是很難替代的。但是,DNA,是最強的候選人之一,看起來可能會發生。”

長期記憶

第一個詳細規劃數字數據1和0到四個DNA堿基對的人是藝術家Joe Davis,在1988年與來自哈佛大學的研究人員合作,它們插入到大腸桿菌中的DNA序列僅編碼35位。當組成一個5×7矩陣時,1對應于暗像素而0對應亮像素,他們形成了一幅古日耳曼符文代表著生命和女性地球的畫面。

如今,Davis隸屬于 Church實驗室,它在2011開始探索DNA數據存儲。哈佛大學的研究小組希望應用程序可以有助于降低合成DNA的成本,因為基因組學降低了測序的成本。Church在2011年11月與Sri Kosuri(現在在加利福尼亞大學,洛杉磯)和基因組學專家Yuan Gao(現在在巴爾的摩馬里蘭州的約翰霍普金斯大學)進行了概念證明實驗。研究小組使用許多短DNA序列編碼一個659 kb版本的書(由Church共同撰寫)。每個字符串的一部分都是一個地址,該地址指定了測序后碎片應該如何安排,還有其余包含的數據。二進制0可以通過堿基腺嘌呤或胞嘧啶進行編碼,而二進制編碼1可由鳥嘌呤胸腺嘧啶表示。這種靈活性有助于團隊進行序列設計時避免讀取問題,它可在含有大量鳥嘌呤和胞嘧啶的區域發生,部分地區重復發生,或連接到另一個使字符串折疊延伸。他們沒有嚴格意義上的錯誤修正,而是依賴于由每個個體字符串的多個復制品提供的冗余。因此,測序后的字符串中,Kosuri,Church和Gao發現了22個錯誤——離可靠的數據存儲還差很遠。

在EBI,與此同時,Goldman,Birney和他們的同事也用了許多DNA字符串編碼他們的739 KB數據存儲,其中包括一個圖像,ASCII文本,音頻文件和Watson和Crick PDF版的標志性論文——DNA的雙螺旋結構。為了避免重復堿基和其它的誤差源,EBI領導的團隊使用了一個更復雜的方案。一方面涉及到不像二進制編碼數據1和0,而是三個堿基——相當于0,1和2。然后,他們不斷旋轉,其中的DNA堿基代表每一個數字,以避免在讀取過程中可能導致問題的序列。通過重疊。100-堿基-長度字符串由25個堿基逐步轉移,EBI科學家也保證會有四個版本——每個有25-堿基的部分,用于錯誤檢查和彼此對照。

Nature:如何用一公斤的DNA滿足全球的信息儲存需求?

但最終的結果是,他們還是失去了25個堿基序列中的2個——湊巧的是,這兩個文件正好是Watson和Crick的部分文件。然而,這些結果說服了Goldman,DNA有潛力作為一個便宜的、長期的數據存儲庫——只需要很少的能量存儲。為了衡量什么是長期,他指出了2013公布的馬基因組——從一個被困在凍土700000多年的骨頭中解碼出。他說:

“在數據中心,三年后沒有人會相信一個硬盤”。

“在最多十年后,沒有人會相信磁帶。你想要一個比這更安全的復雜品 ,一旦我們可以得到那些DNA上寫的東西,你就可以把它放在一個洞穴,而且在到你想讀它之前都可以不用管它。”

一個新興的領域

這種可能性已經吸引了計算機科學家Luis Ceze(來自華盛頓大學)和Karin Strauss(在華盛頓,雷德蒙德微軟研究院),自從他們在2013參觀英國時聽到Goldman討論EBI工作后。Strauss說到:

“DNA的密度,穩定性和成熟度使我們很興奮”

在他們返回華盛頓后,Strauss和Ceze與華盛頓大學的合作者Georg Seelig開始了研究。他們的主要關注點之一是另一個主要的缺點——遠遠超越了DNA對于錯誤的脆弱性。使用標準的排序方法,在不檢索所有的數據情況下,根本沒有辦法可以檢索其中任何一塊的數據:每一個DNA鏈都要被讀取。這比傳統的計算機內存更加麻煩,傳統的計算機內存允許隨機存取:有能力只讀取一個用戶需要的數據。

四月初,團隊在佐治亞州亞特蘭大召開的會議上概述了其解決方案。研究人員開始從他們的DNA檔案中提取微小樣本。然后,他們使用聚合酶鏈反應(PCR),以確定和作出更多的字符串復制品以編碼他們想提取的數據。復制品的擴散使得測序比以前的方法更快,更便宜,更準確。該小組還設計了一個替代的糾錯方案,組織表示允許數據編碼為EBI的兩倍重,但但一樣可靠。

微軟–華盛頓大學研究人員示范存儲了151 KB的圖像,在一個單一的字符串池中,一些使用EBI的方法編碼而一些使用他們的新方法編碼。他們采用類似EBI的方法提取了三個東西,—只貓、悉尼歌劇院和卡通猴,得到一個他們需要手動糾正的讀取錯誤。他們也使用了他們的新方法讀取悉尼歌劇院的圖片,沒有發現任何錯誤。

經濟學與化學

在伊利諾伊大學香檳分校的計算機科學家Olgica Milenkovic和她的同事們已經開發了一個隨機訪問方法,同樣確保了他們可以重新寫入編碼數據。他們的方法將存儲數據為長的DNA字符串,在其兩端都有地址序列。研究人員用這些地址進行選擇、放大并使用PCR或基因編輯技術CRISPR–Cas9重寫字符串。

地址必須避免妨礙閱讀的序列,同時彼此也要有足夠的不同,以防止他們在出現錯誤的時候被混淆,并避免如由于他們的序列包含延伸識別和綁定到對方(采取了加強計算)導致的分子折疊問題。Milenkovic說道“開始時,我們使用計算機搜索,因為真的很難想出擁有所有這些屬性的東西”她的團隊現在已經用數學公式取代了這個勞動—密集的過程,使他們能夠更快速地設計一種編碼方案。

Nature:如何用一公斤的DNA滿足全球的信息儲存需求?

Kosuri說:“DNA數據存儲的其他挑戰是合成分子的規模和速度”他承認由于這個理由,他對該想法并不樂觀。在哈佛大學的早期實驗中,他回憶道“我們有700kb。即使是增加1000倍也才700兆,這是一個CD”真正在全球數據歸檔問題發揮作用意味著至少存儲PB級的信息。“這并不是不可能的,”Kosuri說,“但人們必須意識到改進的規模是上百萬倍。”

Markowitz同意這不是一件容易的事。“占主導地位的生產方法是一個將近30歲的化學過程,添加到每個堿基它需要400秒以上的時間。”如果這是仍然使用的方法,他補充說:“數十億的不同字符串必須以并行方式編寫,速度才足夠快。同時生產的電流最大值是數以萬計的字符串。”

另一個重要因素是合成DNA的成本。它占了EBI實驗費用12660美元的98%,測序只占了2%——由于人類基因組計劃在2003年完成,成本降低了二百萬倍。盡管這是先例,Kosuri不相信經濟也可以同樣帶動合成DNA的進展。他說道“你可以很容易地想象出安排70億人的市場,但不可能建立70億人的基因組”。他承認,成本方面的一些改善可能是由于人類基因組計劃(HGP—write在六月由Church和其他人提出的一個項目)造成的。如果有資助的話,該計劃將旨于合成一個完整的人類基因組:23個含有32億個核苷酸的染色體對。但即使HGP—write成功了,Kosuri說,“人類基因組只包含0.75 GB的信息,在面臨合成實際數據存儲的挑戰方面就會顯得相形見絀。”

Zhirnov說道:

“綜合成本可以低于如今的水平數量級是件好事”

“為什么成本高,這并沒有根本的原因。”

今年四月,微軟的研究做出了一個早期的舉措,它可能有助于創造必要的需求,即從Twist Biosciences(加州,舊金山的一家DNA合成啟動公司)訂貨了1000萬字符串。Strauss和她的同事們說,他們一直在使用的字符串推動他們的隨機存取存儲方法到0.2GB。細節還未公布,但據報道,該檔案包括了100多種語言中的人權宣言,100大古滕貝格項目圖書和種子數據庫。雖然該合成挑戰相比于HGP-write所面臨要小, 但Strauss 強調了在存儲容量跳躍250倍的意義。

她說:

“是時候鍛煉一下我們處理大量DNA的肌肉,將DNA其推到更大的范圍,并看看這個過程會在哪里被打斷,”

“實際上它在很多個地方都中斷了——而我們正在學習一個偉大的想法解決它。”

Goldman很有信心,這是一件令人享受的事情。

“我們的估計是,我們需要100000倍的改進使這項技術成型,我們認為這是非常可信的,”

“雖然過去的表現并不能保證,但每一年或每兩年就有新的讀取技術將投入生產。在基因組學中六個數量級不是什么大問題。你只是需要稍等一下。”

Via:Nature

關鍵字:DNA編碼誤差源

本文摘自:雷鋒網

x Nature:如何用一公斤的DNA滿足全球的信息儲存需求? 掃一掃
分享本文到朋友圈
當前位置:存儲企業動態 → 正文

Nature:如何用一公斤的DNA滿足全球的信息儲存需求?

責任編輯:editor007 作者:章敏 |來源:企業網D1Net  2016-09-05 21:41:14 本文摘自:雷鋒網

導讀:現代的歸檔技術已無法跟上日益增長的信息海嘯。但大自然可能早就有了該問題的答案。

Nature:如何用一公斤的DNA滿足全球的信息儲存需求?

  DNA如何存儲下整個世界的數據

對于英國欣克斯頓歐洲生物信息研究所(EBI)組長Nick Goldman來說,在DNA中編碼數據的想法是從一個玩笑開始的。

2011年2月16號星期三,Goldman正在德國漢堡的一家酒店中,與他的一些生物信息學家同事談論如何將大量現有的基因組序列和其他被世界遺棄的數據儲存到DNA中。他記得,當時科學家們對傳統計算技術的成本和局限性感到非常沮喪,他們開始用科幻的替代品開玩笑。“我們思考,是什么阻礙了我們使用DNA來存儲信息?”

隨后玩笑終止了。Goldman回憶道:“這是醍醐灌頂的時刻”。

的確,在硅存儲器芯片中讀取或寫入數據方面,DNA存儲與硅存儲的微秒級時間尺度相比慢的可憐。人工合成特定模式的DNA字符串需要幾個小時來編碼數據,還要更多的時間去使用測序機恢復信息。但DNA將整個人類的基因組納入到了一個肉眼看不見的細胞中。對于信息存儲的純粹密度,DNA可能超越了硅幾個數量級—對于長期歸檔來說趨于完美。

Goldman回憶,當時他們拿著餐巾紙和圓珠筆坐在酒吧里,開始梳理想法:“想要實現該想法,你需要做些什么?”研究員最大的顧慮是往往每100個核苷酸就有一個1個DNA合成和測序錯誤。這將使大規模的數據存儲變得完全不可靠——除非他們可以找到一個有效的錯誤糾正方案。他們能否以允許它們檢測并糾正錯誤的方式,將信息編碼到一個堿基對?在整個夜晚的討論結束后,Goldman覺得他們找到了方向。

他和他的EBI同事Ewan Birney將該想法帶入了實驗室,且兩年后宣布到他們已經成功的使用DNA編碼了五個文檔,包括莎士比亞的十四行詩和馬丁·路德·金“我有一個夢想”演講中的一部分。隨后,生物學家George Church和他在馬薩諸塞州,劍橋,哈佛大學的團隊,推出了一個獨立的DNA編碼演示。但739千字節(KB)是EBI曾制造出的最大DNA檔案文件——直到2016年7月,微軟和華盛頓大學的研究人員宣稱研究飛躍到了200兆字節(MB)。

傳統的存儲介質并非長遠之計

最新的實驗表明,使用DNA作為存儲介質的興趣遠遠出了基因組:整個世界正面臨著一個數據壓縮挑戰。統計所有的天文圖片和YouTube視頻的期刊文章,到2020年,全球數字檔案館將達到大約44兆千兆字節(GB),相比于2013增長超過了十倍。2040,如果一切的東西都以即時訪問的方式存儲,如,用于記憶棒中的閃存芯片,存檔將會比預期多消耗10–100倍的微芯片級硅。

這也是為什么很少被訪問數據的永久檔案,目前依賴于老式磁帶的原因之一。這個媒介打包的信息可以比硅更密集,但閱讀速度要慢得多。然而,在華盛頓DC的美國情報高級研究項目活動(IARPA)的計算神經科學家David Markowitz指出:‘’這種方法并非長久之計‘’。他說:‘'可以想象出磁帶驅動器上有一個擁有艾字節(十億字節)的數據中心會是什么樣子。‘’但這樣的一個中心將需要10億美元資的金,以及10年以上的時間來建設和維護,還需要數百兆瓦的電力。Markowitz說道“分子數據存儲有潛力將這些所有的要求減少三個數量級”如果信息可以被密集包裝至存入到大腸桿菌的基因中,那么只要約一公斤的DNA就可以滿足世界的存儲需求。

Nature:如何用一公斤的DNA滿足全球的信息儲存需求?

要實現這種潛力并不簡單。在DNA可以成為傳統存儲技術的競爭對手之前,研究人員將不得不克服許多挑戰,從在DNA中可靠的編碼信息和只檢索用戶需要的信息,到使核苷酸字符串足夠便宜且迅速。

但是,迎接這些挑戰的努力正在加快。半導體研究公司(SRC),在Durham,北卡羅萊納的一個基金會——由芯片制造企業聯盟支持,正重返DNA存儲研究工作。Goldman 和Birney有英國政府撥款研究下一代DNA存儲方法,并計劃成立一個公司來進行他們的研究。在4月份,IARPA和SRC舉辦了一場針對學術界和產業界研究人員的研討會,包括來自如IBM公司,和直接研究該領域的研究人員。

SRC主任和首席科學家Victor Zhirnov說道:

“十年來,我們一直在尋找超越硅的數據歸檔。”

“這是很難替代的。但是,DNA,是最強的候選人之一,看起來可能會發生。”

長期記憶

第一個詳細規劃數字數據1和0到四個DNA堿基對的人是藝術家Joe Davis,在1988年與來自哈佛大學的研究人員合作,它們插入到大腸桿菌中的DNA序列僅編碼35位。當組成一個5×7矩陣時,1對應于暗像素而0對應亮像素,他們形成了一幅古日耳曼符文代表著生命和女性地球的畫面。

如今,Davis隸屬于 Church實驗室,它在2011開始探索DNA數據存儲。哈佛大學的研究小組希望應用程序可以有助于降低合成DNA的成本,因為基因組學降低了測序的成本。Church在2011年11月與Sri Kosuri(現在在加利福尼亞大學,洛杉磯)和基因組學專家Yuan Gao(現在在巴爾的摩馬里蘭州的約翰霍普金斯大學)進行了概念證明實驗。研究小組使用許多短DNA序列編碼一個659 kb版本的書(由Church共同撰寫)。每個字符串的一部分都是一個地址,該地址指定了測序后碎片應該如何安排,還有其余包含的數據。二進制0可以通過堿基腺嘌呤或胞嘧啶進行編碼,而二進制編碼1可由鳥嘌呤胸腺嘧啶表示。這種靈活性有助于團隊進行序列設計時避免讀取問題,它可在含有大量鳥嘌呤和胞嘧啶的區域發生,部分地區重復發生,或連接到另一個使字符串折疊延伸。他們沒有嚴格意義上的錯誤修正,而是依賴于由每個個體字符串的多個復制品提供的冗余。因此,測序后的字符串中,Kosuri,Church和Gao發現了22個錯誤——離可靠的數據存儲還差很遠。

在EBI,與此同時,Goldman,Birney和他們的同事也用了許多DNA字符串編碼他們的739 KB數據存儲,其中包括一個圖像,ASCII文本,音頻文件和Watson和Crick PDF版的標志性論文——DNA的雙螺旋結構。為了避免重復堿基和其它的誤差源,EBI領導的團隊使用了一個更復雜的方案。一方面涉及到不像二進制編碼數據1和0,而是三個堿基——相當于0,1和2。然后,他們不斷旋轉,其中的DNA堿基代表每一個數字,以避免在讀取過程中可能導致問題的序列。通過重疊。100-堿基-長度字符串由25個堿基逐步轉移,EBI科學家也保證會有四個版本——每個有25-堿基的部分,用于錯誤檢查和彼此對照。

Nature:如何用一公斤的DNA滿足全球的信息儲存需求?

但最終的結果是,他們還是失去了25個堿基序列中的2個——湊巧的是,這兩個文件正好是Watson和Crick的部分文件。然而,這些結果說服了Goldman,DNA有潛力作為一個便宜的、長期的數據存儲庫——只需要很少的能量存儲。為了衡量什么是長期,他指出了2013公布的馬基因組——從一個被困在凍土700000多年的骨頭中解碼出。他說:

“在數據中心,三年后沒有人會相信一個硬盤”。

“在最多十年后,沒有人會相信磁帶。你想要一個比這更安全的復雜品 ,一旦我們可以得到那些DNA上寫的東西,你就可以把它放在一個洞穴,而且在到你想讀它之前都可以不用管它。”

一個新興的領域

這種可能性已經吸引了計算機科學家Luis Ceze(來自華盛頓大學)和Karin Strauss(在華盛頓,雷德蒙德微軟研究院),自從他們在2013參觀英國時聽到Goldman討論EBI工作后。Strauss說到:

“DNA的密度,穩定性和成熟度使我們很興奮”

在他們返回華盛頓后,Strauss和Ceze與華盛頓大學的合作者Georg Seelig開始了研究。他們的主要關注點之一是另一個主要的缺點——遠遠超越了DNA對于錯誤的脆弱性。使用標準的排序方法,在不檢索所有的數據情況下,根本沒有辦法可以檢索其中任何一塊的數據:每一個DNA鏈都要被讀取。這比傳統的計算機內存更加麻煩,傳統的計算機內存允許隨機存取:有能力只讀取一個用戶需要的數據。

四月初,團隊在佐治亞州亞特蘭大召開的會議上概述了其解決方案。研究人員開始從他們的DNA檔案中提取微小樣本。然后,他們使用聚合酶鏈反應(PCR),以確定和作出更多的字符串復制品以編碼他們想提取的數據。復制品的擴散使得測序比以前的方法更快,更便宜,更準確。該小組還設計了一個替代的糾錯方案,組織表示允許數據編碼為EBI的兩倍重,但但一樣可靠。

微軟–華盛頓大學研究人員示范存儲了151 KB的圖像,在一個單一的字符串池中,一些使用EBI的方法編碼而一些使用他們的新方法編碼。他們采用類似EBI的方法提取了三個東西,—只貓、悉尼歌劇院和卡通猴,得到一個他們需要手動糾正的讀取錯誤。他們也使用了他們的新方法讀取悉尼歌劇院的圖片,沒有發現任何錯誤。

經濟學與化學

在伊利諾伊大學香檳分校的計算機科學家Olgica Milenkovic和她的同事們已經開發了一個隨機訪問方法,同樣確保了他們可以重新寫入編碼數據。他們的方法將存儲數據為長的DNA字符串,在其兩端都有地址序列。研究人員用這些地址進行選擇、放大并使用PCR或基因編輯技術CRISPR–Cas9重寫字符串。

地址必須避免妨礙閱讀的序列,同時彼此也要有足夠的不同,以防止他們在出現錯誤的時候被混淆,并避免如由于他們的序列包含延伸識別和綁定到對方(采取了加強計算)導致的分子折疊問題。Milenkovic說道“開始時,我們使用計算機搜索,因為真的很難想出擁有所有這些屬性的東西”她的團隊現在已經用數學公式取代了這個勞動—密集的過程,使他們能夠更快速地設計一種編碼方案。

Nature:如何用一公斤的DNA滿足全球的信息儲存需求?

Kosuri說:“DNA數據存儲的其他挑戰是合成分子的規模和速度”他承認由于這個理由,他對該想法并不樂觀。在哈佛大學的早期實驗中,他回憶道“我們有700kb。即使是增加1000倍也才700兆,這是一個CD”真正在全球數據歸檔問題發揮作用意味著至少存儲PB級的信息。“這并不是不可能的,”Kosuri說,“但人們必須意識到改進的規模是上百萬倍。”

Markowitz同意這不是一件容易的事。“占主導地位的生產方法是一個將近30歲的化學過程,添加到每個堿基它需要400秒以上的時間。”如果這是仍然使用的方法,他補充說:“數十億的不同字符串必須以并行方式編寫,速度才足夠快。同時生產的電流最大值是數以萬計的字符串。”

另一個重要因素是合成DNA的成本。它占了EBI實驗費用12660美元的98%,測序只占了2%——由于人類基因組計劃在2003年完成,成本降低了二百萬倍。盡管這是先例,Kosuri不相信經濟也可以同樣帶動合成DNA的進展。他說道“你可以很容易地想象出安排70億人的市場,但不可能建立70億人的基因組”。他承認,成本方面的一些改善可能是由于人類基因組計劃(HGP—write在六月由Church和其他人提出的一個項目)造成的。如果有資助的話,該計劃將旨于合成一個完整的人類基因組:23個含有32億個核苷酸的染色體對。但即使HGP—write成功了,Kosuri說,“人類基因組只包含0.75 GB的信息,在面臨合成實際數據存儲的挑戰方面就會顯得相形見絀。”

Zhirnov說道:

“綜合成本可以低于如今的水平數量級是件好事”

“為什么成本高,這并沒有根本的原因。”

今年四月,微軟的研究做出了一個早期的舉措,它可能有助于創造必要的需求,即從Twist Biosciences(加州,舊金山的一家DNA合成啟動公司)訂貨了1000萬字符串。Strauss和她的同事們說,他們一直在使用的字符串推動他們的隨機存取存儲方法到0.2GB。細節還未公布,但據報道,該檔案包括了100多種語言中的人權宣言,100大古滕貝格項目圖書和種子數據庫。雖然該合成挑戰相比于HGP-write所面臨要小, 但Strauss 強調了在存儲容量跳躍250倍的意義。

她說:

“是時候鍛煉一下我們處理大量DNA的肌肉,將DNA其推到更大的范圍,并看看這個過程會在哪里被打斷,”

“實際上它在很多個地方都中斷了——而我們正在學習一個偉大的想法解決它。”

Goldman很有信心,這是一件令人享受的事情。

“我們的估計是,我們需要100000倍的改進使這項技術成型,我們認為這是非常可信的,”

“雖然過去的表現并不能保證,但每一年或每兩年就有新的讀取技術將投入生產。在基因組學中六個數量級不是什么大問題。你只是需要稍等一下。”

Via:Nature

關鍵字:DNA編碼誤差源

本文摘自:雷鋒網

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 德阳市| 鄂托克旗| 伊宁县| 合水县| 阿拉尔市| 屏山县| 滦平县| 应城市| 定西市| 曲水县| 个旧市| 弥渡县| 星子县| 徐水县| 云阳县| 漳浦县| 榕江县| 新巴尔虎右旗| 黄浦区| 镇雄县| 疏附县| 瑞昌市| 项城市| 上蔡县| 佛山市| 双牌县| 桂阳县| 武汉市| 沈丘县| 万荣县| 孟连| 龙井市| 大丰市| 二手房| 武穴市| 富源县| 福鼎市| 济阳县| 进贤县| 西峡县| 甘洛县|