隨著我們所存儲的信息量(從物聯網傳感器數據到日志文件和照片)的持續增長,某些系統的容量已經無法滿足存儲需求。
但對許多組織來說,缺乏容量可能并不是一個大問題:硬盤技術仍然在不斷改進,世界上大部分數據依舊保存在磁盤上。我們尚未解決的存儲問題是如何長久保存——這就是人造DNA上數據存儲方面真正可能發光的領域。
一個DNA片段可以存儲幾十兆字節的信息,不過更讓人關注的是,數千年后其中的數據仍然可以讀取,這很有意思。紙張和縮微膠片可以使用500年以上,但數字媒體甚至幾十年都難以保存。在更高溫度下進行的加速測試表明,如果DNA在10攝氏度下儲存將保持可讀性達2000年(如果冷凍時儲存長達200萬年);將其封裝在二氧化硅球體中就會避免濕度對其產生影響。
存儲格式也不會像數字存儲一樣可能過時。“我們總是對閱讀DNA感興趣,所以我們可以肯定,我們將來會有能力閱讀它——因為如果我們不這樣做,科學發展會停下腳步。” 微軟研究院計算機體系結構高級研究員,華盛頓大學計算機科學與工程系副教授Karin Strauss說道。
在實驗室中,研究人員能夠百分之百準確地編寫和閱讀文本,照片,視頻和其他文件,去年微軟從Twist Bioscience購買了1000萬個DNA分子進行實驗。但是,如何將這個研究轉變成一個真正的存儲系統,以及什么時候可以考慮將其放入數據中心呢?
將數據存儲在DNA中意味著將文件中的Bit轉換成DNA中的四個堿基——將00映射到A,01映射到C,10映射到G,11映射到T——然后有序地合成具有這些堿基的DNA分子。讀取時,需要將這些分子放入一個DNA測序儀,讀出堿基序列,并將其轉換回Bit。目前,這個過程中有一些步驟需要手動操作,Strauss解釋說。
“有一些軟件可以完成第一步,把數據轉換成堿基。下一步是制造分子。我們向Twist發送文件,他們將分子返回給我們,他們內部有一個自動化的過程,但他們仍然需要有人去除機器中的DNA,并將分子運送給我們。定序器都是自動的,我們把分子扔進去,它會吐出數據。然后我們有數據管道的其余部分來解碼數據。“
微軟和Twist正在與華盛頓大學合作,將其變成一個完全自動化的系統。Strauss預測,最終的結果將是一個看起來像一個磁帶庫。她說,這取決于你需要多少并行性——你想要同時寫入或讀取多少數據——“這可能看起來會像數據中心里的幾個機架”。
DNA本身就是非常小,通過在同一個硅膠外殼中封裝多個文件可以節省更多的空間,可以通過化學分離DNA以獲得您想要的文件。因為排序是一個批處理過程,所以你將會在同一個順序控制器上讀回多個文件。文件也編碼在多個DNA序列上,所以序列聚集在一起得到完整的結果。每個分子上都有一個序列號。我們可以把它想象成編號組成一個大ZIP壓縮文件的不同部分。
閱讀DNA會破壞它,但這是醫療和生物技術應用的需求。“當你測序DNA時,你不想重復使用它,你不想要污染物,就需要把所有的東西都扔掉,包括所有的試劑。”DNA可能會被回收,但是用標準的聚合酶鏈反應制備更多的拷貝可能更容易一些,這個方法已經被應用,以你有足夠多的不同序列的副本;選擇要復制的序列可以隨機訪問大文件的有序部分。
這些副本可能會引入錯誤,所以系統內置了糾錯功能。實際上,這就是從現在已經存儲和解碼的兆字節到要處理的數十兆字節的擴展。“我們正在設計這個系統,這讓我們可以容忍更多的錯誤。我們會讓這個過程更加平行,雖然在閱讀和寫作方面可能會變得不夠完美,但是我們可以通過其他方式來補償。我們可以控制序列來對數據進行編碼,這樣可以讓我們更容易對其進行解碼。“
糾錯的開銷目前約為15% “這是非常易控的。服務器中的ECC(錯誤檢查和糾正)投入是百分之12.5%,所以其實并不遙遠。“
DNA測序和合成的成本下降的速度比數字媒介更快,特別是考慮到你每五年到十年就需要重寫一次磁帶時。但是只有當你需要長時間存儲數據時,它的優勢才有存在的意義。云供應商將會感興趣,但是某些運行他們自己的數據中心的組織也會有興趣。
Strauss說:“工作負載的類型肯定是檔案,至少起初是這樣。我們的用戶一般需要按照授權保存數據,比如醫院和診所,或者有合法數據,養老金數據。他們想要長時間保存數據,然后把它放在一邊,而不是重復地讀取。最后,這是你存儲的位,我們可以存儲任何類型的Bit。”
目前閱讀DNA的吞吐量并不高。在其兩個系統中,一個在24小時內產生大約200萬次讀取(大部分讀取在頭幾個小時內完成),而另一個更多的并行系統在24小時內提供大約4億次讀取。但是超高的密度意味著,如果您需要長距離發送數據,可以以非常低的成本獲得出色的帶寬,因為您可以在明信片大小的某個東西上存儲EB級(百億億字節)的數據。
“現在我們運送的是硬盤,未來可能就是DNA。卡車和飛機四處移送硬盤,有了DNA,可以很容易地復制發行,因為它的密度更高。
Strauss表示我們可以很快看到DNA存儲在市場上露面。 “我們認為將此系統投入商業運營有很好的前景,也已經有了規劃。明年太早,十年太遲,應該介于兩者之間。”