基因組學(xué)的科研人員正越來越多地使用云計算服務(wù),谷歌的云計算服務(wù)就是其中之一
今年三月基因組學(xué)領(lǐng)域的科研工作者們迎來了一件大喜事:美國國立衛(wèi)生研究院NIH取消了不準(zhǔn)將其dbGap數(shù)據(jù)庫中的基因組信息上傳到云端的規(guī)定。這一規(guī)定設(shè)立于2007年,它的取消無疑為科研工作者存儲和分析基因組信息提供了便利。
云計算服務(wù)通過按需付費模式提供海量的存儲和計算資源。使用云服務(wù)要通過互聯(lián)網(wǎng),而且計算資源是共享的,這就引起了很多科研資助機構(gòu)的疑慮,他們擔(dān)心云計算的使用會泄露樣本提供者的隱私。NIH取消不準(zhǔn)上傳到云端的規(guī)定是因為基因組學(xué)研究中正面臨著現(xiàn)實問題:如何獲取數(shù)據(jù)庫中的大量數(shù)據(jù)。這已經(jīng)阻礙了科研人員的工作,尤其是當(dāng)研究工作涉及到現(xiàn)有的數(shù)據(jù)信息時。
為了充分利用云計算技術(shù)所提供的便利,我們敦促NIH和其他科研資助機構(gòu)在常用的云平臺中免費提供基因組數(shù)據(jù)。這樣全球數(shù)以千計的科研人員就不用浪費自己的時間和金錢將數(shù)據(jù)轉(zhuǎn)移到自己熟悉的云平臺,只要從這個統(tǒng)一的數(shù)據(jù)平臺進(jìn)行存儲和分析就可以了。
大數(shù)據(jù)
隨著基因組排序技術(shù)的提高,大型基因數(shù)據(jù)庫中的信息都是以PB計的(1PB=10^15字節(jié))。比如國際癌癥基因組聯(lián)盟ICGC的數(shù)據(jù)庫中不到五年時間就積累了從17個國家收集而來的超過2PB數(shù)據(jù),這相當(dāng)于50萬張DVD的容量。
按一般大學(xué)的網(wǎng)速來算,將這些數(shù)據(jù)轉(zhuǎn)移到研究人員自己的內(nèi)部網(wǎng)絡(luò)中需要花超過15個月。先不說處理,就單單存儲這些數(shù)據(jù)的硬件就要花大概100萬美元。
云計算為我們提供了計算資源上的彈性,研究人員可以需要多少計算資源就有多少計算資源。分析完成之后只需要為計算分析的一小段時間付費??蒲腥藛T之間也可以更好地進(jìn)行分工合作,在虛擬機上就能輕松地分享數(shù)據(jù)和計算方法。以前要花上幾個月的基因組數(shù)據(jù)分析現(xiàn)在可能只需要幾天或者幾周。(見下圖)
時至今日,云服務(wù)的安全性已經(jīng)勝過了研究機構(gòu)自己的數(shù)據(jù)中心。提供云服務(wù)的既有亞馬遜、谷歌和微軟這樣的商業(yè)企業(yè),也有專注于基因組研究的小型公司,比如加利福尼亞的Annai Systems和英國劍橋郡的歐洲生物信息研究所。這些提供商采取加密和防火墻或密??ǖ确绞絹砜刂茢?shù)據(jù)的使用權(quán),并為數(shù)據(jù)所有者提供監(jiān)測數(shù)據(jù)使用的工具。
一些人類基因組學(xué)的主要資助機構(gòu)還是對云計算持謹(jǐn)慎態(tài)度。如一些歐洲的資助機構(gòu)就建議將基因組數(shù)據(jù)控制在自己的管轄范圍內(nèi)以遵守歐洲的隱私法律。但我們預(yù)計,基于云計算的經(jīng)濟性、靈活性、可靠性和安全性,未來幾個月肯定會有向云平臺的大規(guī)模遷移潮。NIH的決定無疑會加速這一過程,我們在此對NIH表示感謝。
現(xiàn)在讓我們來看看如何在云平臺用最少的花銷達(dá)到最高的效率。
訪問控制
科研人員想要從dbGAP等數(shù)據(jù)庫中取得人類基因組數(shù)據(jù),必須要經(jīng)過數(shù)據(jù)訪問委員會的批準(zhǔn)?,F(xiàn)在如果有不同的科研人員想要在云平臺上使用同一數(shù)據(jù)集,他們各自必須得到相應(yīng)的數(shù)據(jù)訪問委員會批準(zhǔn)。然后要將數(shù)據(jù)復(fù)制到自己的云平臺才能開始工作。
所有這些科研人員都必須等著數(shù)據(jù)復(fù)制,也必須向自己使用的云平臺支付費用。如果100組科研人員都這么做,那么這個過程很明顯浪費了科研人員很多的時間和金錢。就算是可以隨便把數(shù)據(jù)復(fù)制到自己的云平臺,大多數(shù)科研人員恐怕也負(fù)擔(dān)不起這一過程需要的時間和花銷。
有一個更好的方式可以解決這個問題:相關(guān)的資助機構(gòu)可以要求將主要的基因組數(shù)據(jù)集上傳到常用的云平臺中并支付存儲的費用,這樣所有數(shù)據(jù)只需要復(fù)制一次而且科研人員自己只需要支付進(jìn)行分析時的一點點開銷。
現(xiàn)在不少云計算提供商為科研數(shù)據(jù)提供極低價格的存儲甚至完全免費以鼓勵科研人員使用自家的云服務(wù)。亞馬遜AWS為千人基因組計劃提供免費存儲(有超過200TB數(shù)據(jù)),Annai Systems也為一部分ICGC數(shù)據(jù)集提供免費存儲。
假設(shè)遷移到云平臺之后現(xiàn)在的數(shù)據(jù)庫提供者和數(shù)據(jù)訪問委員會的設(shè)置保持不變的話,在基因組云計算的范圍內(nèi)甚至可能誕生一個市場。比如提供了有價值數(shù)據(jù)的基因生物學(xué)家可以獲得云計算平臺的分析時間作為獎勵。計算機科學(xué)家如果提供了可以提高分析效率的程序,也可以在別人運行它的程序時得到一定的回報。
經(jīng)過一段時間這便會形成一個良性循環(huán)。這些大的數(shù)據(jù)集融合在一起可以令科研人員更快發(fā)現(xiàn)基因與疾病之間的聯(lián)系,這反過來會鼓勵更多人分享數(shù)據(jù)集或開發(fā)更強大的軟件。
這種方式也有一定的風(fēng)險。如果把所有數(shù)據(jù)都集中到同一個云計算平臺,此云計算平臺就會因為壟斷而提價,而這些成本就會轉(zhuǎn)嫁到科研經(jīng)費中。為了避免這種情況發(fā)生,應(yīng)該將重要的數(shù)據(jù)集放在多個云平臺上。這也可以解決之前提到的歐洲資助機構(gòu)的擔(dān)憂,只要將歐洲所貢獻(xiàn)的數(shù)據(jù)限制在歐洲的云服務(wù)提供商即可。
基因組學(xué)標(biāo)準(zhǔn)
當(dāng)然要達(dá)到我們最終的目的還需要很多技術(shù)和法律方面的努力。比如現(xiàn)在囊性纖維變性研究人員完全不能通過軟件在dbGap數(shù)據(jù)庫中搜索病患的基因序列。通過系統(tǒng)性地進(jìn)行數(shù)據(jù)標(biāo)記,例如樣本的來源將有助于解決這個問題。從2001年開始,期刊發(fā)行商們達(dá)成了一個共識:只接受符合MIAME標(biāo)準(zhǔn)的RNA微陣列研究。對于基因組數(shù)據(jù),我們也需要一個類似MIAME的標(biāo)準(zhǔn)。
保護云平臺之上的敏感數(shù)據(jù)需要可靠的協(xié)議以及賦予和解除權(quán)限的手段。短期內(nèi)各個項目的數(shù)據(jù)訪問委員會仍應(yīng)對數(shù)據(jù)的訪問進(jìn)行把關(guān),但最終保留幾個可以掌控云端所有數(shù)據(jù)庫的訪問委員會將會是更好的方案。
在法律層面則必須劃分清楚資助機構(gòu)、數(shù)據(jù)監(jiān)管部門、云服務(wù)提供商以及使用基因組數(shù)據(jù)的科研人員各自的角色和責(zé)任。比如說有人在微博上發(fā)基因組的信息,這幾個角色中誰應(yīng)該負(fù)責(zé)任?為了解決這一問題,全球基因組學(xué)與健康聯(lián)盟已經(jīng)制定了一個共享基因組及健康相關(guān)數(shù)據(jù)的責(zé)任框架。
與此同時,NIH以及其他資助機構(gòu)在借基因組學(xué)的點子在討論其他公共平臺的可能性。NIH下屬的國立癌癥研究所已經(jīng)開展了幾個在云平臺進(jìn)行基因組學(xué)數(shù)據(jù)的共享和分析的實驗項目。
神經(jīng)學(xué)和流行病學(xué)這樣的學(xué)科與基因組學(xué)一樣面臨著數(shù)據(jù)方面的問題。如果能正確地使用云計算,不光基因組學(xué),連這些學(xué)科的研究人員也將能夠受益。
英文原文:Data analysis: Create a cloud commons