在這個時代,各行各業都對大數據癡迷,基因組學也不例外。也許,這源于一種與生俱來的需求,我們渴望了解遺傳組成如何控制人類生活的方方面面。近日,Jeffrey S. Buguliskis博士在GEN網站上討論了大數據帶來的挑戰。
Buguliskis 認為,基因組學領域對信息的需求開始于二十年前,也就是芯片技術出現的時候。這是科學家第一次引入大規模的基因組數據集。當然,這僅僅是開始。2003年人類基因組計劃的完成不僅讓科學家去尋找更經濟的方法進行測序,也進一步激發了他們分析大數據集的胃口。
短短數年,迅速發展的新一代測序(NGS)平臺產生了呈指數增長的數據,比人們想象得更快速,也更經濟。GenoSpace的COO Daniel Meyer談道:“自2005年以來,測序成本已下降了四個數量級,而新技術讓我們能夠比以前更快地產生更多數據。隨著數據生成接近商品化,最大的挑戰已經轉移到有效的分析和解釋。”
的確,NGS提高了測序的速度,降低了測序的成本。然而,它并沒有解決與數據采集有關的任何問題,不僅如此,它還大大增加了文件的大小。NGS的讀長更短,就全基因組測序而言大約在50-100 bp,但讀取數量驚人,大大超過傳統的Sanger測序。此外,各個國際聯盟也在開展規模宏大的項目,比如千人基因組計劃,英國的10K計劃,動輒產生 PB級的數據。
Buguliskis認為,在許多方面,生命科學的大數據是基礎設施的問題。大多數研究人員沒有能力分析現代 NGS平臺產生的數據集。例如,對于讀長100 bp和50倍覆蓋度的外顯子組測序運行,原始數據大約在1.-1.5 TB,而多次重復后的數據大約需要3-5 TB的存儲空間。即使計算機存儲器的價格在不斷走低,但要有足夠的硬盤空間去存儲多次運行的數據也并非易事。
雖然數據采集和管理是許多機構關注的問題,但NGS要想成為精準醫學的一部分,絆腳石可不止這些。有人認為,NGS的各個領域都需要標準化,才能成為臨床醫學中的強大工具。
此外,科學家也一直在尋找更輕松、更快速且更高效的分析方法。“我相信,云計算及通過高度可擴展的計算資源共同查找大數據的能力正對簡化數據分析產生積極的影響,隨著更多數據以及更廣泛的分析程序遷移到云端,這種趨勢將繼續下去,”Illumina的副總裁Scott Kahn談道。
同時,測序方面的進步也在間接地協助數據分析流,實現更加準確的讀取比對,并開辟了新的研究方法。AllSeq的首席科學官Shawn Baker認為:“最有意思的事情是長讀取。獲得真正的長讀取(>10 kb)將明顯改善比對過程,實現單體型等過去不可能的新分析。長讀取技術目前已上市,不過它與短讀取平臺相比要貴一到兩個數量級。”
最后,作者也提到了第三代測序技術。這種方法跳過了DNA擴增,避免了PCR偏向,讓遺傳物質在單分子水平上直接測序。目前,只有幾家公司提供這種測序平臺,而且價格較高。