精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

探索大數據背景下的基因研究

責任編輯:editor006

作者:仙偉

2016-04-11 17:00:29

摘自:199IT網

基于高性能計算集群這樣的新一代測序器和快速演化分析平臺,基因研究領域已經被海量數據淹沒。對于可進行大數據并行計算的文件系統

基于高性能計算集群這樣的新一代測序器和快速演化分析平臺,基因研究領域已經被海量數據淹沒。眾多基因、癌癥、醫學研究機構和制藥公司不斷產生的海量數據,已不再能被及時的處理并恰當的存儲,甚至通過常規通訊線路進行傳輸都變得困難。而通常情況下,這些數據必須能被快速存儲、分析、共享和歸檔,以適應基因研究的需要。于是他們不得不訴諸于磁盤驅動器及運輸公司,來轉移原始數據到國外的計算中心,這為快速訪問和分析數據帶來了巨大障礙。與規模和速度同等重要的是,所有基因組信息都能基于數據模型和類別被鏈接,并以機器或人類語言進行標注,這樣智能化的數據就能被分解成方程式,在處理基因、臨床和環境數據時應用于普通分析平臺。

概述

機遇與挑戰并存的基因組醫學革命

自人類啟動基因組計劃以來,各項工程已逐步開始揭示人類基因組與疾病間關聯的奧秘。隨著測序技術的不斷進步,僅用1000美元即可識別出基因組。

1460217476-2797-8c89a5f7ad31186eb5bf01

  圖1 基因組醫學技術進步的十年

人類基因組計劃是首個用來確定人類基因組序列的科研項目。該項目歷時13年,耗費近30億美元,于2003年完成,是目前為止最大的生物學合作項目。從那時起,一系列的技術進步在DNA測序和大規?;蚪M數據分析中展露頭腳,對單個人類全基因組進行測序的時間和成本隨之急劇下降,下降速度甚至超過了摩爾定律。

1460217476-8162-8c89a5f7ad31186eb5d202

  圖2 DNA測序成本的快速下降

(自2001年以來,美國國家人類基因組研究所(NHGRI)對由美國國立衛生研究院(NIH)資助的測序中心所進行的所有DNA測序工作進行了跟蹤,并統計了相關費用,這些信息已作為DNA測序的重要改進評估基準。圖中展現出近年來DNA測序技術和數據產生流程的顯著改善。來源:NHGRI,http://www.genome.gov/sequencingcosts/)

作為測序技術進步的一個例子,Illumina公司在2014年發布了新一代測序器HiSeq X10,它以每個基因組僅1000美元的成本,一年可解密18000個人類全基因組。這個所謂的“千元基因組技術”使人類全基因組測序比以往任何時候更廉價可行,并有望對醫療保健和生命科學行業產生巨大影響。

新技術和研究方法的成功同樣帶來了相當大的成本,海量數據成為亟待解決的難題:

基因組數據在過去的8年中,每5個月翻一番。

基因編碼項目為80%的基因組賦予了明確的含義,所以獲取全基因組序列變得尤為重要。

癌癥基因組研究揭示了一組不同的癌細胞基因變體,通過全基因組測序的跟蹤和監控,每次分析都會產生約1TB的數據。

已有越來越多的國家啟動了基因組測序項目,如美國、英國、中國和卡塔爾。這些項目動輒就會產生數以百PB級的測序數據。

對端到端架構的要求

為了滿足基因醫藥研究對于速度、規模和智能化的苛刻要求,需要端到端參考架構涵蓋基因計算的關鍵功能,如數據管理(數據集線器),負載編排(負載編排器)和企業接入(應用中心)等。為了確定參考架構(能力與功能)和映射解決方案(硬件與軟件)的內容和優先級,需要遵循以下三個主要原則:

軟件定義:即基于軟件的抽象層進行計算、存儲和云服務,以此定義基礎架構和部署模式,以便在未來通過數據量和計算負載的積累進行基因組基礎設施的增長和擴展。

數據中心:以數據管理功能面向基因組研究、成像和臨床數據的爆炸式增長。

應用就緒:整合多種應用到一致的環境,提供數據管理、版本控制、負載管理、工作流編排,以及通過訪問執行和監控等多種功能。

1460217476-7177-8c89a5f7ad31186eb5e603

  圖3 基因組研究參考架構示例

圖中藍色表示基因組研究平臺、綠色表示轉化平臺、紫色表示個性化醫療平臺。這三個平臺共享企業級功能:負責數據管理的集線器、負載負載管理的編排器和負責訪問管理的應用中心。

架構部署總體規劃

架構需要以各種基礎設施和信息技術進行部署。如下是一些部署模型,以及被映射到數據集線器、負載編排器和應用中心的技術、解決方案與產品示例。

1460217476-2790-8c89a5f7ad31186eb5f504

  圖4 參考架構部署模型

如圖中所示,存儲基礎技術(固態硬盤、閃存、普通硬盤、云),計算(高性能計算、大數據、Spark、OpenStack、Docker)和用戶訪問的信息技術(應用工作流、文件協議、數據庫查詢、可視化、監控)由三個企業功能數據集線器、負載編排器和應用中心統一管理。

許多解決方案和產品可應用于該模型中成為可部署平臺,用于基因組研究、數據轉化和個性化醫療,如開源解決方案Galaxy,IBM頻譜系解決方案GPFS 等。

以參考架構為藍本增長

對端到端參考架構的另一項需求,是通過集成能被映射到不同需求的各種新舊構建塊,使平臺和基礎設施有機增長,這些構建塊可以是不同的類型、模式、大小和系統架構,如獨立服務器、云虛擬機、高性能計算集群、低延遲網絡、擴展型存儲系統、大數據集群、磁帶歸檔或元數據管理系統等等。對于可融入架構的構建塊,需遵循行業標準化數據格式,通用軟件框架和硬件協同操作性三項標準,這樣實施和擴展基因組基礎設施可以多種靈活的方式進行:

小規模起步:由于是基于軟件定義,如果關鍵能力和功能到位,為符合有限的預算,系統、平臺和基礎設施可以相當小。例如,臨床測序實驗室可部署一個僅由1至2個服務器組成的小型系統,并提供少量磁盤存儲和關鍵軟件進行管理。

快速增長:由于計算和存儲的增長,已有的基礎設施可在不中斷操作的情況下迅速擴展到很大規模。如2013年底,錫德拉灣醫療研究中心建立了屬于它們自己的基因組研究基礎設施,隨后通過參考架構添加了一個新的構建塊(60個節點的高性能計算集群),最終于2014年中期將存儲基礎設施增加了三倍。這一健壯的能力使得錫德拉灣成為阿拉伯卡塔爾基因項目的基礎設施供應者。

跨地域分布:這是高性能計算領域近期出現的新功能,即數據的共享和聯合特性:數據和計算資源被部署在不同的位置,與此同時仍可供用戶、應用和工作流訪問。在參考架構中,數據集線器和負載編排器與此緊密相關。

很多全球領先的醫療保健和生命科學機構都在積極探索這樣的架構,以支持他們的綜合研究計算基礎設施。下面的章節,將闡述此類參考架構的關鍵部件、各種最佳實踐及項目經驗。

數據集線器

數據管理是基因組研究平臺最根本的能力,因為海量的數據需要在正確的時間和地點以恰當的成本進行處理。時間方面,可以是在高性能計算系統中進行數小時的數據分析,如果數據需要從存儲歸檔中調出進行再分析,可能需要數年的時間??臻g方面,可以在當地的基礎設施間實施近線存儲,或是云端遠程物理存儲。

數據管理的挑戰

大數據的四個V恰恰是基因組數據管理的挑戰:非常大的數據流和容量(數據量Volume),苛刻的I/O速度和吞吐量要求(數據存取速度Velocity),快速進化的數據類型和分析方法(數據多樣性Variety),以及共享能力和探索大量數據的環境和可靠性(數據置信度Veracity)。此外,還有法規(患者數據隱私與保護),種源管理(全版本控制與審計跟蹤)和工作流編排等額外的需求,使數據管理難上加難。

數據量

基因組數據因測序成本的急劇下降不斷涌現,對于配備了新一代測序技術的學術醫學研究中心AMRC,數據存儲容量每6至12個月翻一番已變得司空見慣。AMRC作為紐約的尖端研究機構,于2013年以300TB的數據存儲能力起步,截至2013年底,存儲量激增超過1PB(1000TB),超12個月前存儲總量三倍。更令人吃驚的是,這一增長仍在加速并一直延續至今。對一些世界領先的基因組醫藥項目,如英格蘭基因組(英國)、沙特阿拉伯基因組(卡塔爾)、百萬精英項目(美國)以及中國國家基因庫等,數據量的起點或基準都不再以千兆字節(TB)計,而是成百上千拍字節(PB)。

數據存取速度

基因組平臺對數據存取速度的需求非常苛刻,原因有三點:

文件非常大:在基因研究中,文件通常用來存放研究對象的基因組信息,它可以是單個患者的,亦或是一組患者的。主要有兩種類型:二進制隊列或圖即BAM(由基因組序列比對產生)和變型調用文件即VCF(處理后得到的基因變型),此類文件往往大于1TB,可占用典型基因組數據倉庫存儲總量的一半。此外,通過擴大研究范圍,使用更高的覆蓋分辨率,可得出更多的基因組信息(如30至100倍全基因組),這會使存儲文件迅速增大。由于基因組研究通常從對罕見變異的研究(單個病人變異提?。┭葑優槌R娮儺愌芯浚谑浅霈F了一種新的需求:共享成千上萬患者的提取樣本。以布羅德研究所提供的一個假設為例:對于57000個共享提取的樣品,BAM輸入文件有1.4PB,而VCF輸出文件有2.35TB,兩者以現有水準衡量都是海量數據,但可能在不久的將來變得很普遍。

小文件很多:此類文件用于存儲原始或臨時的基因組信息,如測序器輸出(像Illumina公司的BCL格式文件)。它們通常小于64KB,可占典型基因組數據倉庫文件數量一半以上。與處理大文件不同,因為每個文件的I/O都需要對數據和元數據進行兩次操作,生成和訪問大量文件的負載會非常大,如果按每秒操作數(IOPS)衡量速度,底層存儲系統的IOPS可達數百萬次。由此可以想到,對于AMRC在圣地亞哥的基礎設施,未曾對小文件處理的存儲做過任何優化,諸如BCL轉換(像Illumina公司的CASAVA算法)這樣的負載會因基礎設施有限的I/O能力(尤其是IOPS),導致計算資源枯竭而最終癱瘓?;鶞蕼y試證實,因計算能力浪費在等待數據就位上,CPU效率會下降至個位數。為了緩解這種計算瓶頸,需要使用數據緩存技術將I/O操作從磁盤轉移到內存。

并行和工作流操作:為提高性能、加快時間,基因組計算通常以編排好的工作流批量進行。從小范圍目標測序到大范圍全基因組測序,為使負載在快速運轉中發揮更高效能,并行操作不可或缺。隨著成百上千種不同的負載在并行計算環境中同時運行,以I/O帶寬和IOPS衡量的存儲速度將不斷累積并爆發式增長。紐約AMRC的生物信息學應用可并發運行在2500個計算核心,以每秒寫一個文件的速度創建百萬級數據對象,無論是2500個目錄、每個目錄2500個文件,亦或是一個目錄中的1400萬個文件都能被及時處理。而對于一個擁有6億對象、900萬目錄、每個目錄僅含一個文件的數據倉庫,這僅僅是其眾多負載中的一小部分。由于元數據是海量的,IOPS負荷會約束整體性能,即使一個列出文件的系統命令(如Linux的ls)也不得不耗費幾分鐘的時間才能完成,并行應用程序如GATK隊列也遭遇了這種低性能。2014年初,文件系統以改善元數據基礎結構為著眼點進行了大幅修正,帶寬和IOPS性能均得到顯著改善,基準測試顯示,在沒有任何應用程序調整的情況下,基因疾病應用程序的計算加速了10倍。

數據多樣性

按存儲和訪問方式,數據格式可有多種類型,如多步工作流生成的中間文件,亦或是一些輸出文件,其中包含維持生命必需的基因組信息參考數據,而這些數據需要謹慎的進行版本控制。目前常規的方法是,不考慮費用,在一個存儲層把所有數據在線或近線存儲,這樣做會導致大數據生命周期管理能力的缺失。如果基因組數據倉庫要用很長時間掃描文件系統,遷移或備份就不可能及時被完成。一家美國大型基因組中心,在采用了Illumina公司的X10全基因組測序算法后,一直掙扎于如何管理快速增長的數據。目前他們完成整個文件系統的掃描需要四天,使得每日或更長一點時間的備份變得不可能。其結果是,數據在單層存儲快速堆積,元數據掃描性能不斷下降,導致數據管理惡性循環。

另一個新的挑戰是數據位置的管理。由于機構間的合作變得越來越普遍,大量的數據需要共享或聯合,這使得地理位置成為數據不可缺少的一個特征。同樣的數據集,特別是參照數據或輸出數據,可以在不同地理位置存在多個拷貝,或者因法規要求在同一位置存在多個拷貝(如因臨床測序平臺與研究機構物理隔離產生的多重數據副本)。在這種情況下,有效的管理元數據以減少數據移動或復制,不僅能降低額外存儲所需成本,還能減少版本同步帶來的問題。

數據置信度

許多復雜的身心機能失調,如糖尿病、肥胖、心臟病、阿爾茨海默氏癥和自閉癥譜系障礙等,要研究它們的多因素特性,需要在廣泛的來源中實施縝密復雜的計算,統計分析大流量數據(基因組、蛋白質組、成像)和觀察點(臨床、癥狀、環境、現實證據)。全球數據共享和網絡聯合保證了訪問和分析數據的進程以前所未有的規模和維度不斷創新和智能化,數據庫和文件倉庫的進化也由此相互關聯在一起。在這樣的前提下,數據置信度作為一個不可或缺的元素在研究中得以被考量。例如,臨床數據(基因組和成像)需要被恰當和完整的標識以保護研究課題的機密性?;蚪M數據需要端到端的溯源以提供完整的審計跟蹤和可重復能力。數據的著作權和所有權需要由一個多用戶協作機構恰當申明。借助內置特性處理數據準確性,基因組計算機構可以讓研究人員和數據科學家根據上下文和置信度分享和探討大量數據。

數據集線器的功能

為了解決基因組數據管理中遇到的問題,構建一個可伸縮、可擴展層提供數據和元數據給負載,這樣的企業級功能可被命名為數據集線器。它可以存儲、移動、共享和索引海量基因組的原始和處理后數據。它還管理著從固態硬盤或閃存到磁盤、磁帶、以及云的底層異構存儲結構。

1460217476-9939-8c89a5f7ad31186eb60905

  圖5 數據集線器概述

作為提供數據和元數據給所有負載的企業級功能,它定義了一個可伸縮、可擴展層把所有的存儲資源虛擬化、全球化到一個全局命名空間,旨在提供四個主要功能:

高性能的數據輸入與輸出(I/O)

策略驅動的信息生命周期管理(ILM)

通過緩存和必要的復制高效分享數據

大型元數據管理

對于物理部署,它支持越來越多的存儲技術作為模塊化構建塊,例如:

固態硬盤和閃存存儲系統

高性能快速存儲磁盤

大容量慢速磁盤(每驅動器4TB)

高密度低成本磁帶庫

可本地或全局分布的外部存儲緩存

基于Hadoop的大數據存儲

基于云的外部存儲

四個功能可分別映射到數據集線器:

I/O管理:針對大型和可擴展I/O,有兩個方面的能力。一是服務像BAM這種大文件的I/O帶寬,二是服務像BCL和FASTQ這種大量小文件的IOPS。由于這些不同的需求,傳統的額定量架構很難勝任性能和規模需求。數據集線器I/O管理通過引入池的概念,將小文件元數據的I/O操作與大文件的操作分離,解決了這一問題。這些存儲池,在映射到不同底層硬件,提供最佳存儲性能的同時,仍能在文件系統級達到統一,對所有數據和元數據提供唯一的全局命名空間,并對用戶透明。

生命周期管理:對數據被創建、刪除和保存的整個生命周期進行全線管理。如果以溫度作比喻來描述數據需要被捕獲、處理、遷移和歸檔的階段和及時性。使用像高通量測序儀這樣的工具捕獲而來的原始數據溫度最高,并需要有健壯I/O性能的高性能計算集群(所謂的原始存儲)來處理。初步處理后,原始和處理后數據變得暖起來,因為它會采取一個基于策略的過程,以確定最終操作,如刪除、保留在一個長期存儲池或存檔等。這個過程會在帳戶文件中記錄文件類型、大小、使用情況(如用戶最后訪問的時間)和系統使用信息。任何符合操作需求的文件要么被刪除,要么從一個存儲池遷移到另一個,比如一個更大容量、但低效率且廉價的存儲池。這種目標層可以是一個磁帶庫,通過配備存儲池和諸如磁帶這樣的低成本介質,可高效利用底層存儲硬件并顯著降低成本。

共享管理:針對存儲設施邏輯域內部和之間數據共享的需求。隨著基因組樣品和參考數據集變得更大(某些情況下每負載工作量可超1PB),為了共享和協作,移動和復制數據變得越發困難。為最小化數據復制對數據共享造成的影響,數據集線器在共享管理下需要具備三個特點,從而使數據共享和移動可發生在私有高性能網絡或廣域網,并高度依賴安全和容錯性。

多集群存儲:即計算集群可直接訪問遠程系統并按需要存取數據。

云數據緩存:即特定數據倉庫(主機)的元數據索引和全數據集,可被有選擇的異步緩存到遠程(客戶端)系統,以實現本地快速訪問。

聯合數據庫:可使分布式數據庫間安全聯合。

元數據管理:此功能為前面三點提供了基礎。存儲、管理和分析數十億數據對象對任何數據倉庫而言都是必須具備的能力,尤其是擴展超出PB級的數據倉庫,而這正成為基因組基礎設施的發展趨勢。元數據包括系統元數據,如文件名、路徑、大小、池名稱、創建時間、修改或訪問時間等,也涵蓋以鍵值對形式存在的自定義元數據,這樣被應用程序、工作流或用戶所使用的文件可與之創建關聯,從而用于實現以下目標。

基于大小、類型或使用情況放置和移動文件以方便I/O管理。

基于對元數據的閃電掃描收集信息,啟用基于策略的數據生命周期管理。

啟用數據緩存,使元數據可輕量分布并弱依賴于網絡。

數據集線器解決方案和應用案例

頻譜規模的特性是高性能、可伸縮和可擴展,它專為高性能并行計算優化而研發,在計算系統的所有并聯計算節點之間,頻譜規??煞沼诟邘挻髷祿?。鑒于基因組工作流可由數百個應用程序組成,同時這些應用參與著大量文件的并行數據處理,這種能力對計算基因工作流提供數據而言至關重要。

因為基因組工作流可產生大量元數據和數據,以高IOPS固態硬盤和閃存構建系統池的文件系統,可專注于把元數據存儲為文件和目錄,在某些情況下也可直接存儲為小文件。這大大提高了文件系統的性能和大負荷元數據操作的響應能力,如列出目錄中的所有文件。

對于可進行大數據并行計算的文件系統,數據集線器可在同一計算節點服務于大數據并行計算和大數據作業,從而省去了Hadoop分布式文件系統(HDFS)的復雜需求。

基于策略的數據生命周期管理能力允許數據集線器把數據從一個存儲池移動到另一個,最大化I/O性能和存儲效率,并有效減少運營成本。這些存儲池的范圍可涵蓋高I/O閃存盤、大容量存儲基礎設施,以及繼承了磁帶管理解決方案的低成本磁帶介質。

基因組研究基礎設施的日益分散性也要求更大甚至全球規模上的數據管理。數據不僅需要在不同的地點移動或共享,還需與負載和工作流相協調。為實現這一目標,數據集線器依賴頻譜規?;顒游募芾恚ˋFM)進行共享。AFM可擴展全局命名空間到多個站點,允許共享元數據目錄或映射遠程客戶端家目錄到本地作為緩存副本。如基因組研究中心可擁有、運營和版本控制所有的參考數據庫或數據集,而附屬、合作網站或中心可通過這種共享功能訪問參考數據集。當數據庫的核心副本得到更新,其他站點的緩存副本也會迅速更新。

有了數據集線器,全系統元數據引擎還可用來索引和搜索所有的基因組和臨床數據,以挖掘出強大的下游分析和轉化研究能力。

負載編排器

本節介紹基因組負載編排所面臨的挑戰,并利用編排工具幫助減少負載管理工作。

基因組負載管理的挑戰

基因組負載管理是非常復雜的。隨著基因組應用程序越來越多,它們的成熟度和編程模型也不斷分化:許多是單線程(如R)或易并行(如BWA)的,也有的是多線程或啟用了MPI的(如MPI BLAST)。但相同的是,所有應用程序都需要在高吞吐量、高性能模式下工作,以產生最終結果。

編排功能

通過編排工具,可以編排資源、負載和工作流。負載管理器和工作流引擎,可以鏈接和協調一系列頻譜級計算和分析作業到易構建、可自定義、可共享、可通用平臺運行的全自動工作流,為具有GPU高性能計算集群或云端大數據集群的底層基礎設施提供必要的應用抽象。

1460217476-6487-8c89a5f7ad31186eb61e06

  圖6 負載編排器概述

編排器是企業級功能,可用來編排資源、負載和管理追溯,被設計為以下四個主要功能:

資源管理:按需求動態、彈性的分配計算資源。

負載管理:通過分配作業到本地或遠程集群等不同計算資源,有效進行負載管理。

工作流管理:通過邏輯和自動化流程把應用程序聯系在一起。

溯源管理:關聯元數據記錄和保存負載和工作流。

基于工作流邏輯和應用需求(如架構、CPU、內存、I/O),通過映射和分配負載到有彈性的異構資源(如HPC、Hadoop、Spark、OpenStack/Docker、Cloud),編排器在不同的計算基礎設施和高速增長的基因組計算數組間定義出抽象層。

資源管理器

該功能以策略驅動的方式分配計算資源,以滿足基因組負載的計算需求。最常用的資源是高性能計算裸機集群(HPC)。該資源管理器提供一次性資源,或可動態轉換和分配的資源。如果說數據集線器I/O管理提供了存儲服務層,那么可以認為資源管理器提供了計算服務。此外,新型的基礎設施可被添加到資源池,包括大數據Hadoop集群、Spark集群、OpenStack虛擬機集群和Docker集群。

基于負載信息管理轉換資源是對資源管理器的基本需求。例如,對于被批量比對作業和Spark機器學習作業共用的基因組基礎設施,在運行時負載會產生波動,資源管理器能通過感知利用率轉移資源,以計算槽或容器的形式支持各作業的運行。

負載管理器

基因組計算資源需要在資源管理器的控制下有效共享、使用并提供最佳性能給基因組應用程序。負載管理器能處理要求苛刻的、分布式的關鍵任務應用程序,如Illumina公司的ISSAC,CASAVA,bcltofastq,BWA,Samtools,SOAP(短寡核苷酸分析軟件包)以及GATK。負載管理器還需要高度可擴展和可靠性以管理批量提交的大型作業,這是中大型基因組計算機構的通用需求。例如紐約一家醫學院的基因組計算集群通常需要處理含25萬個作業的排隊系統,其間不能崩潰或當機。世界上一些大型的基因組中心,負載管理器隊列有時會存在上百萬個作業。對于成熟度不同、架構需求(如CPU,GPU,大內存,MPI等)也不同、且日益增加的基因組研究應用程序,負載管理器提供了必要的資源抽象使作業可在提交、放置、監控和記錄時保持對用戶透明。

工作流引擎

針對基因組的工作流程管理,工作流引擎致力于把作業連接為一個邏輯網絡。該網絡可按多個步驟讓計算流線性開展,比如序列對齊、組合、然后變形提取,也可以基于用戶定義的標準和完成條件以更加復雜的分支來運行。

編排器工作流引擎需要動態、快速的復雜工作流處理能力。獨立的負載和作業可通過用戶界面,結合變量、參數和數據被定義到標準工作流模板。有許多負載類型可被集成到工作流引擎,如并行高性能計算應用程序,大數據應用程序,或者分析負載的R腳本。在被定義和驗證后,用戶可使用該模板從他們的工作站直接啟動工作流,或者發布至企業站點為他人所用。

工作流編排引擎還需提供以下功能:

作業數組:最大限度提高基因組測序分析工作流的吞吐量,特殊類型的負載可按作業數組劃分為多個并行作業來處理。

子流程:可定義多個子流程,用來在基因組比對后并行進行變型分析,每個子流程的結果可合并為單一輸出供分析師以多種工具進行比對。

可重用的模塊:工作流也可被設計為一個模塊,作為動態構建塊嵌入更大的工作流。這樣不僅能有效構建和重用工作流,也能幫助大型科研機構用戶更好的協同共享基因組工作流。

1460217478-2220-8c89a5f7ad31186eb63407

  圖7 用編排器集成的基因組工作流

圖中從左至右依次有以下部件:

框1:數據(如BCL文件)到達后自動觸發CASAVA作為工作流第一步。

框2:動態子流使用BWA比對序列。

框3:Samtool以作業數組的運行方式進行后處理。

框4:不同的變型分析子流并行被觸發。

基因組工作流結合一些應用程序和工具,把原始序列數據(BCL)處理為變型(VCF)數據。每個框表示一個工作流功能模塊,它由映射到功能的基因組應用程序組成,如基因組堿基轉換、序列比對、前處理、以及變型提取和分析。這些模塊自身可作為獨立工作流被集成,并按照邏輯和條件關系被連接到一個更大的工作流中。

隨著越來越多的機構以分布式資源部署混合云解決方案,編排器可基于數據位置預定義策略、臨界值和資源有效性實時輸入來均衡負載。如工作流可被設計用于處理基因組原始數據,以使其更切合測序器需要,并使用遠程大數據集群的MapReduce模型進行序列比對和組合;也可設計為當基因處理達50%完成率時,觸發代理事件把數據從衛星系統轉移到中央高性能計算集群,從而使數據遷移和計算可并發進行以節省時間和成本。

由研究機構發布基因組流程與他人共享,是對另一個編排器的需求。由于工作流模板可被保存和分發,一些美國和卡塔爾的主要癌癥和醫學研究機構已開始通過交換基因組工作流進行合作。

溯源管理

有許多計算方法和應用可應用于收集、分析和注釋基因組序列。應用程序、基準數據和運行時變量是重要的溯源信息,它們可對基因組分析的解讀和維護產生重要影響。目前,很少用不公開標準或慣例來捕捉溯源信息,因為它可能導致重要計算分析數據的缺失。這個問題同樣潛伏在其他因素中,例如以復雜數據、工作流程或渠道作為高層次分析過程,或者所用的應用程序頻繁發布更新。

因此,溯源管理成為編排器需要的一個可與數據集線器元數據管理功能相媲美重要功能。溯源數據也可被理解為負載元數據,溯源管理器的功能需求是捕捉、存儲和索引用戶定義的溯源數據,以透明無中斷的方式追溯到任何已有的計算負載或工作流。

基于這樣的需求,多種技術和解決方案正在研發,有些已經完成并已投入商用,如Lab7的ESP平臺和General Atomics的Nirvana。IBM也致力于開發了一種用于大規模、近實時的元數據管理系統,可與數據集線器和編排器協同工作。

應用中心

概述

應用中心是訪問數據集線器和負載編排器的用戶接口。它基于角色訪問和安全控制提供了一個企業門戶,使研究人員、數據科學家、臨床醫生方便的訪問數據、工具、應用程序和工作流。它的目標是讓沒有計算機編程經驗的研究員和數據科學家能使用復雜的基因組研究平臺。

應用中心具有可重用優勢,可作為個性化轉型基因醫藥平臺的組成部分。

1460217478-5981-8c89a5f7ad31186eb64208

  圖8 應用中心概述

圖中描述了啟動和監測負載,查詢和瀏覽數據,可視化分析輸出,以及跟蹤系統日志和使用信息等環節。它定義了用戶(研究人員,醫生和分析師)和數據集線器與負載編排器間的抽象層。

對應用中心要求

對應用中心的要求包括如下兩點:

基于站點的目錄功能:它可訪問應用程序、工作流和數據集,并將它們可視化。

監測功能:可監測、跟蹤、報告和管理特定應用信息。

基于站點的目錄功能

數據科學家通常想直觀訪問基因組工作流和數據集,而基因組分析通常極其復雜,為最大限度消除兩者之間的障礙,應用中心目錄應運而生。它提供了預編譯和預驗證的應用程序模板和工作流定義,用戶能簡單直接啟動站點中的作業或工作流。

1460217478-2067-8c89a5f7ad31186eb65609

  圖9 應用中心基因組工作流

圖中表示了端到端基因組工作流(BWA-GATK),通過應用中心站點被啟動并可視化,從左側開始依次為:

框1:數據到達后自動觸發工作流開始工作。

框2:使用BWA進行序列比對的動態子流。

框3:使用Samtool進行作業數組后處理。

框4:BAM文件再校準。

框5:GATK進行變型提取。

應用中心目錄可用云數據瀏覽器進行配置,來管理基因組計算需要的數據。在基于站點的瀏覽器中,用戶可通過瀏覽和搜索所有遠程或本地存儲服務器(數據集線器)的文件和目錄找到基因組數據。無論文件在哪里,都可以追加文件啟動作業。使用數據瀏覽器,用戶可通過標記文件目錄快捷的找到它。例如,一個為基因組計算用戶標記的可用目錄能用來存儲經常訪問的參考數據集。

最后,數據瀏覽器也可以方便數據傳輸,用戶可把文件從瀏覽器桌面拖放到當前遠程目錄以同時上傳多個文件。

實時監控

應用中心監控還需提供了一個基于門戶的儀表板,提供全面的負載監控、報告和管理功能。作為監控工具,不僅單方面專注于系統監控,還提供完整的、集成化的負載監控設施。通過基因組應用程序的多樣化配置(如大內存、并行或單線程),跟蹤和匯總同作業與應用程序相關的計算機CPU、內存和存儲I/O實用信息,幫助提高應用程序效率。

結束語

為了滿足基因研究對于速度、規模和智能化的苛刻需求,面向負責創建和提供生命科學解決方案的專業技術人員(如科學家,咨詢顧問,IT架構師和IT專家等),該領域出現的端到端參考架構正結合各種基礎設施和信息技術被部署到越來越多的研究機構中,而基于這種架構的客戶和合作伙伴生態系統也在不斷生長,逐步豐富著相應的解決方案和產品。隨著技術的發展,基因藥物有望徹底改變生物醫學研究和臨床護理。結合生物學途徑、藥物相互作用機理及環境因素對人類基因進行研究,使得基因科學家和臨床醫生有可能識別疾病高危人群,為他們提供基于生化標志的早期診斷,并推薦有效的治療方法。

作者|仙偉 2011年加入IBM至今,從事軟件研發工作,研究方向為自動化工作流管理和高性能計算。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 奇台县| 阳西县| 双城市| 什邡市| 修武县| 周至县| 家居| 双鸭山市| 浑源县| 兰西县| 温州市| 康平县| 巴中市| 进贤县| 洮南市| 革吉县| 朝阳市| 南木林县| 黑河市| 会宁县| 鱼台县| 彭州市| 禄丰县| 甘肃省| 云林县| 基隆市| 五台县| 景德镇市| 塔河县| 西乌珠穆沁旗| 乐业县| 南漳县| 祁门县| 额尔古纳市| 嫩江县| 中方县| 镇远县| 思茅市| 浪卡子县| 色达县| 康定县|