精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)業(yè)界動態(tài) → 正文

大數(shù)據(jù)催生大生物學(xué)

責(zé)任編輯:editor007 |來源:企業(yè)網(wǎng)D1Net  2014-12-04 21:06:24 本文摘自:生物

“大數(shù)據(jù)”是如今最炙手可熱的概念之一,但也容易被人曲解。

名字本身意味著海量的數(shù)據(jù),然而這只是一個開始。總體來說,大數(shù)據(jù)包含有三個“v”:數(shù)據(jù)的容量(volume of data)、數(shù)據(jù)處理的速率(velocity of processing the data)和數(shù)據(jù)源的多變性(variability of data sources)。這些都是要求使用大數(shù)據(jù)工具進(jìn)行分析的信息的關(guān)鍵特性。

盡管生物學(xué)家為了收集足夠的數(shù)據(jù),已經(jīng)努力了數(shù)十年,但位于弗吉尼亞州阿什本的喬治華盛頓大學(xué)計算生物學(xué)研究所主任Keith Crandall表示,“生物學(xué)的新瓶頸在于大數(shù)據(jù)問題。”他舉例指出,2002年4月公布的第一個人類基因組序列,集中了來自20個研究所的專家、基礎(chǔ)設(shè)施和人員,歷經(jīng)13年的辛勞,花費了大約30億美元,獲得了大約30億個核苷酸的順序。Crandall說,如今“測出一個人的基因組僅需1000美元,一周就可以產(chǎn)生超過320個基因組。”

隨著生命科學(xué)家開始探索更多的方式來處理大數(shù)據(jù)的容量、速率和多變性,他們開始研發(fā)分析信息的新方法。

不斷擴張的容量

在人類生物學(xué)大量信息的收集方面,制藥產(chǎn)業(yè)早在數(shù)十年前就開始與大數(shù)據(jù)集打交道了。

位于馬薩諸塞州波士頓的默克公司研究實驗室科學(xué)信息助理副總裁Jason Johnson說,“多年來,默克公司積累了成千上萬例臨床試驗,有能力在數(shù)百萬消除識別信息的病患記錄中進(jìn)行查詢。現(xiàn)在我們擁有的下一代基因組測序,能夠從每個樣本中創(chuàng)造出兆兆字節(jié)的數(shù)據(jù)。

為了處理如此多的數(shù)據(jù),即使是大型制藥公司也需要幫助。例如,瑞士巴塞爾的羅氏公司研發(fā)運營全球總監(jiān)Bryn Roberts說,“羅氏積累了一個世紀(jì)的數(shù)據(jù)。在2011~2012年進(jìn)行了一次成百上千個癌癥細(xì)胞系的大規(guī)模測序?qū)嶒炛校头艘槐抖唷?rdquo;Roberts和他的同事想要從這些數(shù)據(jù)集和其他人多年前采集的數(shù)據(jù)中挖掘更多的價值。因此,他們與加州福斯特城的PointCross公司合作建立了一個數(shù)據(jù)平臺,該平臺可以靈活地搜索羅氏過去25年的研究數(shù)據(jù),包括簽約研究機構(gòu)的外包數(shù)據(jù)。研究人員將挖掘這些數(shù)據(jù)以及成千上萬個復(fù)合物的信息,利用現(xiàn)有知識來研發(fā)新藥。

可是,生物學(xué)家要想產(chǎn)生大量的數(shù)據(jù),并不需要大型制藥企業(yè)的基礎(chǔ)設(shè)備。例如,考慮一下加州卡爾斯巴德生命技術(shù)公司的離子個人基因組儀(Ion Personal Genome Machine,PGM)系統(tǒng)。這種下一代的新設(shè)備能夠在8小時內(nèi)測出多達(dá)2千兆堿基(gigabases)的序列,而且它的市場定位是“個體化基因組儀”,能夠放在科學(xué)家的實驗臺上。生命技術(shù)公司還有更大的Ion Proton儀器,能夠在4小時或更短時間內(nèi)產(chǎn)生大于10千兆堿基的數(shù)據(jù)。

總體來講,對于學(xué)術(shù)界和產(chǎn)業(yè)界的生命科學(xué)家來說,下一代測序技術(shù)創(chuàng)造了財富,也產(chǎn)生了阻礙。Crandall解釋道,“我們無法有效地研究如此大量的基因組,除非我們的計算機軟件能夠滿足這些大數(shù)據(jù)的需求。”因此,他的團(tuán)隊與波士頓大學(xué)醫(yī)學(xué)院的醫(yī)學(xué)助理教授W. Evan Johnson合作,開發(fā)了軟件PathoScope,能夠處理當(dāng)今下一代測序(NGS)平臺的數(shù)據(jù),進(jìn)而將千兆堿基的DNA信息轉(zhuǎn)變成千兆字節(jié)(GB)的計算機數(shù)據(jù)。該軟件將DNA樣本與參考基因組做比對,以鑒定出病原體。Crandall說,“我們的數(shù)據(jù)集可以為成千上百的樣本進(jìn)行每個樣本20GB的數(shù)據(jù)分析,在后續(xù)分析中每個樣本又可產(chǎn)生上百GB的數(shù)據(jù)。”

如此大量的數(shù)據(jù)在醫(yī)療保健領(lǐng)域尤為有用,因為藥物研究者必須在設(shè)計實驗時充分考慮人群的變異性。英國牛津大學(xué)轉(zhuǎn)化醫(yī)學(xué)教授 Chas Bountra說,“你無法從僅僅10 個人的研究中得到合理的結(jié)論,但是通過研究50萬人,你可以從中汲取重要的結(jié)論。”大規(guī)模的研究可能會揭示疾病的遺傳貢獻(xiàn),以及一種藥物是否可以幫助到一部分病人,或者哪些個體更可能會表現(xiàn)出特定的失調(diào)。

其他的專家也期望看到,遺傳數(shù)據(jù)在醫(yī)療保健領(lǐng)域能產(chǎn)生越來越大的影響。“遺傳學(xué)給我們提供了一個強有力的支點,去理解人們?nèi)绾蔚貌∫约拔覀冊撛鯓幼?rdquo;,位于英國牛津市的威康信托基金會人類遺傳學(xué)中心統(tǒng)計遺傳學(xué)教授Gil McVean說。例如,遺傳信息可能會揭示生物標(biāo)記,或某種特定疾病的表征物,類似于在某種類型癌癥中的一個分子。McVean解釋說,“遺傳學(xué)能夠告訴你,某個與疾病相關(guān)的生物標(biāo)記是否值得進(jìn)一步作為(治療的)靶標(biāo)進(jìn)行深入研究。”例如,驅(qū)動某種類型癌癥的分子可以成為治療這種疾病的好靶標(biāo)。

為了應(yīng)用這一理念,McVean領(lǐng)銜的研究團(tuán)隊通過李嘉誠(Li Ka Shing)捐獻(xiàn)的3300萬美元大額捐款,正在劍橋大學(xué)創(chuàng)建李嘉誠健康信息和發(fā)現(xiàn)中心(Li Ka Shing Centre for Health Information and Discovery)。該中心將成立一個大數(shù)據(jù)研究機構(gòu)。總之,McVean說,該中心“會將分析數(shù)據(jù)的過程和遺傳學(xué)結(jié)合在一個研究所里,這樣我們將能夠克服,在大數(shù)據(jù)收集和大數(shù)據(jù)集分析方面遇到的棘手而有趣的難題。”

尋求高速率

第二個“v”,也就是速率(velocity),描述了數(shù)據(jù)的處理和分析速度。研究人員需要快速分析處理不斷增加的數(shù)據(jù)量。

過去,分析基因相關(guān)的數(shù)據(jù)存在瓶頸。“傳統(tǒng)上,這些分析平臺已經(jīng)約束了研究人員的生產(chǎn)效率”,位于馬里蘭州貝塞斯達(dá)的BioDatomics公司總裁Alan Taffel認(rèn)為,“它們很難用,且要求生物信息人員的支持,而且它們在執(zhí)行工作流程時非常慢。”實際上,他說,往往要花費幾天甚至幾周的時間來完成一項大型的DNA分析。鑒于此,BioDatomics公司開發(fā)了自己的BioDT軟件,為分析基因組數(shù)據(jù)提供了400多種工具。它將這些工具整合進(jìn)一個軟件包中,以易于使用,而且可以超越任何臺式電腦。

BioDT在計算機集群上運行,包括了許多稱為節(jié)點的設(shè)備,相互聯(lián)通為一個整體進(jìn)行工作。“至少需要4個節(jié)點”, BioDatomics的首席技術(shù)官Maxim Mikheev說。但是BioDT也能在更多的節(jié)點上運行,從而能更快地處理數(shù)據(jù)。“擴展性理論上是無限的。” Mikheev說,“有的集群能夠用到4萬個節(jié)點。”對于不傾向于構(gòu)建計算機集群的用戶來說,BioDT也可以通過云端獲得。

總之,Taffel說,BioDT“能夠比傳統(tǒng)系統(tǒng)執(zhí)行工作流的速度快100倍。以前需要幾天或幾周的,現(xiàn)在只需要幾分鐘或幾小時。”

其他專家也看到了測序?qū)π鹿ぞ弋a(chǎn)生的需求。根據(jù)位于新澤西州皮斯卡塔韋的羅格斯大學(xué)電子計算工程系研究副教授Jaroslaw Zola表示,“幾乎無處不在的下一代測序技術(shù)需要新的計算機策略來處理數(shù)據(jù),從數(shù)據(jù)如何存儲,如何轉(zhuǎn)換,一直到如何分析。”這就意味著生物學(xué)家必須學(xué)習(xí)如何使用最前沿的計算機技術(shù)。然而,正如Zola所說,這“對信息技術(shù)專家施加了壓力,以開發(fā)出讓領(lǐng)域?qū)<胰菀渍莆盏母咝Ы鉀Q方式,并在確保效率的前提下,隱藏潛在算法、軟件和硬件結(jié)構(gòu)的復(fù)雜性。”這就需要新穎的算法,Zola也致力于此。

多變性的版本

第三個“v”,即多變性(variability),也給生物學(xué)家?guī)砹藰O大的挑戰(zhàn)。正如Bountra所說,“我們現(xiàn)在將許多來自不同領(lǐng)域、具有不同數(shù)據(jù)集的人聚集在了一起。”

挑戰(zhàn)之一就是生物學(xué)實驗室擁有各種設(shè)備,但他們通常收集的數(shù)據(jù)是特定的文件格式。因此,總部設(shè)在加拿大多倫多的ACD/Labs公司開發(fā)的計算系統(tǒng),可以在處理大數(shù)據(jù)時整合各種數(shù)據(jù)格式。ACD/Labs的全球戰(zhàn)略主管Ryan Sasaki解釋,“我們支持來自不同儀器的超過150種文件格式,這讓我們可以將多種數(shù)據(jù)匯集到同一環(huán)境中,也就是我們的Spectrus數(shù)據(jù)庫。這個數(shù)據(jù)庫可以通過桌面客戶端軟件或網(wǎng)頁訪問使用,也可以通過其他的實驗室信息系統(tǒng)進(jìn)入數(shù)據(jù)庫。”

生物學(xué)的大數(shù)據(jù)還體現(xiàn)在新形態(tài)的多變性。例如,位于德國慕尼黑Definiens公司的科學(xué)家在進(jìn)行一項被公司稱為組織表型組學(xué)(tissue phenomics)的研究,也就是一個組織樣本中的組成信息,包括細(xì)胞的大小、形態(tài)、吸收的染色劑和哪些細(xì)胞進(jìn)行相互聯(lián)系等方面。這一技術(shù)可以應(yīng)用到一系列的研究中,例如追蹤細(xì)胞在發(fā)育過程中特征變化的研究,測定環(huán)境因素對機體影響的研究,或定量測定藥物對某些組織的細(xì)胞影響的研究。

結(jié)構(gòu)化數(shù)據(jù)如數(shù)據(jù)表格,并不能揭示藥物處理或生物學(xué)過程的所有信息。我們對生物體的了解大多是以一種非結(jié)構(gòu)化的形式存在,就像期刊論文的文本那樣。正如默克公司的Johnson所說,“有千萬種方式來描述生物學(xué)過程”,并且很難從文獻(xiàn)中提取數(shù)據(jù)。

在加州圣何塞的IBM公司Almaden研究中心,分析專家和研發(fā)人員Ying Chen和她的團(tuán)隊數(shù)年來,都在致力于文本挖掘工具的研發(fā),目前正用于“加速藥物發(fā)現(xiàn)的解決方案”。這一平臺集合了專利、科技文獻(xiàn)、基礎(chǔ)的化學(xué)和生物學(xué)知識,還有1600多萬種獨特的化合物結(jié)構(gòu)以及近7000種疾病的信息。利用這一系統(tǒng),研究人員可以從中尋找可能對治療某種疾病有用的化合物。

其他公司也希望通過挖掘現(xiàn)有資源,以發(fā)現(xiàn)疾病的生物學(xué)機制以及治療方式。位于硅谷的大數(shù)據(jù)公司NuMedii和位于紐約的智能科學(xué)信息提供商湯森路透公司,共同組建團(tuán)隊來尋找現(xiàn)有藥物的新用途,稱為藥物再利用(drug repurposing)。“通過使用基因組數(shù)據(jù)庫,整合各種知識來源和生物信息學(xué)方法,我們能夠快速地發(fā)現(xiàn)藥物的新用途。” NuMedii公司的首席科學(xué)家Craig Webb說,“我們隨后利用該藥物原有用途中的安全性,快速低成本地通過臨床試驗。”NuMedii公司為項目提供數(shù)據(jù)庫和分析法,湯森路透公司則提供關(guān)于疾病和藥物的深層知識。

Webb說,其中一個項目中,研究人員從超過2500份卵巢癌樣本中搜集基因表達(dá)數(shù)據(jù),再利用多種計算機算法來預(yù)測現(xiàn)有藥物是否具有廣譜治療卵巢癌或針對某種分子亞型的潛力。“大數(shù)據(jù)讓我們可以廣撒網(wǎng)來尋找線索,而‘大知識’則讓我們能快速地選擇出可供測試的組分。” Webb說。

組合的復(fù)雜性

馬薩諸塞州劍橋市諾華生物醫(yī)學(xué)研究所(NIBR)信息系統(tǒng)執(zhí)行主任Stephen Cleaver在大數(shù)據(jù)的3個“v”之外,又加上了復(fù)雜性。他認(rèn)為制藥公司科研人員分析數(shù)據(jù)的方式是“通過某些病患個體,到病患群,再到整合掌握的所有信息”。這一過程很復(fù)雜。

在醫(yī)療保健領(lǐng)域,大數(shù)據(jù)分析的復(fù)雜性也是源于對于不同類型信息的整合,如源自基因組、蛋白組、細(xì)胞信號轉(zhuǎn)導(dǎo)、臨床研究,甚至環(huán)境科學(xué)研究的數(shù)據(jù)。結(jié)果將可能產(chǎn)生全新的疾病治療方法。但是馬薩諸塞州劍橋市GNS Healthcare公司的共同創(chuàng)始人Iya Khalil問道:“你如何為這些數(shù)據(jù)賦予意義,并且從這些數(shù)據(jù)中獲得新的啟示,以提升我們對于病理機制的認(rèn)識?”對于Khalil和她的團(tuán)隊成員來說,答案來源于機器的學(xué)習(xí)、數(shù)學(xué)、計算機算法和超級計算技術(shù)——它們整合在一起,從而探索疾病的根本途徑,追蹤患者對于特定治療可能做出的響應(yīng)。

在GNS Healthcare公司,這一大數(shù)據(jù)分析項目依賴于一個被稱為REFS的計算機平臺,REFS代表著反向工程學(xué)和正向模擬的功能。簡言之,該軟件通過分析數(shù)據(jù)來構(gòu)建特定疾病中潛在的分子網(wǎng)絡(luò),這是反向的部分;然后它利用這一信息去模擬某個化合物可能對通道的影響,這是過程的正向部分。

除了醫(yī)療保健之外,REFS也可以應(yīng)用于基礎(chǔ)生物學(xué)研究。例如,Khalil和她的同事使用該技術(shù),制作了一部分細(xì)胞復(fù)制循環(huán)過程的分子模型。

對于Khalil和其他科學(xué)家而言,使用大數(shù)據(jù)的關(guān)鍵在于推動科學(xué)的發(fā)展。例如,在NIBR公司,Cleaver和他的同事想要確保得到信息量大、一手的最重要數(shù)據(jù)。“運行先進(jìn)的數(shù)據(jù)挖掘方法是非常好的,但它必須能夠啟發(fā)下一個的科學(xué)假設(shè)。”他說。只有這樣,今天的大數(shù)據(jù)才能改變明天的生物學(xué)和醫(yī)學(xué)。

關(guān)鍵字:BrynIyaBiological

本文摘自:生物

x 大數(shù)據(jù)催生大生物學(xué) 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)業(yè)界動態(tài) → 正文

大數(shù)據(jù)催生大生物學(xué)

責(zé)任編輯:editor007 |來源:企業(yè)網(wǎng)D1Net  2014-12-04 21:06:24 本文摘自:生物

“大數(shù)據(jù)”是如今最炙手可熱的概念之一,但也容易被人曲解。

名字本身意味著海量的數(shù)據(jù),然而這只是一個開始。總體來說,大數(shù)據(jù)包含有三個“v”:數(shù)據(jù)的容量(volume of data)、數(shù)據(jù)處理的速率(velocity of processing the data)和數(shù)據(jù)源的多變性(variability of data sources)。這些都是要求使用大數(shù)據(jù)工具進(jìn)行分析的信息的關(guān)鍵特性。

盡管生物學(xué)家為了收集足夠的數(shù)據(jù),已經(jīng)努力了數(shù)十年,但位于弗吉尼亞州阿什本的喬治華盛頓大學(xué)計算生物學(xué)研究所主任Keith Crandall表示,“生物學(xué)的新瓶頸在于大數(shù)據(jù)問題。”他舉例指出,2002年4月公布的第一個人類基因組序列,集中了來自20個研究所的專家、基礎(chǔ)設(shè)施和人員,歷經(jīng)13年的辛勞,花費了大約30億美元,獲得了大約30億個核苷酸的順序。Crandall說,如今“測出一個人的基因組僅需1000美元,一周就可以產(chǎn)生超過320個基因組。”

隨著生命科學(xué)家開始探索更多的方式來處理大數(shù)據(jù)的容量、速率和多變性,他們開始研發(fā)分析信息的新方法。

不斷擴張的容量

在人類生物學(xué)大量信息的收集方面,制藥產(chǎn)業(yè)早在數(shù)十年前就開始與大數(shù)據(jù)集打交道了。

位于馬薩諸塞州波士頓的默克公司研究實驗室科學(xué)信息助理副總裁Jason Johnson說,“多年來,默克公司積累了成千上萬例臨床試驗,有能力在數(shù)百萬消除識別信息的病患記錄中進(jìn)行查詢。現(xiàn)在我們擁有的下一代基因組測序,能夠從每個樣本中創(chuàng)造出兆兆字節(jié)的數(shù)據(jù)。

為了處理如此多的數(shù)據(jù),即使是大型制藥公司也需要幫助。例如,瑞士巴塞爾的羅氏公司研發(fā)運營全球總監(jiān)Bryn Roberts說,“羅氏積累了一個世紀(jì)的數(shù)據(jù)。在2011~2012年進(jìn)行了一次成百上千個癌癥細(xì)胞系的大規(guī)模測序?qū)嶒炛校头艘槐抖唷?rdquo;Roberts和他的同事想要從這些數(shù)據(jù)集和其他人多年前采集的數(shù)據(jù)中挖掘更多的價值。因此,他們與加州福斯特城的PointCross公司合作建立了一個數(shù)據(jù)平臺,該平臺可以靈活地搜索羅氏過去25年的研究數(shù)據(jù),包括簽約研究機構(gòu)的外包數(shù)據(jù)。研究人員將挖掘這些數(shù)據(jù)以及成千上萬個復(fù)合物的信息,利用現(xiàn)有知識來研發(fā)新藥。

可是,生物學(xué)家要想產(chǎn)生大量的數(shù)據(jù),并不需要大型制藥企業(yè)的基礎(chǔ)設(shè)備。例如,考慮一下加州卡爾斯巴德生命技術(shù)公司的離子個人基因組儀(Ion Personal Genome Machine,PGM)系統(tǒng)。這種下一代的新設(shè)備能夠在8小時內(nèi)測出多達(dá)2千兆堿基(gigabases)的序列,而且它的市場定位是“個體化基因組儀”,能夠放在科學(xué)家的實驗臺上。生命技術(shù)公司還有更大的Ion Proton儀器,能夠在4小時或更短時間內(nèi)產(chǎn)生大于10千兆堿基的數(shù)據(jù)。

總體來講,對于學(xué)術(shù)界和產(chǎn)業(yè)界的生命科學(xué)家來說,下一代測序技術(shù)創(chuàng)造了財富,也產(chǎn)生了阻礙。Crandall解釋道,“我們無法有效地研究如此大量的基因組,除非我們的計算機軟件能夠滿足這些大數(shù)據(jù)的需求。”因此,他的團(tuán)隊與波士頓大學(xué)醫(yī)學(xué)院的醫(yī)學(xué)助理教授W. Evan Johnson合作,開發(fā)了軟件PathoScope,能夠處理當(dāng)今下一代測序(NGS)平臺的數(shù)據(jù),進(jìn)而將千兆堿基的DNA信息轉(zhuǎn)變成千兆字節(jié)(GB)的計算機數(shù)據(jù)。該軟件將DNA樣本與參考基因組做比對,以鑒定出病原體。Crandall說,“我們的數(shù)據(jù)集可以為成千上百的樣本進(jìn)行每個樣本20GB的數(shù)據(jù)分析,在后續(xù)分析中每個樣本又可產(chǎn)生上百GB的數(shù)據(jù)。”

如此大量的數(shù)據(jù)在醫(yī)療保健領(lǐng)域尤為有用,因為藥物研究者必須在設(shè)計實驗時充分考慮人群的變異性。英國牛津大學(xué)轉(zhuǎn)化醫(yī)學(xué)教授 Chas Bountra說,“你無法從僅僅10 個人的研究中得到合理的結(jié)論,但是通過研究50萬人,你可以從中汲取重要的結(jié)論。”大規(guī)模的研究可能會揭示疾病的遺傳貢獻(xiàn),以及一種藥物是否可以幫助到一部分病人,或者哪些個體更可能會表現(xiàn)出特定的失調(diào)。

其他的專家也期望看到,遺傳數(shù)據(jù)在醫(yī)療保健領(lǐng)域能產(chǎn)生越來越大的影響。“遺傳學(xué)給我們提供了一個強有力的支點,去理解人們?nèi)绾蔚貌∫约拔覀冊撛鯓幼?rdquo;,位于英國牛津市的威康信托基金會人類遺傳學(xué)中心統(tǒng)計遺傳學(xué)教授Gil McVean說。例如,遺傳信息可能會揭示生物標(biāo)記,或某種特定疾病的表征物,類似于在某種類型癌癥中的一個分子。McVean解釋說,“遺傳學(xué)能夠告訴你,某個與疾病相關(guān)的生物標(biāo)記是否值得進(jìn)一步作為(治療的)靶標(biāo)進(jìn)行深入研究。”例如,驅(qū)動某種類型癌癥的分子可以成為治療這種疾病的好靶標(biāo)。

為了應(yīng)用這一理念,McVean領(lǐng)銜的研究團(tuán)隊通過李嘉誠(Li Ka Shing)捐獻(xiàn)的3300萬美元大額捐款,正在劍橋大學(xué)創(chuàng)建李嘉誠健康信息和發(fā)現(xiàn)中心(Li Ka Shing Centre for Health Information and Discovery)。該中心將成立一個大數(shù)據(jù)研究機構(gòu)。總之,McVean說,該中心“會將分析數(shù)據(jù)的過程和遺傳學(xué)結(jié)合在一個研究所里,這樣我們將能夠克服,在大數(shù)據(jù)收集和大數(shù)據(jù)集分析方面遇到的棘手而有趣的難題。”

尋求高速率

第二個“v”,也就是速率(velocity),描述了數(shù)據(jù)的處理和分析速度。研究人員需要快速分析處理不斷增加的數(shù)據(jù)量。

過去,分析基因相關(guān)的數(shù)據(jù)存在瓶頸。“傳統(tǒng)上,這些分析平臺已經(jīng)約束了研究人員的生產(chǎn)效率”,位于馬里蘭州貝塞斯達(dá)的BioDatomics公司總裁Alan Taffel認(rèn)為,“它們很難用,且要求生物信息人員的支持,而且它們在執(zhí)行工作流程時非常慢。”實際上,他說,往往要花費幾天甚至幾周的時間來完成一項大型的DNA分析。鑒于此,BioDatomics公司開發(fā)了自己的BioDT軟件,為分析基因組數(shù)據(jù)提供了400多種工具。它將這些工具整合進(jìn)一個軟件包中,以易于使用,而且可以超越任何臺式電腦。

BioDT在計算機集群上運行,包括了許多稱為節(jié)點的設(shè)備,相互聯(lián)通為一個整體進(jìn)行工作。“至少需要4個節(jié)點”, BioDatomics的首席技術(shù)官Maxim Mikheev說。但是BioDT也能在更多的節(jié)點上運行,從而能更快地處理數(shù)據(jù)。“擴展性理論上是無限的。” Mikheev說,“有的集群能夠用到4萬個節(jié)點。”對于不傾向于構(gòu)建計算機集群的用戶來說,BioDT也可以通過云端獲得。

總之,Taffel說,BioDT“能夠比傳統(tǒng)系統(tǒng)執(zhí)行工作流的速度快100倍。以前需要幾天或幾周的,現(xiàn)在只需要幾分鐘或幾小時。”

其他專家也看到了測序?qū)π鹿ぞ弋a(chǎn)生的需求。根據(jù)位于新澤西州皮斯卡塔韋的羅格斯大學(xué)電子計算工程系研究副教授Jaroslaw Zola表示,“幾乎無處不在的下一代測序技術(shù)需要新的計算機策略來處理數(shù)據(jù),從數(shù)據(jù)如何存儲,如何轉(zhuǎn)換,一直到如何分析。”這就意味著生物學(xué)家必須學(xué)習(xí)如何使用最前沿的計算機技術(shù)。然而,正如Zola所說,這“對信息技術(shù)專家施加了壓力,以開發(fā)出讓領(lǐng)域?qū)<胰菀渍莆盏母咝Ы鉀Q方式,并在確保效率的前提下,隱藏潛在算法、軟件和硬件結(jié)構(gòu)的復(fù)雜性。”這就需要新穎的算法,Zola也致力于此。

多變性的版本

第三個“v”,即多變性(variability),也給生物學(xué)家?guī)砹藰O大的挑戰(zhàn)。正如Bountra所說,“我們現(xiàn)在將許多來自不同領(lǐng)域、具有不同數(shù)據(jù)集的人聚集在了一起。”

挑戰(zhàn)之一就是生物學(xué)實驗室擁有各種設(shè)備,但他們通常收集的數(shù)據(jù)是特定的文件格式。因此,總部設(shè)在加拿大多倫多的ACD/Labs公司開發(fā)的計算系統(tǒng),可以在處理大數(shù)據(jù)時整合各種數(shù)據(jù)格式。ACD/Labs的全球戰(zhàn)略主管Ryan Sasaki解釋,“我們支持來自不同儀器的超過150種文件格式,這讓我們可以將多種數(shù)據(jù)匯集到同一環(huán)境中,也就是我們的Spectrus數(shù)據(jù)庫。這個數(shù)據(jù)庫可以通過桌面客戶端軟件或網(wǎng)頁訪問使用,也可以通過其他的實驗室信息系統(tǒng)進(jìn)入數(shù)據(jù)庫。”

生物學(xué)的大數(shù)據(jù)還體現(xiàn)在新形態(tài)的多變性。例如,位于德國慕尼黑Definiens公司的科學(xué)家在進(jìn)行一項被公司稱為組織表型組學(xué)(tissue phenomics)的研究,也就是一個組織樣本中的組成信息,包括細(xì)胞的大小、形態(tài)、吸收的染色劑和哪些細(xì)胞進(jìn)行相互聯(lián)系等方面。這一技術(shù)可以應(yīng)用到一系列的研究中,例如追蹤細(xì)胞在發(fā)育過程中特征變化的研究,測定環(huán)境因素對機體影響的研究,或定量測定藥物對某些組織的細(xì)胞影響的研究。

結(jié)構(gòu)化數(shù)據(jù)如數(shù)據(jù)表格,并不能揭示藥物處理或生物學(xué)過程的所有信息。我們對生物體的了解大多是以一種非結(jié)構(gòu)化的形式存在,就像期刊論文的文本那樣。正如默克公司的Johnson所說,“有千萬種方式來描述生物學(xué)過程”,并且很難從文獻(xiàn)中提取數(shù)據(jù)。

在加州圣何塞的IBM公司Almaden研究中心,分析專家和研發(fā)人員Ying Chen和她的團(tuán)隊數(shù)年來,都在致力于文本挖掘工具的研發(fā),目前正用于“加速藥物發(fā)現(xiàn)的解決方案”。這一平臺集合了專利、科技文獻(xiàn)、基礎(chǔ)的化學(xué)和生物學(xué)知識,還有1600多萬種獨特的化合物結(jié)構(gòu)以及近7000種疾病的信息。利用這一系統(tǒng),研究人員可以從中尋找可能對治療某種疾病有用的化合物。

其他公司也希望通過挖掘現(xiàn)有資源,以發(fā)現(xiàn)疾病的生物學(xué)機制以及治療方式。位于硅谷的大數(shù)據(jù)公司NuMedii和位于紐約的智能科學(xué)信息提供商湯森路透公司,共同組建團(tuán)隊來尋找現(xiàn)有藥物的新用途,稱為藥物再利用(drug repurposing)。“通過使用基因組數(shù)據(jù)庫,整合各種知識來源和生物信息學(xué)方法,我們能夠快速地發(fā)現(xiàn)藥物的新用途。” NuMedii公司的首席科學(xué)家Craig Webb說,“我們隨后利用該藥物原有用途中的安全性,快速低成本地通過臨床試驗。”NuMedii公司為項目提供數(shù)據(jù)庫和分析法,湯森路透公司則提供關(guān)于疾病和藥物的深層知識。

Webb說,其中一個項目中,研究人員從超過2500份卵巢癌樣本中搜集基因表達(dá)數(shù)據(jù),再利用多種計算機算法來預(yù)測現(xiàn)有藥物是否具有廣譜治療卵巢癌或針對某種分子亞型的潛力。“大數(shù)據(jù)讓我們可以廣撒網(wǎng)來尋找線索,而‘大知識’則讓我們能快速地選擇出可供測試的組分。” Webb說。

組合的復(fù)雜性

馬薩諸塞州劍橋市諾華生物醫(yī)學(xué)研究所(NIBR)信息系統(tǒng)執(zhí)行主任Stephen Cleaver在大數(shù)據(jù)的3個“v”之外,又加上了復(fù)雜性。他認(rèn)為制藥公司科研人員分析數(shù)據(jù)的方式是“通過某些病患個體,到病患群,再到整合掌握的所有信息”。這一過程很復(fù)雜。

在醫(yī)療保健領(lǐng)域,大數(shù)據(jù)分析的復(fù)雜性也是源于對于不同類型信息的整合,如源自基因組、蛋白組、細(xì)胞信號轉(zhuǎn)導(dǎo)、臨床研究,甚至環(huán)境科學(xué)研究的數(shù)據(jù)。結(jié)果將可能產(chǎn)生全新的疾病治療方法。但是馬薩諸塞州劍橋市GNS Healthcare公司的共同創(chuàng)始人Iya Khalil問道:“你如何為這些數(shù)據(jù)賦予意義,并且從這些數(shù)據(jù)中獲得新的啟示,以提升我們對于病理機制的認(rèn)識?”對于Khalil和她的團(tuán)隊成員來說,答案來源于機器的學(xué)習(xí)、數(shù)學(xué)、計算機算法和超級計算技術(shù)——它們整合在一起,從而探索疾病的根本途徑,追蹤患者對于特定治療可能做出的響應(yīng)。

在GNS Healthcare公司,這一大數(shù)據(jù)分析項目依賴于一個被稱為REFS的計算機平臺,REFS代表著反向工程學(xué)和正向模擬的功能。簡言之,該軟件通過分析數(shù)據(jù)來構(gòu)建特定疾病中潛在的分子網(wǎng)絡(luò),這是反向的部分;然后它利用這一信息去模擬某個化合物可能對通道的影響,這是過程的正向部分。

除了醫(yī)療保健之外,REFS也可以應(yīng)用于基礎(chǔ)生物學(xué)研究。例如,Khalil和她的同事使用該技術(shù),制作了一部分細(xì)胞復(fù)制循環(huán)過程的分子模型。

對于Khalil和其他科學(xué)家而言,使用大數(shù)據(jù)的關(guān)鍵在于推動科學(xué)的發(fā)展。例如,在NIBR公司,Cleaver和他的同事想要確保得到信息量大、一手的最重要數(shù)據(jù)。“運行先進(jìn)的數(shù)據(jù)挖掘方法是非常好的,但它必須能夠啟發(fā)下一個的科學(xué)假設(shè)。”他說。只有這樣,今天的大數(shù)據(jù)才能改變明天的生物學(xué)和醫(yī)學(xué)。

關(guān)鍵字:BrynIyaBiological

本文摘自:生物

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 东阳市| 绥芬河市| 响水县| 大田县| 全椒县| 灌云县| 墨脱县| 普兰店市| 新化县| 霸州市| 镇雄县| 靖安县| 延长县| 肥东县| 会泽县| 正宁县| 灵宝市| 临漳县| 桃园市| 文化| 汶川县| 江西省| 黔西| 东方市| 东乌珠穆沁旗| 汉寿县| 喀什市| 江山市| 台前县| 县级市| 定州市| 霍山县| 海阳市| 广东省| 临邑县| 萍乡市| 天津市| 礼泉县| 乐清市| 海城市| 信宜市|