當前位置：大數據 → 業界動態 → 正文

基因學：大數據的大希望

責任編輯：editor004 作者：機器之心 Synced |來源：企業網D1Net 2016-01-05 13:19:22 本文摘自：百度百家

Adrian Lee一生致力于研究乳腺癌，這意味著他可以同時面對著很多疑難雜癥。「沒有任何兩個乳腺癌是完全一樣的。癌癥遠比我們想象的要復雜。」 Lee說。Lee是賓夕法尼亞大學的藥理學家和化學生物學家。

Lee正在使用基因技術來全面了解乳腺癌，并且利用這些知識來指導對病人的治療決定。「現在我們可以從單個樣品中去分析多個變量，例如DNA的改變、RNA的改變和甲基化的改變。全基因組掃描可以幫助建立更好的系統生物學，從而使得我們可以了解一個特定腫瘤究竟是什么地方出錯了。」

目前的腫瘤測序并以往任何時候都要快，要便宜，且更容易。通過許多研究人員收集測序數據，并且上傳到公共數據庫，例如癌癥基因組圖譜(TCGA)，我們將有機會來描述乳腺中產生的許多不同類型的癌癥。「曾經這個目標的挑戰是產生數據，而這些問題現在已經解決了。現在的挑戰是數據處理和數據分析——解釋這些突變，并且和腫瘤專家溝通。」

匹茲堡大學的研究人員正在努力找出患有乳腺癌的病人的分子特征和宿主的臨床數據之間的聯系，這些臨床數據包括與人年齡、種族和體重等相關的統計信息。他們正在著手建立這些臨床相關性、治療的相互作用和結果的電子健康檔案。「這就好像我們要從一個大草垛中去找出一個針頭一樣。同時我們也在努力將這根針和很多其他事情聯系起來。」 Lee說。從病人的電子檔案中將所有的數據收集起來，這需要龐大的基礎工程的支持。匹茲堡已經積累了5千萬億字節，即500千兆字節，這些數據需要400000臺新iPhone 6設備才能存儲。

將這些從實驗室獲得的大量測序數據和正在和乳腺癌抗爭的個體聯系在一起需要無數時間和超強的的電腦計算能力的支持。大數據時代需要那些適應嘈雜噪聲的研究人員，以及在創建靈活的計算機程序方面的老手。

從數據到知識

大數據研究人員采取一個大的數據集，然后從中尋找模式。這樣做是希望可以找到突變，然后與相應的藥物治療相聯系。這是個體化醫療的精髓：從病人的腫瘤中篩選一組生物標記物，然后選擇最佳治療方案來對抗癌癥。大數據的研究人員認為，通過分析數千個腫瘤的數據可以獲得相應模式，從而可提高篩查和診斷，進一步有利于提出合理的治療方案。

Lee及其同事已經表明，大數據科學可以引導我們重新思考乳腺癌。他們使用了兩種公共數據庫——癌癥基因組圖譜(TCGA)和國際乳腺癌聯盟的分子分類學(METABRIC)，這些數據庫包含了數千種乳腺癌腫瘤的基因、RNA轉錄子和蛋白質信息——來分析年輕人和年老一些的婦女的乳腺腫瘤中分子特征的差異。年齡低于40歲的女人更容易具有更糟的疾病：他們更可能具有晚期癌癥、更差的預防診斷結果和更糟的存活幾率。

該團隊也分析了45歲以下（即有可能絕經前的女性）和55歲以上（有可能絕經后的女性）的女性的腫瘤數據。「我們仔細觀察了你可能觀察的任何數據，包括基因的突變、核糖核酸的突變、腫瘤的基因表達、變型中的某些特定基因表達數量的不同和DNA甲基化水平。他們發現絕經前的女性其情況很不一樣，尤其是基因的表達這一部分。」

當研究人員發現越來越罕見的基因突變時，這些問題變得越來越嚴峻。Lee剛剛看完了2000中基因突變的電子表格，「其中之一是ER突變，但是我如何從其他中間篩選呢？這是一個非常基礎的問題。」他指的是一個突變的雌激素受體，也是乳腺癌中一個常見的突變。

一種思路是分析突變基因影響的細胞途徑，這意味著使用開發的算法將所有收集到的分子信息整合，并分類成共同成長類或細胞周期途徑類。研究人員可以使用這些分類的信息就影響途徑來描述這些腫瘤細胞，而不是單純地說影響分子。加州大學圣克魯茲分校生物信息學家Josh Stuart開發了一種可以集成各種基因數據集的計算方法，這些基因數據已經知道細胞——信號傳導途徑。「我們知道正常細胞中的基因周期，現在我們要問，在腫瘤細胞中究竟是那部分出問題了？令人驚訝的是，我們成功了。」 Stuart說。

Lee的研究小組在其研究中使用了PARADIGM計算分析方法。事實證明，這種方法對于揭示絕經前婦女雌激素受體的陽性乳腺癌功不可沒。該方法表明，雖然單個分子會有異常變化，但是它們通常都會在一組特定的、傳遞信號給整合素的通路中發生——涉及腫瘤相關的血管形成的蛋白質。

具有雌激素受體陽性乳腺癌的絕經前婦女的腫瘤中的整合素非常重要，者也表明這些分子可以是治療靶標。「這些分子中有整聯蛋白抑制劑。」 Lee說。并且有些分子已經經過臨床測試。

從知識到應用

隨著大數據研究人員通過大量的腫瘤數據庫尋找突變模式時，他們也會在其中增加新的類別的乳腺癌。2012年，兩大數據庫公布了自己的關于數據驅動的方法研究乳腺癌基因的論文。TCGA網絡，這個由數十個美國和歐洲的科研機構聯合起來的團體，基于基因異常和表觀遺傳異常想出了乳腺腫瘤的四項總體分組基。他們發現只有不到10%的樣品中有三種基因發生了變異，表明稀有突變是乳腺癌類型的一個重要部分。METABRIC，一個英國和加拿大的機構聯盟，將基因數據（基因表達的數目和基因表達變異）與長期的臨床結果相結合，將腫瘤分為十個大類。通過與臨床數據相結合，這種新的分組可能使腫瘤學家做出更好的患者預防和治療決策。

「我們仍然在完善我們的研究方法。」劍橋研究院英國癌癥研究中心生物統計學家Oscar Rueda說，該機構同時也是METABRIC研究機構聯盟的一部分。他們正在對研究中的2000個樣品進行測序。Rueda說，該研究希望發現基因突變的誘因，這是癌癥早期非常重要的一部分。「關于細胞如何變成癌細胞的理論就有數百種。」

大數據方法也許最終會發現一些之前被忽略的細胞途徑。西奈山伊坎醫學院的Avi Ma’ayan正致力于細胞途徑的數據庫的建設，希望可以為將來的研究目標提供一種資源。他的研究得益于美國國家研究院基于集成網絡細胞特征的衛生圖書館(LINCS)的鼎力支持。LINCS可以使用研究院（例如麻省理工學院Broad研究所）產生的數據。Broad研究院的高產量實驗室在十個不同的細胞系中測試一系列的藥物，從而研究藥物和細胞活動之間的相互作用。這些藥物包括實驗樣品以及經過監管機構批準的藥物。

「你會獲得細胞的行為特征，這些特征有助于新型藥物的研究。」 Ma’ayan說。如果臨床研究人員想要關閉一個特定細胞轉換成癌癥的路徑，他們可以使用Ma’ayan的數據庫來搜索具有這個功能的藥物。

臨床應用

接下來就是將這些關于可操作的突變的知識運用到病人護理方面。研究醫院會收集關于病人護理的數據，從而進一步增加知識儲備。例如，在MD安德森癌癥中心，新的癌癥患者會對照已知癌癥基因做檢測。「這不是對整個基因組，而是一組可操作的突變的200個基因。隨著研究知識的增加，這樣的小組也會增加。去年原始的200個基因已經擴展到了300個。」 Navin說。

Navin的專業是單細胞測序，他可以研究血液中的腫瘤細胞。在一個樣品中只能收集10到20個細胞。「之前的研究方法對于這樣小數量的細胞并不管用。」單細胞測試方法使得病人可以通過用非侵入性測試（例如測試血液樣品）的方法來監測治療過程。腫瘤專家便可以通過檢查腫瘤細胞來判斷其是否響應治療或者出現了阻力。

大數據可以和I-SPY的臨床測試結合，I-SPY是一種實驗性乳腺癌藥物的臨床試驗。「我們正在從病人身上實時收集數據。」加州大學舊金山分校分子腫瘤學家Laura van’t Veer說。

病人在進行診斷的時候，可以通過其腫瘤特征來將其劃歸為8種預先定義的腫瘤類型之一。然后病人將接受標準的治療方法，并且使用實驗性的靶向藥物，同時van’t Veer及其同時則監測究竟腫瘤會響應哪種治療方式。這樣做的目的是評估改善響應靶向治療的生物標志物。「通過標準治療方法，我們發現30-35%的病人癥狀完全緩解，而在我們八種類型的治療方法，這個比例提升到了50-60%。」

前進道路上仍然還有許多挑戰。單個腫瘤也可能隨著時間的改變而發生突變，從而使得單個腫瘤也具有多樣性。但是Ma’ayan仍然保持樂觀。「通過在這個問題上投入更多的金錢和精力，我們就能獲得更多的數據。有了更好的堅定的決心，我們可以進一步提高對這個過程的理解。盡管現在感覺前路漫漫，但這并不是一個無限的過程。」

關鍵字：整合素生物標志物