2016年1月在瑞士達沃斯召開的世界經濟論壇上的一個panel討論中,美國副總統Joe Biden當場要求臨床醫生和研究者舉例表示人類在抗擊癌癥中突破的障礙。當幾個重要話題浮現時,最重要的議題是“大數據”,具體而言,即“大數據”的收集、分析和應用。
大量的腫瘤DNA測序通道接近20,000基因組
研究者表示:“ 大數據 ”是有效的,這是因為有重大的信息可以從大數據集合里分析。越是大樣本的體量,越能發現一些在小樣本體量中難以發現的小問題。另一些研究者則表示:“大數據”豈止于大?而是越多越好。
來自美國 St. Jude兒童研究中心的首席信息官、高級副總裁Keith Perry認為,“大數據”包含額外的三層意思:多個品種的數據類型、數據生成的速度和數據集成的程度。在他看來,目前的許多數據庫之間無相互接口,因為它們是由單獨的預防、研究和臨床部門產生的,現在缺乏一個整合這些不同結構、集中信息的潛在平臺。
另一位來自愛立信公司的Narayan Desai博士引用了其在2015年的新聞文章,基因組學將不得不解決的基本問題是數據是如何生成的。盡管目前的數據收集和分析能力有限,但應該利用好它,因為測序的可訪問性,將導致訪問信息出現爆炸性的增長,并在很大程度上較為分散,傳統的信息挖掘將難以解決問題。
影響一:隱藏的弱點
最近,一些科學家建議:針對性和創造性的利用現有的數據可以指導臨床實踐。來自加州大學舊金山分校(UCSF)的Nevann Krogan教授表示:基因組學已經為癌癥治療帶來了重大變革,其作用遠超過以往的遺傳學知識。盡管測序提供商認為我們投入的金錢越多,結果越清晰,事實上并不是如此。我們現在已經達到了提取有效信息的飽和點。
以癌癥為例,目前針對各種各樣的癌癥已經出現了“海量”的數據。盡管數據暴增趨勢在繼續,但是Krogan 教授認為,突破癌癥治療所需的數據已經達標。成堆的新數據只能顯示癌癥驚人的多樣性,即使是一個單一的腫瘤也包含獨特的成千上萬的基因突變,這使得使研究人員找出哪些是驅動疾病的基因愈加困難。
Krogan教授和同事于2015年5月21日在《Molecular Cell》上發表文章:除了積累更多的數據之外,研究者需要更加仔細地找出現有數據的關聯,并成立了“腫瘤細胞地圖項目”(CCMI),旨在系統地介紹癌癥基因間的相互作用,以及它們如何導致了疾病與健康的狀態,從而研究出癌細胞里的突變基因和蛋白的“路線圖”。
影響二:腫瘤樣本關聯性分析
“腫瘤細胞地圖項目”(CCMI)將加州大學圣迭戈分校(UCSD)的頂尖生物醫學科學家和加州大學舊金山分校(UCSF)頂尖的細胞結構學家整合到一起,共同研究基因組學相關信息,瓶頸是如何解釋腫瘤基因組信息。
加州大學圣地亞哥分校的Ideker教授表示:進行癌癥DNA測序的樣本已經接近20000例基因組,但仍然難以分析癌癥基因組的基因網絡,即“沒有兩個腫瘤患者在基因層面上看起來很相像。”因此,癌癥基因組圖譜(TCGA)項目,國際癌癥基因組協會(ICGC)已經開始系統地分析成千上萬的腫瘤的多重信息,包括mRNA和microRNA表達、DNA拷貝數和甲基化以及DNA序列。
現在強烈需要有一個可以整合和解釋基因組規模分子信息的方法,以洞察驅動腫瘤惡化的過程;同時也迫切需要醫療機構的參與,以解決公司在分析腫瘤基因時因無法獲得臨床相關的數據而得出不當結論。
影響三:子網絡分析
解決子網絡分析需要綜合信息方法,尤其是綜合已知編碼蛋白質的基因在表達蛋白質內部子網或通路作用間的數據庫交互。這需要基因或蛋白質在各個子網絡內形成的聚合表達式組成的巨大交互網絡,而不是清單單個基因或蛋白質。
研究人員表示:這些子網可以識別不同種群患者之間的基因表達差異導致的不同臨床行為。與傳統的分析相比,雖然這種方法需要大量的生物信息學、統計學和蛋白結構知識,但這種子網分析能夠解釋基因表達差異下的分子通路,畢竟它使用的數據已經存在。
Ideker博士和他的同伴生物信息學專家表示:對于大多數中度乳腺癌風險的患者,傳統因素不是預測,大約70 – 80%的淋巴癌陰性患者在接受不必要的輔助化療。當前的許多風險因素可能是次要表現而不是疾病的主要機制。一個新的挑戰是如何確定新的與疾病更加直接相關的疾病,可以更準確地預測個體患者的風險轉移。
影響四:預后的影響
研究人員最新調查證據支持基因網絡分析可以提供預后信息。例如,加州大學圣迭戈分校(UCSD)的Chang博士和同事們在2012年的《血液》雜志發文:通過單克隆B細胞在血液中、骨髓、次級淋巴組織的集聚,采用基因網絡分析并預測慢性淋巴細胞白血病(CLL)患者的特點。
具體地說,研究人員使用subnetwork-based(子網絡)基因表達分析概要文件區分組不同患者的慢性淋巴細胞白血病進展風險。 臨床患者的慢性淋巴細胞白血病患者有很大的差異:有些病人無癥狀多年;有些患者則在被診斷后不久就出現較為嚴重的癥狀。
由于目前必須明確證據顯示疾病進展或疾病相關的并發癥,否則建議停止治療,但標準療法與顯著的毒性有關,因此準確預測是至關重要的。目前已經有通過基因芯片檢測的報告顯示,替代標記物可作為慢性淋巴細胞白血病已知的預后因素,如IGHV突變狀態。
預測子網的表達水平隨著時間的推移而發生變化,但是在在之后的時間點表現出較強的相似性。大 數據挖掘 已經成為慢性淋巴細胞白血病患者等癌癥的的治療策略和潛在的觀察途徑。