這項研究已于7月16日以“Deep learning sequence-based ab initio prediction of variant effects on expression and disease risk”為題發表在Nature Genetics雜志,報告稱,ExPecto有朝一日可幫助選擇藥物療法,并幫助闡明進化是如何塑造我們的遺傳密碼的。
Nature子刊:人工智能讓預測基因突變精確度更高
“暗物質”區域
我們的DNA中含有的基因可以作為蛋白質的藍圖,而蛋白質是我們身體中負責運送氧氣、與其他細胞溝通和對抗感染等重要任務的主要分子。蛋白質編碼序列占我們整個基因組的比例不到百分之二。
基因組中除編碼區域之外的98 %的組成,即非編碼蛋白質的“暗物質”部分,會啟動或關閉基因表達。大多數基因突變都是在這個非編碼區發現的。突變本質上是一種遺傳“排序”(typo),添加、刪除或改變基因組的序列。非編碼區的突變有時會導致基因于錯誤的時間在身體的錯誤部位表達或不表達,從而增加癌癥等疾病風險。
由于DNA的非編碼部分太大,很難確定具體的突變原因。先前的研究將許多個體的基因組與特定疾病進行了比較,以尋找這些個體共有的突變。然而,對于更罕見的突變,這種方法變得越來越棘手。此外,DNA鏈有時是一長段遺傳的,所以科學家很難確定哪一段特定的遺傳密碼是麻煩制造者。
Nature子刊:人工智能讓預測基因突變精確度更高
圖片來源:CC0 Creative Commons
ExPecto程序
利用最新方法,美國Flatiron Institute計算生物學中心(Center for Computational Biology ,CCB)和普林斯頓大學的發明者計算了在不同組織中超過1.4億個突變的遺傳結果。研究人員還精確地確定了可能增加一些免疫相關疾病風險的突變,包括慢性乙型肝炎病毒(HBV)感染和克羅恩病。
具體來說,研究人員利用單一參考基因組,訓練ExPecto程序來了解DNA如何控制200多個不同組織和細胞類型的基因表達。根據這些信息,ExPecto可以預測任何突變的影響,甚至是科學家以前從未見過的突變。
研究人員先用ExPecto來預測導致克羅恩病、慢性HBV感染和白塞病的突變,隨后通過實驗驗證該結果。對于這三種疾病,作者之一Chandra L. Theesfeld發現,與之前的研究相比,ExPecto預測的突變對導致相關疾病具有更大的潛力。
未來運用
文章通訊作者Olga Troyanskaya評價該程序時說:“ExPecto可以檢查任何基因變異,并預測其對基因表達的影響,這太令人興奮了。”
未來,研究人員希望ExPecto能幫助醫學專家確定患者疾病的遺傳因素,并開發適合患者基因組的治療方法。論文合著者Jian Zhou說:“一旦知道哪種蛋白質受到影響,以及蛋白質會起什么作用,我們就可以設計出能夠解決問題的藥物。例如,如果肌體不能產生某種蛋白質,那么就可以設計一種療法來彌補缺失的蛋白質。”
據悉,任何人都可以訪問ExPecto,對蛋白質編碼基因附近超過一億四千萬個可能突變的影響進行預測。這些結果可以在網上作為人類基礎(HumanBase)的一部分獲得(人類基礎是由研究小組開發的一個關于人類生物學和疾病的數據驅動的預測系統)。訪問者可以輸入一個基因,然后就能看到所有在218種組織和細胞類型中可能影響該基因表達的突變。