人類攜帶了數(shù)以百萬(wàn)計(jì)的DNA代碼,但一直以來(lái)并無(wú)有效的方法來(lái)告訴人們哪些基因突變引起癌癥,抑或只是簡(jiǎn)單的耳垢潮濕。由多倫多大學(xué)電腦工程師領(lǐng)銜的一個(gè)研究小組在18日出版的《科學(xué)》雜志上稱,他們已開(kāi)發(fā)出的一種獨(dú)一無(wú)二的過(guò)濾技術(shù)可最終解決上述問(wèn)題,從而在與至少兩個(gè)其他國(guó)際小組的同類研究競(jìng)逐中力拔頭籌。
這個(gè)新的計(jì)算系統(tǒng)類似于通過(guò)強(qiáng)大的互聯(lián)網(wǎng)搜索引擎搜尋答案,其梳理了人類基因組各種具有實(shí)質(zhì)意義的突變。該技術(shù)最終可將醫(yī)學(xué)研究成果通過(guò)定向方式轉(zhuǎn)化為疾病的遺傳根源。研究成果表明,在沒(méi)有患者及其病情相關(guān)信息的情況下,被命名為SPANR(基于拼接的突變分析)系統(tǒng)準(zhǔn)確地証實(shí)了94%的常見(jiàn)疾病背后的基因“元兇”。該系統(tǒng)還可用于識(shí)別使人們更健康、更聰明、更快樂(lè)的生物性狀。
主持該項(xiàng)10年研究計(jì)劃的多倫多大學(xué)工程學(xué)和醫(yī)學(xué)教授布倫丹·弗雷說(shuō),該系統(tǒng)是全球首個(gè)能夠有效挖掘基因組的工具。其核心是被稱為“機(jī)器學(xué)習(xí)”的計(jì)算技術(shù),通過(guò)人工智能編程來(lái)進(jìn)行檢測(cè)并破譯。機(jī)器學(xué)習(xí)的復(fù)雜形式——深度學(xué)習(xí)技術(shù)已廣泛應(yīng)用于語(yǔ)音和圖像識(shí)別軟件及Siri等虛擬助手流行應(yīng)用程序。
SPANR系統(tǒng)旨在檢測(cè)調(diào)控基因的DNA廣大區(qū)域中的小故障,而這些區(qū)域曾被天真地認(rèn)為是垃圾。利用數(shù)據(jù)和算法進(jìn)行訓(xùn)練后,該系統(tǒng)可根據(jù)每個(gè)突變對(duì)細(xì)胞行為的改變能力進(jìn)行分析和排名。突變的排名越高意味著越有可能導(dǎo)致疾病。
擁有加拿大生物計(jì)算領(lǐng)域首席科學(xué)家身份的弗雷教授表示,雖然計(jì)算機(jī)被用于讀取基因組已有相當(dāng)長(zhǎng)一段時(shí)間了,但是利用計(jì)算機(jī)來(lái)解譯基因組尚屬首次且表現(xiàn)相當(dāng)出色。
研究發(fā)現(xiàn)了與結(jié)腸癌、胰腺癌和嵴髓性肌萎縮癥(嬰兒死亡的首要塬因)相關(guān)的新突變基因,還發(fā)現(xiàn)了從未曾與自閉癥關(guān)聯(lián)的另39個(gè)基因,且被認(rèn)為與兒童時(shí)期形成該病緊密相關(guān),而此前,隻有幾十個(gè)基因被明確與自閉癥綁定。研究合作者、專注研究自閉癥的多倫多病童醫(yī)院應(yīng)用基因組學(xué)中心主任斯蒂芬·謝勒稱,該系統(tǒng)令人信服地展示了機(jī)器學(xué)習(xí)在生物學(xué)領(lǐng)域展示的強(qiáng)大威力。
弗雷教授說(shuō),遺傳研究通常需要收集和比較數(shù)萬(wàn)名病患和健康人的基因組,但即使如此多的樣本也不足以精確地找到與疾病相關(guān)的模式或突變。SPANR系統(tǒng)或可給此類遺傳研究帶來(lái)急需的高精度。
弗雷教授認(rèn)為,機(jī)器學(xué)習(xí)將引領(lǐng)個(gè)性化醫(yī)療時(shí)代,未來(lái)的疾病治療可根據(jù)一個(gè)人的DNA展開(kāi),醫(yī)生在理論上將能夠使用SPANR系統(tǒng)快速產(chǎn)生任何病人的重大基因突變列表。他預(yù)計(jì),未來(lái)10年,人們可以在智能手機(jī)中安裝這種應(yīng)用程序,彼此分享和比較基因突變,并通過(guò)交換其疾病和性狀細(xì)節(jié)“圍觀”這些突變的真實(shí)含義。
人們已經(jīng)開(kāi)始將自己的遺傳密碼上傳到谷歌云。去年夏天,谷歌透露,其已推出自己的基因組項(xiàng)目以對(duì)健康人的生物標(biāo)志進(jìn)行編目。這個(gè)月,加拿大黑莓公司也宣布,其最新款“Passport”智能手機(jī)將包含一個(gè)癌癥基因組瀏覽器,以便醫(yī)生能即時(shí)訪問(wèn)患者的基因數(shù)據(jù)。弗雷教授說(shuō),所有這些大數(shù)據(jù)都將需要某種形式的深度機(jī)器學(xué)習(xí)來(lái)解譯。
總編輯圈點(diǎn)
人類DNA被稱為“生命之書(shū)”,科學(xué)家們正竭力破譯它,要弄清到底是哪些基因突變導(dǎo)致了疾病。26個(gè)字母能創(chuàng)作出多種文本模式,基因組是由30億個(gè)化學(xué)鹼基對(duì)組成,其可能存在的模式數(shù)量要比宇宙中的塬子數(shù)目還多。有賴于此前人類基因組的測(cè)序工作,機(jī)器學(xué)習(xí)有了建模所需的塬始數(shù)據(jù)。依靠這款“生物瀏覽器”,或許未來(lái)人們很自然地掏出手機(jī)瀏覽各自基因突變的異同,而具有某些共同突變的人們還會(huì)熱烈討論他們的“恐高”癥。