2018年,DeepMind帶著Alpha家族的新成員AlphaFold來挑戰新領域:通過基因序列預測蛋白質三維結構。
12月2日,DeepMind最新的人工智能程序AlphaFold與另外97支隊伍參與了在墨西哥坎昆舉行的全球蛋白質結構預測競賽。首次參加國際比賽的AlphaFold在最艱難的“預測蛋白質三維結構”的任務中,排名第一。
不僅排名第一,第二名的準確率與AlphaFold相差甚遠。在AlphaFold預測的 43 種蛋白質中,有 25 種蛋白質的結構最準確,而排名第二的團隊中只有3種。
“于我們而言,這是一個非常關鍵的時刻。對于解決現實世界重要的科學問題,AlphaFold是一個燈塔項目。” DeepMind聯合創始人兼首席執行官戴密斯·哈薩比斯(Demis Hassabis)在比賽結束后旋即發推特表示。
此次AlphaFold奪第一的全球蛋白質結構預測競賽(CASP),由美國科學家約翰·莫爾特(John Moult)于 1994 年發起,每兩年舉辦一屆,被認為是蛋白質結構領域“奧林匹克競賽”。
蛋白質(protein)是構成細胞的基本有機物,是所有生命的物質基礎。人體組織的細胞需要不斷更新,要求蛋白質不斷地提供更新的“原料”。因此可以說沒有蛋白質,也就沒有生命。
“久攻不下”的蛋白質折疊
“一直以來我的夢想就是,利用人工智能幫助科學家解決宏大的問題,并讓我們更好地理解這個世界。”哈薩比斯表示,蛋白質是一切生命的物質基礎,預測其3D結構是生物學中的重要挑戰,這將影響人們對疾病理解和藥物發現。
蛋白質基本的組成單位是氨基酸。整個地球生命系統中僅有的20多種氨基酸,構成了數萬至數億種不同的蛋白質。蛋白質的種類很多,性質、功能各異。蛋白質的三維結構取決于它所含氨基酸的數量和類型,結構也決定了蛋白質在體內的作用。比如,構成免疫系統的抗體蛋白質是“Y形”的,類似于一個鉤子。通過鎖定病毒和細菌,抗體蛋白能夠檢測和標記引起疾病的微生物,并進行消滅;而膠原蛋白的形狀像繩索,其在軟骨、韌帶、骨骼和皮膚之間傳遞張力。
此外,蛋白質的折疊包含了很多作用,比如蛋白質四級結構折疊受到大量包括氫鍵、離子鍵、疏水作用等非共價相互作用的影響。因此想要從分子水平上了解蛋白質的作用機制,就需要精確測出蛋白質的三維結構。
利用梯度下降方法預測結構目標T1008
從理論上來說,知道了 DNA 序列,就已經決定了其能夠翻譯出的氨基酸序列和蛋白質結構,但是僅從基因序列中找出蛋白質的三維形狀是一項非常艱巨的任務。蛋白質越大,模型就越復雜和困難,因為氨基酸之間可能存在很多的相互作用,因此中間涉及的計算難以想象。黎文索爾悖論指出,需要比宇宙形成更長的時間才能計算出蛋白質所有的可能結構,從而得到正確的三維結構。
在過去60年間發展起來的結構生物學,已經采用了包括X射線晶體學、核磁共振、冷凍電鏡等技術來解析蛋白質結構。但DeepMind團隊認為,這些傳統方法都依賴于大量的實驗和試錯,同時研究每個結構的成本大概需要耗費數萬美元。這一耗時又費力的任務,最適合用人工智能解決。加之近幾年基因測序成本的快速降低,基因組學領域的數據非常豐富。因此,人工智能已經具備了通過基因組數據進行深度學習從而做出預測的條件。
DeepMind團隊介紹,AlphaFold使用神經網絡預測物理特性,這些神經網絡經過訓練可以從蛋白質的基因序列中預測蛋白質的特性,比如氨基酸對之間的距離和,以及連接這些氨基酸的化學鍵之間的角度。接著,AlphaFold調整結構以找到最高效的氨基酸排布。該程序花了兩周時間預測第一個蛋白質結構,但現在只需幾個小時就能將其預測出來。
DeepMind團隊訓練了一個神經網絡來預測蛋白質中每對殘基之間的距離的單獨分布。然后將這些概率組合成一個分數,以評估所設想的蛋白質結構有多準確。此外還訓練了一個單獨的神經網絡,匯總了所有氨基酸之間的距離和,來估計設想的蛋白質結構與正確答案的接近程度。
利用這些評估功能,AlphaFold能夠檢索所有的蛋白質圖景,從而找到與研究設想相匹配的結構。DeepMind團隊設計的第一種方法建立在結構生物學常用的技術上,對于蛋白質結構中的某一片段反復用新的蛋白質片段替換。這樣訓練出來的神經網絡就可以發明新的蛋白質片段,從而不斷提高設想的蛋白質結構的得分。
第二種方法就是通過梯度下降優化得分。這是一種在機器學習中常用的數學技術,通過進行微小而漸進的改進一步步使結構實現高度精確。這套技術應用于對整個蛋白質鏈的預測,而不是用于蛋白質結構組裝之前單獨折疊的碎片,因此從技術上來講降低了整個預測過程的復雜性。
對于AlphaFold的首戰告捷,哈薩比斯在激動之余,也提出了自己的期望:“對我們來說,還有很多工作要做。我們還沒有解決蛋白質折疊問題,預測只是第一步。”
Alpha家族:從陪人下棋到探索生命
谷歌DeepMind研發的人工智能Alpha系列,第一次為人們熟知是2016年3月,AlphaGo與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,最終以4比1的總比分獲勝。2016年末2017年初,AlphaGo在中國棋類網站上以“大師”(Master)的注冊帳號,與中日韓數十位圍棋高手進行快棋對決,連續60局無一敗績。
2017年12月,DeepMind團隊公布了“棋類全才”AlphaZero。該程序從零開始訓練,4小時打敗國際象棋的最強程序Stockfish,2小時打敗日本將棋的最強程序Elmo,8小時打敗與李世石對戰的AlphaGo v18。
在“解決了一切棋類”之后,人工智能在更為復雜、甚至讓人類也頭痛不已的問題上是否能取得實質性的發展?
實際上2018年初,神經科學家、清華大學教授魯白曾向媒體提到,生命科學領域到目前為止還沒有受到人工智能的影響,而這也將會是產生新機會的沃土。
2018年5月,DeepMind團隊先后在《自然》和《自然-神經科學》上發表論文,其開發出了一個人工智能程序具有類似哺乳動物一樣的尋路能力,能夠協助傳統的神經科學研究來測試大腦工作原理;此外DeepMind還利用人工智能領域中的元強化學習框架,研究了大腦中多巴胺在人們學習過程中起到的作用。
而AlphaFold作為Alpha家族的新成員,也體現出了DeepMind在人工智能探索上從“腦力運動”向“生命探索”的轉變。AlphaFold涉足的蛋白質結構領域,能夠通過模擬和模型展示很多關于蛋白質的形狀及其運作方式的問題,從而能夠使科學家更有效地設計新的、有效的疾病治療方法,同時也降低了與實驗相關的成本。此外,對蛋白質折疊的理解也將進一步幫助進行蛋白質的設計。例如,通過蛋白質設計可以幫助管理塑料和石油等污染物,生物可降解酶的進步,以對環境更友好的方式分解廢物。事實上,已經有研究人員開始設計細菌來分泌蛋白質,使廢物可以生物降解并且更容易加工。
“破解圍棋或電子競技從來不是我們的目標,我們的最終目標是發展出能完全解決像‘蛋白質折疊’這類問題的算法。”哈薩比斯表示。