Alphabet Inc.的DeepMind人工智能部門已經取得了另一項科學成就。
該組織透露,它已經建立了一個人工智能系統,能夠應對當今生物學中最大的挑戰之一:模擬蛋白質的形狀。
該系統被稱為AlphaFold,開發時間不少于兩年。在美國國家綜合醫學科學院(U.S. National Institute of General Medical Sciences)舉辦的CASP模擬競賽中,該軟件輕松擊敗其他97種算法,隨后DeepMind決定宣布該項目。
幾乎在每個生物過程中都會發揮作用的蛋白質是扭曲和折疊成各種形式的氨基酸鏈。蛋白質的形狀是決定其行為的主要因素之一。更好地了解這些特性可以讓科學家獲得對某些疾病的新見解——這些疾病被認為是由錯誤折疊的蛋白質引起的,而且還會發現可能對藥物開發有用的分子。
DeepMind表示,AlphaFold代表了朝著實現這一目標前進的“重大進展”。該系統可以根據所包含的氨基酸計算預測蛋白質的結構,這家Alphabet的子公司表示其準確程度遠遠高于現有方法。如果是手動模擬平均大小的蛋白質的每一種可能的結構,要花的時間比宇宙的年齡更長,考慮到這一事實,這種算法取得的成就就不是一件小事了。
AlphaFold將任務分解為兩部分。首先,系統使用有關蛋白質的氨基酸組成的信息來生成其默認(即展開)結構的三維模型。
DeepMind解釋說:“我們網絡預測的屬性是:(a)氨基酸對之間的距離和(b)連接這些氨基酸的化學鍵之間的角度。”他們表示:“我們訓練了一個神經網絡來預測蛋白質中每對殘基之間距離的單獨分布。然后將這些概率組合成一個分數,評估該蛋白質結構的準確程度。”
三維模型準備就緒之后,AlphaFold就會計算出該蛋白質最有可能的形狀。所有蛋白質傾向于折疊成盡可能最節能形式,該系統利用這一事實來完成這一步工作,這有助于縮小可能性。 人工智能會嘗試不同的三維模型變體,以生成更高效的版本,直至找到最佳形式。
DeepMind表示:“我們的第一種方法建立在結構生物學中常用的技術基礎之上,并用新的蛋白質片段反復替換蛋白質結構片段。”他們表示:“第二種方法通過梯度下降優化得分——一種常用于機器學習的數學技術,用于進行小的、漸進式的改進——以產生高度精確的結構。”
據英國《衛報》(The Guardian)報道,AlphaFold最初需要兩周時間才能產生預測,但現在可以在幾個小時內完成任務。它在CASP模擬競賽提供的43種蛋白質中,準確預測了25種,成功擊敗參與測試的其他97種算法。其中亞軍只正確預測了三個。