Atomly作為材料數據庫中的“后起之秀”,不僅集各個前輩之大成,還在某些方面超越了其前輩們,甚至實現了諸多創新功能。
自2020年8月正式上線以來,由中國科學院物理研究所、松山湖材料實驗室、懷柔材料基因研究平臺共同打造的材料科學數據庫Atomly,注冊人數已經突破1000人。“該數據庫填補了我國材料學領域無大型數據庫的空白。”中國科學院物理研究所特聘研究員、Atomly材料數據庫開創人劉淼說。
此前,世界其他國家,例如美國、德國、瑞士、日本等都建立了屬于自己的材料科學數據庫。材料科學數據庫把材料的基本性能,如原子結構、電子結構、穩定性、力學性能等信息,帶到了研究人員觸手可及之處,由此引發了材料科學研究方式的革命性進步。例如,近期興起的材料基因組方法的核心思想就是借助材料大數據方法提升材料科學的研發效率,降低研發成本。
由此基礎出發,Atomly作為材料數據庫中的“后起之秀”,不僅集各個前輩之大成,還在某些方面超越了其前輩們,甚至實現了諸多創新功能。
像鋼鐵俠一樣制作材料
美國漫威經典人物鋼鐵俠在全息投影中點擊幾個化學元素,就能得到由其合成的材料的相關數據,并由電腦匹配出最符合要求的復合材料。
這樣的電影場景作為劉淼講解Atomly系統PPT的開頭,引發了不少聽他講座的觀眾興趣。事實上,Atomly系統雖然不是全息界面,但是在電腦屏幕上的操作界面確實由元素周期表組成。“如果用戶想要查詢某種化合物的性能,只需要點擊化合物的元素組成,系統會自動彈出所有與之相關的化合物。”劉淼講解到。
到目前為止,Atomly已經收錄了17萬余種材料的相關數據,這些材料包含了經過數據庫比對去重后的無機晶體結構數據庫 (ICSD) 中的大部分結構。劉淼解釋說,ICSD在實驗合成及晶體研究領域久負盛名,也包含了一大批以往DFT計算研究中提出的假想結構。因此,Atomly內含的材料數據不僅全面,而且和材料實驗的聯系十分緊密。
材料庫不僅提供已知化合物查詢,也為材料創新提供更多可能。“面對嘗試新材料的研究人員,我們開發了Run4U這一功能。這一功能支持用戶在線自主上傳新的結構,我們的后臺會對這些結構進行初步的篩選,如果數據庫中真的沒有包含,就會自動進行第一性原理計算,兩三天后用戶便可在列表中看到想要的計算結果。”劉淼表示。這一功能也同樣適用于不熟悉第一性原理計算軟件的用戶。使用Run4U功能時,用戶可以“零學習成本”獲得指定材料的DFT的計算數據;同時,計算的結果可以自動被后臺分析入庫,能復查、復用。
為材料學不斷突破提供可能
愛迪生嘗試了成百上千次才成功找到適合做燈絲的材料。從那時起到LED燈的出現,又過去了120年。由此可見,材料的研發過程十分緩慢。但是通過高通量計算,材料大數據讓人工智能尋找新材料,卻能讓新材料研發過程不斷縮短。過去70年人類平均每年發現3.3個氮化物材料,但是美國加州大學伯克利分校的Ceder組通過高通量計算等材料大數據方法,一年內發現了92種新材料,并用實驗合成7種。
“我國研究人員一直使用國外材料數據庫,國外數據庫不但對國內研究人員在材料信息顯示上有所保留,而且對我國的數據安全也有威脅。對方能通過監測我國研究人員訪問行為獲得我們材料研發的信息,不利于我國材料學的發展。”劉淼坦言。Atomly的上線徹底改變了這一現狀。
為了更好地讓人工智能學習勢函數,劉淼與其他研究人員一起開發了一套精準的機器學習勢函數工具包(HAAIFF),可以精確擬合分子動力學中所需的體系能量、原子受力等參量。
此外,在保證精準的前提下,研究人員對程序包進行了優化,使其可在GPU上進行訓練以及預測,極大提高了該機器學習勢函數的速度,為運行分子動力學提供了便利。用戶可以同時獲得密度泛函理論計算的精度和經典分子動力學的速度。該工具包可供用戶自行使用。同時,為了節省用戶收集DFT計算數據帶來的成本,研究人員還提供了由該工具包訓練的機器學習勢函數庫,用戶可在這些函數庫的基礎上,進行二度訓練,這樣既可以節省收集數據時間,又可以擴增機器學習勢函數適用范圍。
上線僅僅是一個開始
材料是人類社會的物質基礎,實現材料的按需設計是一直以來人類的終極夢想。如今,材料計算已經成為指導新材料研發的常規方法。
劉淼表示,材料基因工程是物理所近期布局的重要發展領域,Atomly的上線僅僅是一個開始。目前,仍有數以萬計的新結構正在計算,各材料的介電函數、聲子譜等重要且獨特的物理信息也正在上線的路上。
在擁有材料大數據積累的前提下,機器學習等更多新型人工智能方法將使材料數據庫的整體性和優越性不斷完善和提高,為新材料的研發提供更加智能的捷徑。