人工智能如何幫助科學(xué)家尋找新粒子？

責(zé)任編輯：zsheng |來源：企業(yè)網(wǎng)D1Net 2018-09-13 11:33:55 本文摘自：新浪科技

新浪科技訊北京時間9月13日消息，據(jù)國外媒體報道，大型強子對撞機(LHC)可以在一秒鐘之內(nèi)撞擊十億對質(zhì)子。有時，這臺巨大的機器可能會給現(xiàn)實世界帶來驚喜，因為在少數(shù)碰撞中，會產(chǎn)生一些前所未有的東西。但是，這樣的驚喜并沒有什么規(guī)律可言，物理學(xué)家并不確切知道要尋找什么。他們擔(dān)心，在將數(shù)十億次碰撞所獲得的數(shù)據(jù)梳理成更易管理的數(shù)字時，可能會無意中刪掉物理學(xué)新理論的證據(jù)。在歐洲核子研究中心(CERN)參與超環(huán)面儀器(ATLAS)實驗的紐約大學(xué)粒子物理學(xué)家凱爾·克蘭默(Kyle Cranmer)說：“我們總是擔(dān)心自己會把嬰兒和洗澡水一起倒掉。”

面對智能數(shù)據(jù)規(guī)約的挑戰(zhàn)，一些物理學(xué)家嘗試使用“深度神經(jīng)網(wǎng)絡(luò)”的機器學(xué)習(xí)技術(shù)來挖掘相似事件組成的數(shù)據(jù)海洋，尋找新的物理學(xué)現(xiàn)象。

在初步使用案例中，深度神經(jīng)網(wǎng)絡(luò)通過研究大量標(biāo)記為“貓”的圖片和標(biāo)記為“狗”的圖片，學(xué)習(xí)如何區(qū)分貓和狗。然而，這種方法在尋找新粒子時并不適用，因為物理學(xué)家無法為機器提供他們從未見過的東西的圖片。因此，物理學(xué)家轉(zhuǎn)而采用所謂的“弱監(jiān)督學(xué)習(xí)”(weakly supervised learning)方法，即機器從已知粒子開始，利用細(xì)化的信息(比如總體上可能發(fā)生的頻率)來尋找罕見事件。

在今年5月份發(fā)表于科學(xué)預(yù)印本網(wǎng)站arxiv.org上的一篇論文中，三位研究人員提出應(yīng)用相關(guān)策略對“撞擊狩獵”(bump hunting)進(jìn)行擴展。這種經(jīng)典的“粒子狩獵”技術(shù)曾用于希格斯玻色子的發(fā)現(xiàn)。美國勞倫斯伯克利國家實驗室的研究者本·納赫曼(Ben Nachman)表示，具體的思路是訓(xùn)練機器在數(shù)據(jù)集中尋找罕見的變化。

試想一下，我們可以在貓狗實驗的原理基礎(chǔ)上做一個游戲：在充滿北美森林觀察記錄的數(shù)據(jù)集中尋找新的動物物種。假設(shè)任何新的動物物種都傾向于聚集在某個特定的地理區(qū)域(與新粒子圍繞某個特定質(zhì)量的概念相對應(yīng))，那算法就應(yīng)該可以通過鄰近區(qū)域的系統(tǒng)比較，將它們挑出來。如果加拿大不列顛哥倫比亞省剛好有113只馴鹿，美國華盛頓州有19只馴鹿(即使數(shù)據(jù)集中有數(shù)百萬只松鼠)，那程序也能在沒有直接研究馴鹿的情況下，學(xué)會將馴鹿與松鼠區(qū)分開來。弱監(jiān)督學(xué)習(xí)研究者、俄勒岡大學(xué)的理論粒子物理學(xué)家說：“這不是魔術(shù)，但感覺像魔術(shù)一樣。”

相比之下，粒子物理學(xué)中的傳統(tǒng)搜索方法通常要求研究人員對新現(xiàn)象是什么樣子做出假設(shè)。他們會創(chuàng)建一個描述新粒子行為的模型。例如，一個新粒子可能有衰變成一大群已知粒子的趨勢。只有在定義了所要尋找的東西之后，他們才能設(shè)計出自定義的搜索策略。這項工作通常需要花費一個博士研究生至少一年的時間，而納赫曼認(rèn)為，這一過程可以完成得更快、更徹底。

有研究者提出了CWoLa算法，即無標(biāo)簽分類(Classification Without Labels)，可以搜索任意未知粒子的現(xiàn)有數(shù)據(jù)，無論該粒子是衰變成兩個同類型未知粒子，還是兩個同類型或不同類型已知粒子。利用常規(guī)的搜索模型，LHC協(xié)作機構(gòu)可能需要至少20年時間來尋找后一種情況的可能性，而目前對前一種情況的搜索仍沒有任何結(jié)果。參與ATLAS項目的納赫曼表示，CWoLa算法可以一次完成所有這些工作。

其他實驗粒子物理學(xué)家也認(rèn)為，這將是一個很有價值的項目。在ATLAS項目中搜尋新粒子碰撞的物理學(xué)家凱特·帕查爾(Kate Pachal)說：“我們已經(jīng)分析了許多可預(yù)測的區(qū)域，因此接下來我們要開始填補那些尚未分析的角落，這是很重要的一個方向。”去年，她和一些同事就在嘗試設(shè)計一種靈活的軟件，對一系列不同質(zhì)量的粒子進(jìn)行處理，但他們中沒有人對機器學(xué)習(xí)有足夠的了解。“我想現(xiàn)在是嘗試一下的時候了，”帕查爾說道。

深度神經(jīng)網(wǎng)絡(luò)有希望在不利于目前建模工作的數(shù)據(jù)中發(fā)現(xiàn)微妙的相關(guān)性。其他機器學(xué)習(xí)技術(shù)已經(jīng)成功提高了LHC進(jìn)行特定任務(wù)的效率，比如識別由底夸克粒子產(chǎn)生的“噴注”。在這項工作中，物理學(xué)家毫無疑問也會錯過一些信號。加州大學(xué)歐文分校的粒子物理學(xué)家丹尼爾·懷特森(Daniel Whiteson)說：“他們把信息遺留在桌面上，而當(dāng)你在一個機器上花了100億美元，你不會想把信息留在桌子上。”

不過，機器學(xué)習(xí)確實充滿了程序?qū)⑹直刍煜秊閱♀彽木竟适?甚至還有更糟糕的情況)。對于LHC，有人擔(dān)心機器學(xué)習(xí)的“捷徑”最終反映的是LHC機器本身的各種小問題，而這些問題正是實驗物理學(xué)家努力想要忽視的。ATLAS項目的物理學(xué)家蒂爾·艾費特(Till Eifert)問道：“當(dāng)你發(fā)現(xiàn)一個異常時，你覺得它是新物理學(xué)突破呢，還是探測器發(fā)生了什么有意思的情況?”

關(guān)鍵字：科學(xué)家智能