面對智能數(shù)據(jù)規(guī)約的挑戰(zhàn),一些物理學(xué)家嘗試使用“深度神經(jīng)網(wǎng)絡(luò)”的機器學(xué)習(xí)技術(shù)來挖掘相似事件組成的數(shù)據(jù)海洋,尋找新的物理學(xué)現(xiàn)象。
在初步使用案例中,深度神經(jīng)網(wǎng)絡(luò)通過研究大量標(biāo)記為“貓”的圖片和標(biāo)記為“狗”的圖片,學(xué)習(xí)如何區(qū)分貓和狗。然而,這種方法在尋找新粒子時并不適用,因為物理學(xué)家無法為機器提供他們從未見過的東西的圖片。因此,物理學(xué)家轉(zhuǎn)而采用所謂的“弱監(jiān)督學(xué)習(xí)”(weakly supervised learning)方法,即機器從已知粒子開始,利用細(xì)化的信息(比如總體上可能發(fā)生的頻率)來尋找罕見事件。
在今年5月份發(fā)表于科學(xué)預(yù)印本網(wǎng)站arxiv.org上的一篇論文中,三位研究人員提出應(yīng)用相關(guān)策略對“撞擊狩獵”(bump hunting)進(jìn)行擴展。這種經(jīng)典的“粒子狩獵”技術(shù)曾用于希格斯玻色子的發(fā)現(xiàn)。美國勞倫斯伯克利國家實驗室的研究者本·納赫曼(Ben Nachman)表示,具體的思路是訓(xùn)練機器在數(shù)據(jù)集中尋找罕見的變化。
試想一下,我們可以在貓狗實驗的原理基礎(chǔ)上做一個游戲:在充滿北美森林觀察記錄的數(shù)據(jù)集中尋找新的動物物種。假設(shè)任何新的動物物種都傾向于聚集在某個特定的地理區(qū)域(與新粒子圍繞某個特定質(zhì)量的概念相對應(yīng)),那算法就應(yīng)該可以通過鄰近區(qū)域的系統(tǒng)比較,將它們挑出來。如果加拿大不列顛哥倫比亞省剛好有113只馴鹿,美國華盛頓州有19只馴鹿(即使數(shù)據(jù)集中有數(shù)百萬只松鼠),那程序也能在沒有直接研究馴鹿的情況下,學(xué)會將馴鹿與松鼠區(qū)分開來。弱監(jiān)督學(xué)習(xí)研究者、俄勒岡大學(xué)的理論粒子物理學(xué)家說:“這不是魔術(shù),但感覺像魔術(shù)一樣。”
相比之下,粒子物理學(xué)中的傳統(tǒng)搜索方法通常要求研究人員對新現(xiàn)象是什么樣子做出假設(shè)。他們會創(chuàng)建一個描述新粒子行為的模型。例如,一個新粒子可能有衰變成一大群已知粒子的趨勢。只有在定義了所要尋找的東西之后,他們才能設(shè)計出自定義的搜索策略。這項工作通常需要花費一個博士研究生至少一年的時間,而納赫曼認(rèn)為,這一過程可以完成得更快、更徹底。
有研究者提出了CWoLa算法,即無標(biāo)簽分類(Classification Without Labels),可以搜索任意未知粒子的現(xiàn)有數(shù)據(jù),無論該粒子是衰變成兩個同類型未知粒子,還是兩個同類型或不同類型已知粒子。利用常規(guī)的搜索模型,LHC協(xié)作機構(gòu)可能需要至少20年時間來尋找后一種情況的可能性,而目前對前一種情況的搜索仍沒有任何結(jié)果。參與ATLAS項目的納赫曼表示,CWoLa算法可以一次完成所有這些工作。
其他實驗粒子物理學(xué)家也認(rèn)為,這將是一個很有價值的項目。在ATLAS項目中搜尋新粒子碰撞的物理學(xué)家凱特·帕查爾(Kate Pachal)說:“我們已經(jīng)分析了許多可預(yù)測的區(qū)域,因此接下來我們要開始填補那些尚未分析的角落,這是很重要的一個方向。”去年,她和一些同事就在嘗試設(shè)計一種靈活的軟件,對一系列不同質(zhì)量的粒子進(jìn)行處理,但他們中沒有人對機器學(xué)習(xí)有足夠的了解。“我想現(xiàn)在是嘗試一下的時候了,”帕查爾說道。
深度神經(jīng)網(wǎng)絡(luò)有希望在不利于目前建模工作的數(shù)據(jù)中發(fā)現(xiàn)微妙的相關(guān)性。其他機器學(xué)習(xí)技術(shù)已經(jīng)成功提高了LHC進(jìn)行特定任務(wù)的效率,比如識別由底夸克粒子產(chǎn)生的“噴注”。在這項工作中,物理學(xué)家毫無疑問也會錯過一些信號。加州大學(xué)歐文分校的粒子物理學(xué)家丹尼爾·懷特森(Daniel Whiteson)說:“他們把信息遺留在桌面上,而當(dāng)你在一個機器上花了100億美元,你不會想把信息留在桌子上。”
不過,機器學(xué)習(xí)確實充滿了程序?qū)⑹直刍煜秊閱♀彽木竟适?甚至還有更糟糕的情況)。對于LHC,有人擔(dān)心機器學(xué)習(xí)的“捷徑”最終反映的是LHC機器本身的各種小問題,而這些問題正是實驗物理學(xué)家努力想要忽視的。ATLAS項目的物理學(xué)家蒂爾·艾費特(Till Eifert)問道:“當(dāng)你發(fā)現(xiàn)一個異常時,你覺得它是新物理學(xué)突破呢,還是探測器發(fā)生了什么有意思的情況?”