在勞倫斯伯克利國家實驗室的超級計算中心,我領導國家能源研究科學計算中心NERSC的數據和分析小組。在這個角色上,我追蹤需要大數據分析來解決的前沿科學問題。超過6000個用戶使用了NERSC的超級計算平臺來解決各類科學問題,從天文學到有機生物學,從分子一直到亞原子物理。典型的數據集從十萬兆字節到帕字節不等。
盡管NERSC已經有先進的計算和存儲資源可以處理復雜邏輯,但是真正的挑戰是在于選擇可擴展的分析方法和軟件框架。在本文中,我的科研合作者和我評論了在科學數據分析中最難的一些問題,希望能夠邀請更多的數據科學社區參加到正在發展中的的科學研究工作中。
問題一:為宇宙中所有的天體創建目錄
智利帕拉納爾天文臺所與銀河系,這是世界上最先進的地面天文觀測站
來源:歐洲南方天文臺/約翰·科洛西莫,Flickr
每一天,世界各地的天文望遠鏡都在進行“巡天”以收集圖像數據集。這些數據集包含關于大量恒星、星系和類星體等宇宙天體的位置和結構的有價值信息。不幸的是,這些數據集不便于科學家們進行訪問或者共享。
由勞倫斯伯克利國家實驗室的天體物理學家、統計學家和計算機科學家組成的團隊為了尋求這一他們認為科學界最大的圖模型問題的解決方案,正在開發一個全新的、完全可生成的宇宙模型,稱為“塞萊斯”(Celeste)。通過對龐大的圖形模型使用復雜的變分推理(一個高可擴展的算法)以及分布式蒙特卡洛馬爾科夫鏈推理(MCMC-Markov Chain Monte Carlo),塞萊斯項目旨在為所有在可見宇宙中的天體創建統一的目錄。這意味著從500萬億字節的圖像數據或是約一萬億像素數據中推理O(1000億)數量級的參數。
主要合作者:大衛·施萊格爾(David Schlegel,勞倫斯伯克利國家實驗室),喬恩·麥考利夫(Jon McAuliffe,加州大學伯克利分校),以瑞恩·亞當斯(Ryan Adams,哈佛大學)
問題二:確定宇宙學的基本常量
由NyX code產生的宇宙模擬,用來在大規模并行計算器上進行大規模宇宙學模擬
來源:由普拉伯特(Prabhat)和博倫·洛林(Burlen Loring)完成的數據可視化,勞倫斯伯克利國家實驗室,經許可使用
如今宇宙中的物質結構自從宇宙大爆炸開始便受到將物質牽引到一起的重力的引力作用以及暗物質的“負壓力”膨脹的影響。為了理解宇宙的組成(例如,那里有多少物質,以及暗物質是由什么組成的),宇宙學家研究了從天文調查中得出的星系分布。隨后,他們的觀察結果與涉及幾萬億粒子的理論模擬的預測結果進行了比較。但是,這里就有一個分析問題:由于數據集的大小從30到300萬億字節不等,用于特征化物質結構的統計數據計算起來太過密集,他們包含了星系的集群、2度關聯計算以及3度關聯計算。
最近我們開發了BD-CATS系統,這是一個數據集群算法DBSCAN的高可擴展版本,它可以在超級計算平臺上完整聚集數萬億粒子數據集。BD-CATS正在幫助理解在等離子物理(關于帶電粒子和流體與電場和磁場相互作用的研究)中粒子加速背后的機制,并在宇宙學的數據聚合能力方面呈現出優越的性能。
主要合作者:黛比·巴德(Debbie Bard,勞倫斯伯克利國家實驗室),澤里亞·盧基奇(Zarija Lukic,勞倫斯伯克利國家實驗室),莫斯托法·帕特瓦里(Mostofa Patwary,英特爾)
問題三:特征化變化氣候中的極端天氣
CAM5 0.25度模擬中水蒸氣的可視化圖形
來源:由普拉伯特(Prabhat)和邁克爾·魏納(Michael Wehner)完成的數據可視化,勞倫斯伯克利國家實驗室,經許可使用
氣候變化問題是人類最為緊迫的問題之一。在NERSC,我們對于研究未來全球變暖會如何影響氣候的各種方式均深感興趣(遠遠不止是平均海平面上升和全球平均溫度上升)。我們還感興趣的是,在極端天氣事件的統計數據中檢測是否將會有氣候變化。比如颶風,在未來我們認為颶風會變得更弱還是更強?我們認為四級和五級颶風會更頻繁的登陸嗎?天氣數據分析中的一個很大的挑戰性問題是涉及到因果推理:我們是否可以識別異常事件并將它們和一些機制建立因果關系?這些機制在未來會怎樣變化?
通過分析大量數據集來識別極端天氣模式與視頻數據中的語音檢測相類似,我們不僅需要處理一百萬個網格點,每個點又有一大堆變量。解決這樣的挑戰需要我們開發出高可擴展的模式識別能力,讓我們可以挖掘100萬億字節到1帕字節的大規模時空數據集。我們已經成功應用了MapReduce框架(在極端天氣分析工具包(Toolkit for Extreme Climate Analysis)中實現),并且正在積極探索使用深度學習來解決這一問題。
主要合作者:普拉伯特(Prabhat,勞倫斯伯克利國家實驗室),邁克爾·魏納(Michael Wehner,勞倫斯伯克利國家實驗室),威廉·德魯·科林斯(William D. Collins,勞倫斯伯克利國家實驗室)
問題四:從科學文獻中抽取知識
位于紐約約克高地的沃森系統,由IBM公司開發
來源:由Clockready提供于公共維基多媒體
在互聯網的時代,對于我們來說在一瞬間發布、交流以及共享結果變得十分平凡。然而,對海量信息的便捷訪問帶來了獨有的問題:對于個人而言,對在一般科學以及特定主題的最新進展進行追蹤變得難以管理。此外,所有的信息來源并不是同等可信的,我們需要在得出重要的結論之前考慮的信息的數量和質量。最后,科學界迫切需要對科學文獻進行自動整理、挖掘和質量評估。
與這個問題關聯的數據分析的挑戰很大程度上與處理出版物中的非結構化數據有關。比如說文本、表格、圖表、圖像、原理圖、等式以及引用。每一個科學領域都有一個約定的分類法,可能編寫成文也可能沒有。因此,關鍵的挑戰是要從出版物中根據主題(比如說疾病或者療法)抽取科學實體,以知識圖譜的形式建立實體之間的關系,并且基于多條線索為實體和關系進行加權。最后,支持基于知識圖譜反饋的流利問答功能,并要具有相當置信度和關聯推理,這將對改進更廣泛的科學界的生產力十分關鍵。許多有發展前景的技術眼下正在開發之中:IBM 沃森系統慶祝了廣為人知的勝利,它在Jeopardy!(一個美國人機智能問答)大賽中戰勝了人類專家。而由斯坦福開發的DeepDive數據管理系統在一些科學領域展示了令人期待的結果。未來隨著這些技術以及類似技術的更多的定制化開發,征服更多的科學領域只是時間問題。
主要合作者:亞當·阿金(Adam Arkin,勞倫斯伯克利國家實驗室),安納博阿夫·賈恩(Anubhav Jain,勞倫斯伯克利國家實驗室),普拉伯特(Prabhat,勞倫斯伯克利國家實驗室)
問題五:研究關于語言生成的大腦皮層機制
DARPA的基于系統的神經技術新興療法項目旨在通過開發記錄和分析大腦活動的近實時神經模擬的療法來降低神經性疾病的影響程度
來源:由馬薩諸塞州總醫院和德雷珀實驗室在維基公共對媒體上提供
數十年間,人類一直試圖理解人類大腦的神經活動是如何看似毫不費力地生成語音的。大腦的哪一部分功能性組織負責計算并生成語音?功能獨立的大腦區域是如何互相溝通來產生協調模式并進而產生語音?從語言的組織到發音在大腦皮層上有哪些交互?在這個獨特的人類能力上的深入理解對于語音修復學的發展的是十分重要的,語音修復學旨在為失去語音能力的人恢復該能力。
理解大腦皮層生成語音的過程要求記錄大面積皮質上高時空分辨率的神經活動。記錄人類的這一活動只能通過侵入性腦電圖技術來完成,這使得數據非常稀有。我們最初的調查旨在將大腦活動的時空模式“翻譯”成有意連續的語音。然而這些數據有長時間的時間依賴性、大量的噪聲并且受到樣本數的限制。當前的數據集大小約在10兆字節。此外,將來自多個發言人樣本的數據組合起來是具有挑戰性的,但是也是最后成功的關鍵所在。
我們使用深度神經網絡在對感覺運動皮質上的數據基于57個元音輔音音節的分類上取得了最前沿的結果。此外,為了實現一個混合式連續分類系統,我們正在調研遞歸網絡。對于最終為人們開發的發聲器來說,用于語音生成相關的神經分析的計算組件必須是實時的且非常低能耗的。
主要合作者:克里斯·布沙爾(Kris Bouchard,勞倫斯伯克利國家實驗室),愛德華·昌(Eddward Chang,加大舊金山分校),彼得·徳內斯(Peter Denes,勞倫斯伯克利國家實驗室)
問題六:為生物成像而實現的谷歌地圖
耐甲氧西林金黃色葡萄球菌(MRSA)以及一個死人的中性粒細胞的掃描電子顯微圖
來源:由NIAID_Flickr在公共維基多媒體上提供
生命是以多尺度的形式組織和持續的,從單個蛋白質到細胞器,細胞,以及微生物群到組織,器官到生物有機體。捕獲這些數據在規模上有巨大差異,從宏觀和中觀到微觀和納米級,這要求多模態成像。然而,沒有一個單獨的成像技術可以捕獲整個范圍。此外,每一種技術提供的在不同長度、時間、分辨率上有些許互補的數據。
這一特定問題的數據分析挑戰包括分割技術、生物實體分類技術的開發,以及實現一個以地圖為中心的數據庫用以執行量化分析。這項工作的最終目標是整合所有的相關時空信息(一個大小約在100兆字節到1萬億字節的數據集)到一個通用的坐標系,從而得到統計上有意義的定量的地理信息量(例如計算一個形狀的表面積或者體積),并且將生物實體分類到一個可視化數據庫,使得它們可以通過這些地理信息的模式進行查詢。這使得生物學家可以使用定量的信息,通過三維結構標識、分子/代謝組成以及核心高分子成分(如蛋白質)的本地化等,來區分不同的疾病的狀態和發展情況。
主要合作者:曼弗·雷德奧爾(Manfred Auer,勞倫斯伯克利國家實驗室),華金·科雷亞(Joaquin Correa,勞倫斯伯克利國家實驗室)
問題七:執行極大規模基因組序列拼接
脫氧核糖核酸(DNA)的雙螺旋鏈
來源:Pixabay
從頭測序序列拼接是現在基因學中最重要的計算之一。這個過程涉及到將短小的、隨機抽樣的“鳥槍”基因序列轉化成一個連續的、準確的復雜基因組的重構。復雜基因組的重拼接要求大量序列數據。因此,由于海量的計算需求以及拼接大規模基因組和宏基因組的算法復雜度,從頭拼接已經不能跟上洪水般的數據(大約在1到10萬億字節)的步伐。例如,高重復度的小麥基因組比人類的大五倍,從結合復雜度和規模來看,這樣的拼接、映射是特別具有挑戰的。
在從頭測序基因組拼接中,起始處理和數據約簡(K-mer分析法)是受到帶寬約束的,隨后的徳布魯金圖(de Bruijn graph)的構造和遍歷是受到延遲約束的,序列對齊是受到計算量限制的。許多針對低直徑圖開發的圖處理技術不適用于徳布魯金圖,因為它有非常低的度和大直徑。我們通過HipMer系統來解決這一挑戰。這是一個高性能、端對端的基因序列拼接器,通過并行地在一個超級計算機的多集群上同時執行代碼,從而簡化和加速基因組拼接以及映射。以前需要花費數月的處理過程,比如拼接整個人類的基因組,現在能在大約8分鐘之內完成。
主要合作者:伊萬格洛斯·喬格納斯(Evangelos Georganas,加州大學伯克利分校),艾登·布拉克(Aydin Buluc,加州大學伯克利分校),丹·洛克薩(Dan Rokhsar,加州大學伯克利分校),凱西·伊列克(Kathy Yelick,勞倫斯伯克利國家實驗室)
問題八:采用精確的毒理學
淡水加殼水蚤被用于研究化學物質對生態的影響,最近也被用于研究對人類的影響
來源:由基爾大學的簡·米歇爾斯(Jan Michels)博士提供,經允許使用
大約80%的新藥因為不可預期的對人體的毒性而失敗。此外,每年有超過500種的基礎工業用化學品被開發,其中的大部分將不會接受任何種類的毒性檢測。毒理學是一種我們所依賴的科學原理,來保護我們不受癌癥、出生缺陷、心血管以及神經退化性疾病的侵害。對它們的風險評估仍然依賴于一個較小集合的模型物種,每種化合物要花費超過五年的時間以及超過150萬美元。通過風險評估,我們了解到了致命劑量,以及在一些情況下的最小致病劑量。但是我們對于毒理機制一無所知。
我們每個人有獨特的生活史、遺傳基因、微生物以及生理特征,它們相互作用產生我們個性化的對周邊環境挑戰的易受影響的部分和適應恢復的能力。毒物對于胎兒的影響與成人完全不同,在一個基因背景下有效的藥物可能對于另外一個人來說極少的劑量都是致命的。
盡管我們不能在每一種遺傳基因背景,甚至是每一種最終的受眾物種上測試每一種化合物,但是我們可以通過可得到的、性價比高的數據將毒物與毒理畫像以及中毒后的分子狀態關聯起來。我們可以認識個體易受性的基礎,并將我們的易得的疾病和毒性反應映射到整個生命樹上。利用生物科學的潛力來達到準確的毒理學測試將使得在產品的開發前期就可以進行精確的分析和風險評估,有助于減少開發的開銷。
這個問題天生就是一個計算問題,并對我們的社會和星球是一個巨大的挑戰。我們對于這一挑戰的最主要的解決方案是分子系統毒理學(在多物種環境下暴露生物體):我們以一小群易馴服的生物為模型進行測試,然后使用定量的生物進化工具(包括針對多物種分析的新形式的張量回歸、應用量子計算的路徑發現、深度學習以及基于隨機森林的回顧學習機)來對公共祖先和所有的現存物種做出預測。這一方案是通過映射和利用大約18萬億字節的高容量數據集來完成的。在兩年之內,我們預期這些數據集的大小將會增長到1帕字節。
主要合作者:本·布朗(Ben Brown,勞倫斯伯克利國家實驗室),約翰·科爾伯恩(John Colbourne,英國伯明翰大學)以及環境學和毒理學協會
問題九:尋找新設計材料
部分被孔雀石覆蓋的銅礦石和赤銅礦
來源:由Didier Descouens在公共維基多媒體上提供
技術創新很大程度上受新材料的發現所驅動。我們經常被給到一組理想中的材料屬性(例如:硬度、透明度、電導率、可承受電壓等),并要求發現具有這些屬性的材料的挑戰。如今的計算機模型可以近似可靠地預測材料的屬性,并且有收集了上千種這類預測的數據庫可供使用。例如,Materials Project 是一個公開可訪問的數據庫,該數據庫在NERSC收集了成千上萬種材料的信息。下一步是分析這一龐大的數據集(大約100萬億字節),測試和發現新的解釋材料行為的科學原理,展現復雜的數據(例如,周期性三維水晶),并將發現和開發新材料所需要的時間從現在的大約20年減少到很短的時間。
材料的自動化分析要求我們解決兩個關鍵問題:自動化特征學習以及高維回歸。一旦這些問題被解決了,那么我們可以想像一個在線系統,它能自適應地探索材料部分選定的設計空間來決定最有前景的值得模擬和制造的材料。
主要合作者:安納博阿夫·賈恩(Anubhav Jain,勞倫斯伯克利國家實驗室),克里斯丁·佩爾松(Kristin Persson,勞倫斯伯克利國家實驗室)
問題十:決定物質的基本成分
歐洲粒子物理研究的大型強子對撞機(LHC)的CMS檢測器內部視圖,大型強子對撞機是一個粒子加速器和碰撞器。人們希望大型強子對撞機成為世界上最大的能量最高的粒子加速器。
來源:由Tighef在公共維基多媒體上提供
高能粒子物理旨在從最基本的亞原子層面了解宇宙的秘密。盡管我們的了解已經進步了不少,并在最近發現希格斯玻色子后達到一個高峰,但是我們知道仍然有許多關鍵的未解之謎需要解決,比如暗物質的來源以及重力在萬物理論中扮演怎樣的角色。探索這些未解之謎需要最龐大最復雜的實驗設施。比如,大亞灣反應堆中微子實驗就是這樣一個例子,它旨在推進我們對于中微子的了解。中微子是由衰減中的放射性元素生成的,比亞原子粒子少一個電子。另外一個例子是大型強子對撞機,它有所有粒子加速器中的最高能量,旨在發現從未見過的粒子和相互作用。
這些設備使用了數十億管道的模式和異常檢測器,以納秒的精確度收集數據,產生了極大規模的數據管道。其數據集大小從上百萬億字節到上百帕字節,快速而準確的分析是很有必要的。這一領域已經應用“模式檢測”技術有一段時間了,但是用它們直接對物理事件在原始數據的規模下進行分類仍然是一個挑戰。我們目前使用深度神經網絡來學習新的數據的高層次表達方式。轉化后的數據將會被用于快速的數據分析,包括信號和背景源的可視化和特征化。
主要合作者:克雷格·塔爾(Craig Tull,勞倫斯伯克利國家實驗室),瓦希德·佩姆奇(Wahid Bhimji,勞倫斯伯克利國家實驗室),彼得·薩多夫斯基(Peter Sadowski,加州大學歐文分校)
作者:普拉伯特(Prabhat) 普拉伯特在勞倫斯伯克利國家實驗室以及美國能源部經營的國家能源研究科學計算中心NERSC帶領數據和分析服務小組。他的研究方向包括數據分析(統計學、機器學習)、數據管理(并行讀寫、數據格式、數據模型)、科學可視化以及高性能計算。普拉伯特在2001年獲得布朗大學計算機科學碩士學位,1999年在印度新德里理工學院所獲得計算機科學與工程學士學位。他目前在加州大學伯克利分校的地球與行星科學系就讀博士學位。