我們生活在一個(gè)互聯(lián)實(shí)體(entities)構(gòu)成的復(fù)雜世界中。人類(lèi)涉足的所有領(lǐng)域,從生物學(xué)到醫(yī)學(xué)、經(jīng)濟(jì)學(xué)和氣候科學(xué),都充滿(mǎn)了大規(guī)模數(shù)據(jù)集。
這些數(shù)據(jù)集將實(shí)體(entities)模擬為節(jié)點(diǎn)、節(jié)點(diǎn)之間的連接被模擬為邊(edges),從不同且互補(bǔ)的角度描述著復(fù)雜的真實(shí)世界系統(tǒng)。這些網(wǎng)絡(luò)化數(shù)據(jù)是特定領(lǐng)域信息的新的豐富來(lái)源,不過(guò),目前,大部分信息卻隱藏在這種復(fù)雜連接模式(wiring patterns)中。
首當(dāng)其沖的就是解碼這些模式,因?yàn)橛?jì)算分析大型網(wǎng)絡(luò)通常會(huì)很棘手,以至于我們關(guān)于這個(gè)世界的許多疑問(wèn)都無(wú)法得到準(zhǔn)確回答,即使我們擁有不受限制的計(jì)算機(jī)性能和時(shí)間[1]。因此,唯一的希望就是近似地回答這些問(wèn)題(亦即啟發(fā)式地)并且證明在最糟糕的情況下,這個(gè)近似回答距離確切的未知答案有多遠(yuǎn)。
本期《科學(xué)》中, Benson 等人[2] 往這一方向邁出了重要的一步——提出了一種可升級(jí)( scalable)的啟發(fā)式框架:用于基于連接模式的實(shí)體(entities)分組,以及用發(fā)現(xiàn)的模式揭示出幾個(gè)真實(shí)世界網(wǎng)絡(luò)化系統(tǒng)的高位階組織原則。
摘要:網(wǎng)絡(luò)是理解和建模物理、生物、神經(jīng)科學(xué)、工程學(xué)和社會(huì)科學(xué)中復(fù)雜系統(tǒng)的基礎(chǔ)工具。許多網(wǎng)絡(luò)以展現(xiàn)出能夠在單個(gè)節(jié)點(diǎn)和邊的水平上被獲取的豐富、低階連接模式著稱(chēng)。但是,大部分復(fù)雜網(wǎng)絡(luò)的高階組織——在小型網(wǎng)絡(luò)子圖(subgraph)水平上——在很大程度上仍然未知。我們開(kāi)發(fā)出了一種通用框架(generalized framework),用于在高階連接模式基礎(chǔ)上聚類(lèi)網(wǎng)絡(luò)。該框架為已獲聚類(lèi)的最優(yōu)性提供了數(shù)學(xué)保證,并能擴(kuò)展到帶有數(shù)十億個(gè)邊的網(wǎng)絡(luò)。該框架也揭示了許多網(wǎng)絡(luò)的高階組織,包括神經(jīng)元網(wǎng)絡(luò)的信息傳播單元和交通運(yùn)輸網(wǎng)絡(luò)的樞紐結(jié)構(gòu)。結(jié)果表明,這些網(wǎng)絡(luò)展現(xiàn)出了豐富的高階組織結(jié)構(gòu),該結(jié)構(gòu)可以在高階連接模式的基礎(chǔ)上通過(guò)聚類(lèi)的方式揭露出來(lái)。
為了挖掘網(wǎng)絡(luò)化數(shù)據(jù)連接模式,揭示出功能組織,僅考慮簡(jiǎn)單描述符號(hào)是不夠的,比如每個(gè)實(shí)體(亦即節(jié)點(diǎn))和其他實(shí)體(亦即節(jié)點(diǎn)度,node degree)的互作用數(shù)量,因?yàn)樵谶@種簡(jiǎn)單描述符號(hào)層面,兩個(gè)網(wǎng)絡(luò)可能等同,但它們的連接結(jié)構(gòu)非常不同(見(jiàn)圖)。
相反,Benson 等人使用了叫做圖元 (graphlets, 例如三角形) 的高階描述符,它建立在小型子網(wǎng)絡(luò)基礎(chǔ)上,這些小型子網(wǎng)絡(luò)來(lái)自一個(gè)數(shù)據(jù)中的節(jié)點(diǎn)子集,這個(gè)節(jié)點(diǎn)子集包含了出現(xiàn)在數(shù)據(jù)中的所有交互作用[3] 。他們僅用少數(shù)幾個(gè)跨區(qū)域邊界的特定圖元實(shí)例,就鑒別出富含某個(gè)特定圖元類(lèi)型實(shí)例的網(wǎng)絡(luò)區(qū)域。如果這種圖元類(lèi)型是預(yù)先指定的,那么,這種方法就能發(fā)現(xiàn)通過(guò)這個(gè)圖元互連的節(jié)點(diǎn), 它也幫助 Benson 等人將線蟲(chóng)神經(jīng)元網(wǎng)絡(luò)(控制某類(lèi)行動(dòng)的網(wǎng)絡(luò))中的20個(gè)神經(jīng)元成功地組在一起。
該方法正是通過(guò)這種方式將局部連接模式 ( local wiring patterning)與由之強(qiáng)加的高階結(jié)構(gòu)模塊化結(jié)合起來(lái)的,揭示出網(wǎng)絡(luò)化數(shù)據(jù)中高階功能區(qū)域。
網(wǎng)絡(luò)結(jié)構(gòu)
下述四種網(wǎng)絡(luò)大小相同(節(jié)點(diǎn)和邊的數(shù)量也相等),每個(gè)網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)度(與其他節(jié)點(diǎn)交互作用的數(shù)量)也相同,但是,每個(gè)網(wǎng)絡(luò)卻結(jié)構(gòu)各異。
這一研究結(jié)果的重要性在于:可用于大范圍的網(wǎng)絡(luò)化 RNA 以及被翻譯成蛋白質(zhì),它使用各種各樣的三維結(jié)構(gòu)來(lái)實(shí)現(xiàn)特定的細(xì)胞功能。分子互動(dòng)會(huì)被不同的高通量生物技術(shù)捕獲,而且還可以用不同網(wǎng)絡(luò)類(lèi)型加以模擬。對(duì)分子網(wǎng)絡(luò)的個(gè)體分析已經(jīng)揭示出:擁有相似功能的分子趨于聚集在一個(gè)網(wǎng)絡(luò)中并以相似的方式連接起來(lái) [13] ,讓我們更好理解基因功能 [6] 以及細(xì)胞的分子組織 [7]并且促進(jìn)了療法(therapeutics)發(fā)展 [8-12]。
圖一:高階網(wǎng)絡(luò)結(jié)構(gòu)以及高階網(wǎng)絡(luò)聚簇框架。(A)高階結(jié)構(gòu)由網(wǎng)絡(luò)模體(network motifs)獲取。例如,圖為所有 13 種互連的三節(jié)點(diǎn)有方向模體。(B)基于模體 M7 的網(wǎng)絡(luò)的聚類(lèi)。對(duì)于給定的模體 M,我們的架構(gòu)的目標(biāo)是找到能最小化模體傳導(dǎo)率(motif conductance)ΦM(S) 的節(jié)點(diǎn)的集合 S;模體傳導(dǎo)率的定義是模體切割(motif cut)(實(shí)心三角形切割)的數(shù)量與模體 S 或模體 (13)例子中節(jié)點(diǎn)的最小數(shù)量之比。本例中有一個(gè)模體切割。(C)高階網(wǎng)絡(luò)聚類(lèi)框架。給定的一個(gè)相關(guān)的圖形和模體(本例中為 M7)后,該框架通過(guò)計(jì)數(shù)雙節(jié)點(diǎn)在該模體中共現(xiàn)(co-occur)的次數(shù)來(lái)構(gòu)成一個(gè)模體鄰接矩陣(motif adjacency matrix)(Wm)。然后再計(jì)算該模體鄰接矩陣的拉普拉斯變換(Laplacian transformation)的特征向量。由該特征向量的成分提供的節(jié)點(diǎn)排序 σ 產(chǎn)生了不斷變大的 r 的嵌套集合(nested sets)Sr={σ1,...,σr}。我們證明了帶有基于傳導(dǎo)率 ΦM(Sr) 的最小模體的集合 Sr 是接近最優(yōu)的高階聚類(lèi)。
然而,就所研究現(xiàn)象而言,每種網(wǎng)絡(luò)類(lèi)型提供的信息都是有限的。例如,一種疾病很少是單個(gè)變異基因或單個(gè)遭受破壞的分子相互作用所致,而是細(xì)胞內(nèi)、細(xì)胞間互動(dòng)造成的多重?cái)_動(dòng)產(chǎn)物。
網(wǎng)絡(luò)醫(yī)學(xué) (network medicine) 將網(wǎng)絡(luò)分析和數(shù)據(jù)整合結(jié)合起來(lái),挖掘補(bǔ)充數(shù)據(jù)中的財(cái)富,并揭示出貌似無(wú)關(guān)疾病之間的普遍分子機(jī)制 [8-11]。與之相反,患有看似相同疾病的病人,發(fā)病的分子機(jī)制可能不同,他們對(duì)治療的反應(yīng)也可能不同(例如:癌癥異質(zhì)性)[8-11]。因此,個(gè)性化醫(yī)療的目的在于基于單個(gè)病人基因和分子特征,為病人提供個(gè)性化療法,這可能涉及到根據(jù)不同病患分組,改變已知藥物用途,進(jìn)而緩解開(kāi)發(fā)新藥所需成本和時(shí)間給制藥行業(yè)帶來(lái)的瓶頸 [11,12]。
對(duì)于這些尚處初期的領(lǐng)域來(lái)說(shuō),分析和整合網(wǎng)絡(luò)數(shù)據(jù)的方法將是基礎(chǔ),只有全盤(pán)挖掘所有可得基因、分子和臨床數(shù)據(jù) ,才有可能全面理解相關(guān)情況[11]。
圖二:秀麗隱桿線蟲(chóng)神經(jīng)元網(wǎng)絡(luò)的高階聚簇 (A)四節(jié)點(diǎn)雙扇模體(The four-node bi-fan motif),在神經(jīng)網(wǎng)絡(luò)(1)中被過(guò)度表達(dá)。直觀上看,這個(gè)模體描述了從左邊節(jié)點(diǎn)向右邊節(jié)點(diǎn)傳遞合作繁殖信息的過(guò)程。(B)秀麗隱桿線蟲(chóng)額葉神經(jīng)元網(wǎng)絡(luò)的高階聚簇以(A)中的模體為基礎(chǔ)。這個(gè)聚簇包含了作為信源的 3 個(gè)帶有多個(gè)外向連接的環(huán)狀運(yùn)動(dòng)神經(jīng)元(REML,-V,和 -R;青色),6 個(gè)作為目的地信息的帶有多個(gè)內(nèi)向連接的內(nèi)唇感覺(jué)神經(jīng)元(IL2DL ,-VR,-R,-DR,和 -L;橘色),4個(gè) 作為中介的URA 運(yùn)動(dòng)神經(jīng)元(紫色)。這些 RME 神經(jīng)元已被提為這個(gè)神經(jīng)環(huán)的先導(dǎo),而 IL2 神經(jīng)元是已知的瞬眼調(diào)節(jié)器,同時(shí)這個(gè)高階聚簇會(huì)暴露它們的組織。這個(gè)聚簇也揭示了 RIH 是信息處理過(guò)程中的一個(gè)關(guān)鍵媒介。這個(gè)神經(jīng)元有來(lái)自 3 個(gè) REM 神經(jīng)元的傳入鏈接,與 6 個(gè)IL2 神經(jīng)元中的 5 個(gè)相連的外向連接,和該聚簇中總數(shù)最大的連接,它連接了該聚簇中任何一個(gè)神經(jīng)元。(C)整個(gè)神經(jīng)網(wǎng)絡(luò)環(huán)境中的II-lustration 高階聚簇。節(jié)點(diǎn)位置在這些神經(jīng)元的真正二維空間嵌入的地方。大部分信息從左向右流動(dòng),而且我們看到 RMEV,-R,和 -L與 RIH 是作為右邊神經(jīng)元的信息源。
全面分析互連世界,需要概念以及方法論范式的轉(zhuǎn)換。
不要孤立分析單個(gè)數(shù)據(jù)來(lái)源,例如基因序列比對(duì)( aligning genetic sequences )(它已經(jīng)革新了我們對(duì)生物學(xué)的理解)[14],在單個(gè)框架中比對(duì)所有類(lèi)型的數(shù)據(jù)——「數(shù)據(jù)比對(duì)(the data alignment)」才會(huì)帶來(lái)更為深入的洞見(jiàn)。
例如,一個(gè)細(xì)胞所有基因的和分子互動(dòng)數(shù)據(jù),可以整合進(jìn)同一個(gè)計(jì)算框架中,而且我們需要研發(fā)出一些方法,在一個(gè)新的「細(xì)胞比對(duì)(the cell alignment)」范式中比對(duì)這些「整合細(xì)胞(integrated cells)」。
同樣,我們已經(jīng)分別研究過(guò)了世界經(jīng)濟(jì)系統(tǒng),包括貿(mào)易網(wǎng)絡(luò)、金融交易、投資等[3,5] 。但是,對(duì)財(cái)富起源、危機(jī)和經(jīng)濟(jì)復(fù)蘇的理解只能來(lái)自對(duì)比和整體分析所有層面的網(wǎng)絡(luò)化經(jīng)濟(jì)和地緣政治數(shù)據(jù)。同樣,氣候測(cè)量的結(jié)果也是通過(guò)不同網(wǎng)絡(luò)類(lèi)型編碼跨地理區(qū)域的各種氣候元素獲得(例如:風(fēng)速、氣壓和溫度)之間的關(guān)系 [4],而且,全盤(pán)的數(shù)據(jù)對(duì)齊分析或許有助于解釋這種復(fù)雜動(dòng)態(tài)系統(tǒng),并且更好預(yù)測(cè)人為改變帶來(lái)的影響。
可以抓住數(shù)據(jù)高階結(jié)構(gòu)復(fù)雜性的數(shù)學(xué)形式體系(Mathematical formalisms),連同從那些數(shù)學(xué)形式體系中計(jì)算和提取信息的算法[15],應(yīng)當(dāng)?shù)玫桨l(fā)展和應(yīng)用。將 Benson 等人 的框架擴(kuò)展到用于在這些整合和對(duì)齊的數(shù)據(jù)系統(tǒng)中發(fā)現(xiàn)高階結(jié)構(gòu),可能是未來(lái)的發(fā)展路向。
源于數(shù)據(jù)規(guī)模巨大、復(fù)雜、異質(zhì)、噪音以及不同時(shí)空尺度的計(jì)算問(wèn)題,仍然需要加以解決。
圖三:加拿大和美國(guó)機(jī)場(chǎng)網(wǎng)絡(luò)的高階譜分析。(A)在我們的分析中使用的三種高階結(jié)構(gòu)。每一個(gè)模體。每一個(gè)模體都「掛靠」于藍(lán)色的節(jié)點(diǎn) i 和 j,這意味著我們的框架只能尋找將藍(lán)色節(jié)點(diǎn)聚類(lèi)在一起。特別地,該模體鄰接矩陣會(huì)根據(jù)第三個(gè)中間節(jié)點(diǎn)(綠色方塊)而為 (i,j) 邊增加權(quán)重。前兩個(gè)模體對(duì)應(yīng)于高度互連的城市,而最右邊的模體是非樞紐與非樞紐的連接。(B)美國(guó)人口最多的 50 個(gè)城市,每個(gè)城市分別對(duì)應(yīng)于網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn)。邊厚度正比于模體鄰接矩陣中的權(quán)重 Wm。厚的黑色線表示較大權(quán)重對(duì)應(yīng)于流行的主線路徑。(C)由 Wm 的標(biāo)準(zhǔn)拉普拉斯的前兩個(gè)非平凡特征向量(nontrivial eigenvector)的它們的對(duì)應(yīng)成分提供的節(jié)點(diǎn)嵌入。其中標(biāo)注城市中有 8 個(gè)城市是美國(guó)最大的樞紐(綠色)、有 3 個(gè)是西海岸非樞紐(紅色)、還有 3 個(gè)是東海岸的非樞紐。主要的譜坐標(biāo)(spectral coordinate)(從左至右)說(shuō)明了城市的樞紐程度,而第二個(gè)譜坐標(biāo)(從上至下)表示的是西到東的地理分布。(D)由標(biāo)準(zhǔn)的、基于邊的(非高階)標(biāo)準(zhǔn)拉普拉斯的前兩個(gè)非平凡特征向量中的對(duì)應(yīng)成分提供的節(jié)點(diǎn)嵌入。該方法沒(méi)有獲取由高階方法發(fā)現(xiàn)的樞紐和地理。比如,最大的樞紐亞特蘭大位于嵌入的中心,和非樞紐城市 Salina 緊鄰。
參考文獻(xiàn)和注釋
1. M. R. Garey, D. S. Johnson, Computers and Intractability: A Guide to the Theory of NP-Completeness (Freeman, New York, 1979).
2. A. R. Benson et al., Science 353, 163 (2016).
3. O.N. Yavero lu et al., Sci. Rep.4, 4547 (2014).
4. K. Steinhaeuser, A. A. Tsonis, Clim. Dyn.42, 1665 (2014).
5. P. Glasserman, H. P. Young, J. Bank. Financ.50, 383 (2015).
6. R. Sharan et al., Mol. Syst. Biol.3, 1 (2007).
7. K. Mitra et al., Nat. Rev. Genet. 14, 719 (2013).
8. A.L. Barabási et al., Nat. Rev. Genet.12, 1 (2011).
9. J. Menche et al., Science 347, 6224 (2015).
10. M. itnik et al., Sci. Rep.3, 3202 (2013).
11. V. Gligorijevic et al., Proteomics 16, 741 (2016).
12. S. M. Strittmatter, Nat. Med.20, 590 (2014).
13. D. Davis et al., Bioinformatics 31, 1632 (2015).
14. J. Alfoldi, K. Lindblad-Toh, Genome Res.23, 1063 (2013).
15. S. Boccaletti et al., Phys. Rep.544, 1 (2014).
本文選自:Sciencemag,作者:Nata a Pr ulj 、No l Malod-Dognin,機(jī)器之心編譯;
機(jī)器之心,最專(zhuān)業(yè)的前沿科技媒體和產(chǎn)業(yè)服務(wù)平臺(tái),每日提供優(yōu)質(zhì)產(chǎn)業(yè)資訊與深度思考,歡迎關(guān)注微信公眾號(hào)「機(jī)器之心」(almosthuman2014),或登錄機(jī)器之心網(wǎng)站www.almosthuman.cn查看更多精彩內(nèi)容。