作為處理復(fù)雜信息的有效手段,圖數(shù)據(jù)科學(xué)有著出人意料的悠久歷史:早在18世紀(jì),數(shù)學(xué)天才Leonhard Euler首次提出了這一概念。最近,隨著 Google 使用基于圖的頁(yè)面排名方法從而徹底改變了搜索,圖數(shù)據(jù)科學(xué)也由此變得尤為重要。
現(xiàn)在,圖技術(shù)不再是擁有內(nèi)部專業(yè)知識(shí)和資源的網(wǎng)絡(luò)先鋒公司的獨(dú)門(mén)秘籍。過(guò)去,擁有訓(xùn)練有素的研發(fā)團(tuán)隊(duì)的領(lǐng)先公司才具有處理大量關(guān)聯(lián)數(shù)據(jù)的能力。時(shí)至今日,任何重視挖掘數(shù)據(jù)價(jià)值的組織都可以使用這種強(qiáng)大的創(chuàng)新技術(shù),通過(guò)獨(dú)特的算法和嵌入來(lái)發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)。
基于圖的數(shù)據(jù)工作正迅速成為業(yè)務(wù)主流。作為企業(yè)數(shù)據(jù)科學(xué)家工具箱的核心部分,圖數(shù)據(jù)科學(xué)將成為未來(lái)十年的重要特征。Gartner在《2021十大數(shù)據(jù)與分析技術(shù)趨勢(shì)》報(bào)告中指出:“到 2025 年,圖技術(shù)將用于 80%數(shù)據(jù)與分析的創(chuàng)新,這一數(shù)據(jù)高于2021年的10%,圖技術(shù)將會(huì)促進(jìn)整個(gè)組織的快速?zèng)Q策。”
Gartner 此前還就人工智能和機(jī)器學(xué)習(xí)技術(shù)的使用情況對(duì)一些公司展開(kāi)了調(diào)查。高達(dá)92%的受訪者表示他們計(jì)劃在五年內(nèi)采用圖技術(shù)。而專注于該領(lǐng)域的學(xué)術(shù)研究也在不斷增加,近年來(lái)超過(guò)28,000篇關(guān)于圖驅(qū)動(dòng)數(shù)據(jù)科學(xué)的同行評(píng)審科學(xué)論文被發(fā)表。
利用關(guān)聯(lián)進(jìn)行更準(zhǔn)確和可判斷的預(yù)測(cè)
企業(yè)采用圖數(shù)據(jù)科學(xué)的步伐正在加快。圖數(shù)據(jù)科學(xué)是一種強(qiáng)大的創(chuàng)新技術(shù),可以通過(guò)圖算法來(lái)推理每條數(shù)據(jù)關(guān)聯(lián)情境的“形狀”。
為什么開(kāi)發(fā)人員想要了解這個(gè)?這是因?yàn)閳D數(shù)據(jù)科學(xué)能夠?qū)崿F(xiàn)更卓越、更豐富的機(jī)器學(xué)習(xí)預(yù)測(cè)。圖數(shù)據(jù)科學(xué)正在徹底改變企業(yè)在不同場(chǎng)景下進(jìn)行預(yù)測(cè)的方法,從欺詐檢測(cè)到追蹤客戶或患者,通過(guò)利用數(shù)據(jù)節(jié)點(diǎn)之間的關(guān)聯(lián)實(shí)現(xiàn)更準(zhǔn)確和可判斷的預(yù)測(cè)。在藥物發(fā)明用例中,意味著可找到基因、疾病、藥物和蛋白質(zhì)之間可能存在的新關(guān)聯(lián),同時(shí)提供相鄰的上下文來(lái)評(píng)估任何此類發(fā)現(xiàn)的相關(guān)性或有效性。對(duì)于客戶推薦而言,則意味著從客戶旅程中學(xué)習(xí),為未來(lái)的購(gòu)買做出精準(zhǔn)推薦,并通過(guò)展示歷史購(gòu)買記錄,建立相關(guān)推薦的信心。
這種從數(shù)據(jù)中快速“學(xué)習(xí)”泛化、預(yù)測(cè)性特征的能力,使企業(yè)將機(jī)器學(xué)習(xí)提升到全新水平。雖然一些團(tuán)隊(duì)仍在學(xué)習(xí)如何在現(xiàn)有機(jī)器學(xué)習(xí)工作流程中利用關(guān)聯(lián)數(shù)據(jù),但現(xiàn)實(shí)中的用例數(shù)量正在迅速增長(zhǎng)。圖技術(shù)采用者發(fā)現(xiàn),從支持行業(yè)領(lǐng)域?qū)<野l(fā)現(xiàn)模式的查詢到識(shí)別高價(jià)值特征以訓(xùn)練機(jī)器學(xué)習(xí)模型,圖技術(shù)讓他們?nèi)缁⑻硪怼?br />
新興的圖技術(shù)成功案例
讓我們來(lái)看看以上趨勢(shì)的一些案例。在歐洲,相關(guān)政府部門(mén)目前已經(jīng)在使用圖數(shù)據(jù)科學(xué),數(shù)據(jù)科學(xué)家也已部署借助圖技術(shù)構(gòu)建的首個(gè)機(jī)器學(xué)習(xí)模型。生成的系統(tǒng)會(huì)根據(jù)用戶訪問(wèn)的頁(yè)面,自動(dòng)向其推薦來(lái)自政府在線資源的內(nèi)容。該應(yīng)用程序可顯示節(jié)點(diǎn)的連續(xù)特征,并將其用于各種機(jī)器學(xué)習(xí)任務(wù),例如內(nèi)容推薦。
政府?dāng)?shù)據(jù)科學(xué)家指出,“通過(guò)這個(gè)過(guò)程,我們了解到創(chuàng)建支持模型訓(xùn)練和部署的基礎(chǔ)數(shù)據(jù)是最耗時(shí)的部分。” 在圖數(shù)據(jù)庫(kù)生態(tài)系統(tǒng)的另一領(lǐng)域,來(lái)自領(lǐng)先的媒體和營(yíng)銷服務(wù)公司Meredith的高級(jí)數(shù)據(jù)科學(xué)家指出,圖算法的使用允許將數(shù)十億頁(yè)面瀏覽量轉(zhuǎn)換為具有豐富瀏覽配置文件的數(shù)百萬(wàn)假名標(biāo)識(shí)符:“向沒(méi)有進(jìn)行身份驗(yàn)證的在線用戶提供相關(guān)內(nèi)容,對(duì)我們的業(yè)務(wù)至關(guān)重要……我們現(xiàn)在不再是’在黑暗中做廣告’,而是更好地了解客戶,這將不僅顯著增加營(yíng)收而且為消費(fèi)者提供更優(yōu)質(zhì)的服務(wù)。”
圖數(shù)據(jù)科學(xué)也可以為醫(yī)療供應(yīng)鏈提供支持。全球醫(yī)療設(shè)備制造商波士頓科學(xué)公司 (Boston Scientific) 使用圖數(shù)據(jù)科學(xué)查找產(chǎn)品的故障原因。在這個(gè)案例中,位于不同國(guó)家和地區(qū)的多個(gè)團(tuán)隊(duì)通常要聯(lián)手并行處理相同的問(wèn)題,工程師必須分析不同電子表格中的數(shù)據(jù)。這會(huì)產(chǎn)生不一致并且難以找到問(wèn)題的根本原因。波士頓科學(xué)公司表示,轉(zhuǎn)向使用圖技術(shù)為分析、協(xié)調(diào)和改進(jìn)跨公司所有地區(qū)的制造流程提供了一種更有效的方法。
現(xiàn)在,用戶可以進(jìn)行有意義的科學(xué)增強(qiáng)型數(shù)據(jù)搜索。分析查詢時(shí)間從兩分鐘縮短到10至55秒,這一提升有助于提高整體效率并簡(jiǎn)化分析過(guò)程。可以識(shí)別更可能發(fā)生故障的特定環(huán)節(jié)。另一個(gè)好處是,圖數(shù)據(jù)模型非常簡(jiǎn)單,更便于交流。“參與該項(xiàng)目的每個(gè)人,從商業(yè)利益相關(guān)者到技術(shù)實(shí)施者,都能夠相互理解,因?yàn)樗麄兌颊f(shuō)同一種語(yǔ)言,”該公司的數(shù)據(jù)科學(xué)家Eric Wespi 表示。該公司通過(guò)使用自然語(yǔ)言處理詳細(xì)分析檢查失敗的原始文本,提取和關(guān)聯(lián)主題以調(diào)查失敗的根本原因,從而產(chǎn)生更高的商業(yè)價(jià)值。
在國(guó)際制造業(yè)領(lǐng)導(dǎo)者卡特彼勒 (Caterpillar) 公司,圖數(shù)據(jù)科學(xué)能夠讓存儲(chǔ)維修技術(shù)文檔的大型數(shù)據(jù)庫(kù)的自然語(yǔ)言處理變得更加有效。當(dāng)面臨需在超過(guò)2700萬(wàn)份文檔中捕獲到有價(jià)值的數(shù)據(jù)但卻無(wú)法訪問(wèn)時(shí),公司開(kāi)始著手創(chuàng)建一個(gè)能夠揭示內(nèi)在聯(lián)系和趨勢(shì)的處理工具?;趫D的機(jī)器學(xué)習(xí)分類工具應(yīng)運(yùn)而生,從已標(biāo)注“原因”或“投訴”等術(shù)語(yǔ)的數(shù)據(jù)部分中學(xué)習(xí),從而應(yīng)用于其他數(shù)據(jù)。它自己解析文本并快速找到模式和連接,構(gòu)建層次結(jié)構(gòu)并添加本體。
增強(qiáng)洞察力
圖數(shù)據(jù)科學(xué)應(yīng)用的另一個(gè)案例是在醫(yī)療保健領(lǐng)域。紐約長(zhǎng)老會(huì)醫(yī)院 (New York-Presbyterian Hospital) 的分析團(tuán)隊(duì)使用圖技術(shù)來(lái)跟蹤感染并采取戰(zhàn)略部署控制感染。其開(kāi)發(fā)人員發(fā)現(xiàn),圖數(shù)據(jù)科學(xué)為他們提供了一種靈活的方式,可連接事件的所有維度——事件發(fā)生的“內(nèi)容”、“時(shí)間”和“地點(diǎn)”。憑借這種洞察力,該團(tuán)隊(duì)創(chuàng)建了一個(gè)“時(shí)間”和“空間”樹(shù),搭建現(xiàn)場(chǎng)治療所有病房患者的模型。這個(gè)初始模型揭示了大量的相互關(guān)系,但僅此而已并不能滿足項(xiàng)目目標(biāo)的要求。通過(guò)一個(gè)事件實(shí)體來(lái)連接時(shí)間樹(shù)和位置樹(shù),由此產(chǎn)生的數(shù)據(jù)模型意味著分析團(tuán)隊(duì)能夠分析模型中發(fā)生的一切,并在疾病傳播之前主動(dòng)識(shí)別和控制疾病。
無(wú)可爭(zhēng)議的是2021年后圖數(shù)據(jù)科學(xué)將成為業(yè)務(wù)分析的關(guān)鍵部分,并提供有益的業(yè)務(wù)洞察力。Gartner的數(shù)據(jù)行業(yè)團(tuán)隊(duì)預(yù)測(cè),全球財(cái)富1000強(qiáng)公司中有四分之一將在三年內(nèi)將圖技術(shù)列為高級(jí)數(shù)據(jù)處理和分析的計(jì)劃之中。
毫無(wú)疑問(wèn),圖數(shù)據(jù)科學(xué)的應(yīng)用已經(jīng)遠(yuǎn)遠(yuǎn)超越了18世紀(jì),進(jìn)入到商業(yè)領(lǐng)域。是時(shí)候發(fā)掘圖數(shù)據(jù)科學(xué)的巨大潛力來(lái)為商業(yè)問(wèn)題提供解決方案。作為圖數(shù)據(jù)科學(xué)的先行者和領(lǐng)導(dǎo)者,Neo4j已幫助眾多機(jī)構(gòu)和組織通過(guò)圖數(shù)據(jù)科學(xué)加速機(jī)器學(xué)習(xí)向智能分析的發(fā)展,以做出推動(dòng)業(yè)務(wù)增長(zhǎng)的預(yù)測(cè)。