你每次打開(kāi)客戶端(如 Yahoo News 或者 Yahoo Sports),你想優(yōu)先獲得什么樣的文本信息?雖然每個(gè)人的喜好不同,但你想知道的永遠(yuǎn)有關(guān)文本中的人物,組織和位置信息。自動(dòng)搜尋此類信息的系統(tǒng)被稱為「實(shí)體名稱識(shí)別和鏈接系統(tǒng)(named entity recognition and linking systems)」。它是文本分析中最重要的系統(tǒng),許多應(yīng)用都會(huì)使用到它,例如搜索引擎、推薦系統(tǒng)、問(wèn)答系統(tǒng)和情緒分析系統(tǒng)。
實(shí)體名稱識(shí)別和鏈接系統(tǒng)使用統(tǒng)計(jì)模型,通過(guò)大量經(jīng)過(guò)標(biāo)記的文本進(jìn)行訓(xùn)練。這種方法面臨的主要挑戰(zhàn)是在不同語(yǔ)言、長(zhǎng)文本、缺乏標(biāo)記的數(shù)據(jù)中準(zhǔn)確探測(cè)實(shí)體,同時(shí)不需要耗費(fèi)過(guò)多的系統(tǒng)資源(內(nèi)存和處理器資源)。
在雅虎長(zhǎng)期研究和不斷應(yīng)用這些解決方案之后,我們很高興為開(kāi)源社區(qū)貢獻(xiàn)我們的這一工具:Fast Entity Linker,我們的無(wú)監(jiān)督、準(zhǔn)確、可擴(kuò)展多語(yǔ)言實(shí)體名稱識(shí)別和鏈接系統(tǒng),同時(shí)也包含英語(yǔ)、西班牙語(yǔ)和中文數(shù)據(jù)包。
為了增加可用性,我們的系統(tǒng)將文本實(shí)體鏈接至維基百科。例如,當(dāng)語(yǔ)句中出現(xiàn)「雅虎是一家總部位于加州 Sunnyvale 的公司,CEO 是 Marissa Mayer」時(shí),這一系統(tǒng)會(huì)點(diǎn)出以下實(shí)體:
Yahoo – linked to https://en.wikipedia.org/wiki/Yahoo!
Sunnyvale, CA – linked to https://en.wikipedia.org/wiki/Sunnyvale,_California
Marissa Mayer – linked to https://en.wikipedia.org/wiki/Marissa_Mayer
在算法上,我們使用了實(shí)體嵌入,click-log 數(shù)據(jù)和高效聚類等方法來(lái)實(shí)現(xiàn)高精度。該系統(tǒng)通過(guò)使用壓縮數(shù)據(jù)結(jié)構(gòu)和主動(dòng)散列函數(shù)以實(shí)現(xiàn)低內(nèi)存占用和快速執(zhí)行。
「實(shí)體嵌入(Entity embeddings)」是基于向量的表示,它捕獲上下文中引用實(shí)體的方式。我們使用維基百科文章訓(xùn)練實(shí)體嵌入,并在文章中使用超鏈接格式來(lái)創(chuàng)建規(guī)范實(shí)體。使用下圖中的神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)建模實(shí)體的上下文和表征,其中實(shí)體向量經(jīng)過(guò)訓(xùn)練不僅會(huì)預(yù)測(cè)其周圍實(shí)體,而且可以預(yù)測(cè)包含詞序列的全局上下文。這種方式分為兩層,一層實(shí)體上下文模型,另一層表征上下文模型。我們使用和用于訓(xùn)練段落向量的相同技術(shù)(Quoc 和 Mikolov,2014)來(lái)連接這兩個(gè)層。
同時(shí)訓(xùn)練字嵌入和實(shí)體嵌入的架構(gòu)。「Ent」表示實(shí)體,「W」表示它們的上下文單詞
搜索 click-log 數(shù)據(jù)提供了非常有用的信號(hào)來(lái)消除局部歧義或?qū)嶓w歧義。例如,搜索「Fox」的人傾向于點(diǎn)擊「Fox News」而不是「20th Century Fox」,我們可以使用這些數(shù)據(jù)來(lái)識(shí)別文檔中的「Fox」。為了消除實(shí)體歧義,并確保文檔具有一致的實(shí)體集合,我們的系統(tǒng)支持三個(gè)實(shí)體消歧算法:
Forward Backward Algorithm (Austin et al. 91)
Exemplar Clustering (Frey and Dueck 『07)
Label Propagation (Talukdar and Crammer 『09)
目前,只有前向后向算法(Forward Backward Algorithm)在我們的開(kāi)源版本中是可用的,其他兩個(gè)算法將很快可用!
當(dāng)常用候選項(xiàng)是實(shí)體歧義的錯(cuò)誤選項(xiàng)時(shí),這些算法非常有助于精確地鏈接實(shí)體。在下面的例子中,這些算法利用周圍語(yǔ)境能準(zhǔn)確地將 Manchester City、Swansea City、 Liverpool、Chelsea 和 Arsenal 等詞組連接到它們各自的足球俱樂(lè)部。模糊提及能用紅色突出指明多個(gè)實(shí)體,例如 Chelsea 可以指紐約或倫敦的 Chelsea 區(qū),或一家著名的足球俱樂(lè)部。明確的實(shí)體命名以綠色突出顯示,在上例中引用的模糊和無(wú)歧義示例的實(shí)體鏈接候選項(xiàng)進(jìn)行檢索過(guò)程中,正確的候選項(xiàng)就以綠色突出顯示。
目前,快速實(shí)體鏈接器(Fast Entity Linker)是僅有的三個(gè)可用于多語(yǔ)言實(shí)體命名識(shí)別和鏈接系統(tǒng)(其他是 DBpedia Spotlight 和 Babelfy)之一。除了獨(dú)立的實(shí)體鏈接器,這一軟件還包括了可用于創(chuàng)建和壓縮來(lái)自維基百科的不同語(yǔ)言中的詞/實(shí)體嵌入和數(shù)據(jù)包等工具。其中,包含了所有英語(yǔ)維基百科信息的數(shù)據(jù)包只有 2GB!
這個(gè)系統(tǒng)的技術(shù)基礎(chǔ)在下面兩篇科學(xué)論文中被詳細(xì)論述:
Roi Blanco, Giuseppe Ottaviano, and Edgar Meij:「Fast and space-efficient entity linking in queries.」In Proceedings WDSM 2015.
Aasish Pappu, Roi Blanco, Yashar Mehdad, Amanda Stent, and Kapil Thadani:「Lightweight multilingual entity extraction and linking.」In Proceedings WSDM 2017.
開(kāi)源工具包中有許多可用的應(yīng)用程序,其中之一是將情緒歸于文本中檢測(cè)到的實(shí)體,而不是整個(gè)文本本身。例如考慮以下來(lái)自 MetaCritic 用戶對(duì)電影《但丁密碼》的實(shí)際評(píng)論:「雖然湯姆·漢克斯的表演很好,制片商也創(chuàng)造了一個(gè)神秘而生動(dòng)的電影,但是劇情還是很難理解。雖然這部電影情節(jié)婉轉(zhuǎn)有趣,但我對(duì)哥倫比亞影業(yè)的期待不止如此」。所以雖然最后的評(píng)論是中立的,但是它同樣傳遞了對(duì)于湯姆·漢克斯積極情緒和對(duì)哥倫比亞電影公司的消極情緒。
許多現(xiàn)有的情緒分析工具將與文本相關(guān)聯(lián)的情感值整理作為一個(gè)整體處理,這使得系統(tǒng)很難跟蹤用戶對(duì)任何單獨(dú)實(shí)體的情緒。使用我們的工具包,開(kāi)發(fā)者們可以讓系統(tǒng)自動(dòng)提取給定文本中的「正面」和「負(fù)面」信息,從而更清楚地了解用戶對(duì)各個(gè)單獨(dú)實(shí)體的情緒。
原文鏈接:https://yahooresearch.tumblr.com/post/154110423951/presenting-an-open-source-toolkit-for-lightweight