亚洲欧美日韩国产精品久久,国产视频自拍一区,国产网站免费观看

開(kāi)源 | 雅虎開(kāi)源輕量級(jí)多語(yǔ)言實(shí)體鏈接工具包

責(zé)任編輯：editor007

2016-12-09 20:36:58

摘自：搜狐IT

「Ent」表示實(shí)體，「W」表示它們的上下文單詞　　搜索 click-log 數(shù)據(jù)提供了非常有用的信號(hào)來(lái)消除局部歧義或?qū)嶓w歧義。

你每次打開(kāi)客戶端（如 Yahoo News 或者 Yahoo Sports），你想優(yōu)先獲得什么樣的文本信息？雖然每個(gè)人的喜好不同，但你想知道的永遠(yuǎn)有關(guān)文本中的人物，組織和位置信息。自動(dòng)搜尋此類信息的系統(tǒng)被稱為「實(shí)體名稱識(shí)別和鏈接系統(tǒng)（named entity recognition and linking systems）」。它是文本分析中最重要的系統(tǒng)，許多應(yīng)用都會(huì)使用到它，例如搜索引擎、推薦系統(tǒng)、問(wèn)答系統(tǒng)和情緒分析系統(tǒng)。

實(shí)體名稱識(shí)別和鏈接系統(tǒng)使用統(tǒng)計(jì)模型，通過(guò)大量經(jīng)過(guò)標(biāo)記的文本進(jìn)行訓(xùn)練。這種方法面臨的主要挑戰(zhàn)是在不同語(yǔ)言、長(zhǎng)文本、缺乏標(biāo)記的數(shù)據(jù)中準(zhǔn)確探測(cè)實(shí)體，同時(shí)不需要耗費(fèi)過(guò)多的系統(tǒng)資源（內(nèi)存和處理器資源）。

在雅虎長(zhǎng)期研究和不斷應(yīng)用這些解決方案之后，我們很高興為開(kāi)源社區(qū)貢獻(xiàn)我們的這一工具：Fast Entity Linker，我們的無(wú)監(jiān)督、準(zhǔn)確、可擴(kuò)展多語(yǔ)言實(shí)體名稱識(shí)別和鏈接系統(tǒng)，同時(shí)也包含英語(yǔ)、西班牙語(yǔ)和中文數(shù)據(jù)包。

為了增加可用性，我們的系統(tǒng)將文本實(shí)體鏈接至維基百科。例如，當(dāng)語(yǔ)句中出現(xiàn)「雅虎是一家總部位于加州 Sunnyvale 的公司，CEO 是 Marissa Mayer」時(shí)，這一系統(tǒng)會(huì)點(diǎn)出以下實(shí)體：

Yahoo – linked to https://en.wikipedia.org/wiki/Yahoo!

Sunnyvale, CA – linked to https://en.wikipedia.org/wiki/Sunnyvale,_California

Marissa Mayer – linked to https://en.wikipedia.org/wiki/Marissa_Mayer

在算法上，我們使用了實(shí)體嵌入，click-log 數(shù)據(jù)和高效聚類等方法來(lái)實(shí)現(xiàn)高精度。該系統(tǒng)通過(guò)使用壓縮數(shù)據(jù)結(jié)構(gòu)和主動(dòng)散列函數(shù)以實(shí)現(xiàn)低內(nèi)存占用和快速執(zhí)行。

「實(shí)體嵌入（Entity embeddings）」是基于向量的表示，它捕獲上下文中引用實(shí)體的方式。我們使用維基百科文章訓(xùn)練實(shí)體嵌入，并在文章中使用超鏈接格式來(lái)創(chuàng)建規(guī)范實(shí)體。使用下圖中的神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)建模實(shí)體的上下文和表征，其中實(shí)體向量經(jīng)過(guò)訓(xùn)練不僅會(huì)預(yù)測(cè)其周圍實(shí)體，而且可以預(yù)測(cè)包含詞序列的全局上下文。這種方式分為兩層，一層實(shí)體上下文模型，另一層表征上下文模型。我們使用和用于訓(xùn)練段落向量的相同技術(shù)（Quoc 和 Mikolov，2014）來(lái)連接這兩個(gè)層。

同時(shí)訓(xùn)練字嵌入和實(shí)體嵌入的架構(gòu)。「Ent」表示實(shí)體，「W」表示它們的上下文單詞

搜索 click-log 數(shù)據(jù)提供了非常有用的信號(hào)來(lái)消除局部歧義或?qū)嶓w歧義。例如，搜索「Fox」的人傾向于點(diǎn)擊「Fox News」而不是「20th Century Fox」，我們可以使用這些數(shù)據(jù)來(lái)識(shí)別文檔中的「Fox」。為了消除實(shí)體歧義，并確保文檔具有一致的實(shí)體集合，我們的系統(tǒng)支持三個(gè)實(shí)體消歧算法：

Forward Backward Algorithm (Austin et al. 91)

Exemplar Clustering (Frey and Dueck 『07)

Label Propagation (Talukdar and Crammer 『09)

目前，只有前向后向算法（Forward Backward Algorithm）在我們的開(kāi)源版本中是可用的，其他兩個(gè)算法將很快可用！

當(dāng)常用候選項(xiàng)是實(shí)體歧義的錯(cuò)誤選項(xiàng)時(shí)，這些算法非常有助于精確地鏈接實(shí)體。在下面的例子中，這些算法利用周圍語(yǔ)境能準(zhǔn)確地將 Manchester City、Swansea City、 Liverpool、Chelsea 和 Arsenal 等詞組連接到它們各自的足球俱樂(lè)部。模糊提及能用紅色突出指明多個(gè)實(shí)體，例如 Chelsea 可以指紐約或倫敦的 Chelsea 區(qū)，或一家著名的足球俱樂(lè)部。明確的實(shí)體命名以綠色突出顯示，在上例中引用的模糊和無(wú)歧義示例的實(shí)體鏈接候選項(xiàng)進(jìn)行檢索過(guò)程中，正確的候選項(xiàng)就以綠色突出顯示。

目前，快速實(shí)體鏈接器（Fast Entity Linker）是僅有的三個(gè)可用于多語(yǔ)言實(shí)體命名識(shí)別和鏈接系統(tǒng)（其他是 DBpedia Spotlight 和 Babelfy）之一。除了獨(dú)立的實(shí)體鏈接器，這一軟件還包括了可用于創(chuàng)建和壓縮來(lái)自維基百科的不同語(yǔ)言中的詞/實(shí)體嵌入和數(shù)據(jù)包等工具。其中，包含了所有英語(yǔ)維基百科信息的數(shù)據(jù)包只有 2GB！

這個(gè)系統(tǒng)的技術(shù)基礎(chǔ)在下面兩篇科學(xué)論文中被詳細(xì)論述：

Roi Blanco, Giuseppe Ottaviano, and Edgar Meij:「Fast and space-efficient entity linking in queries.」In Proceedings WDSM 2015.

Aasish Pappu, Roi Blanco, Yashar Mehdad, Amanda Stent, and Kapil Thadani:「Lightweight multilingual entity extraction and linking.」In Proceedings WSDM 2017.

開(kāi)源工具包中有許多可用的應(yīng)用程序，其中之一是將情緒歸于文本中檢測(cè)到的實(shí)體，而不是整個(gè)文本本身。例如考慮以下來(lái)自 MetaCritic 用戶對(duì)電影《但丁密碼》的實(shí)際評(píng)論：「雖然湯姆·漢克斯的表演很好，制片商也創(chuàng)造了一個(gè)神秘而生動(dòng)的電影，但是劇情還是很難理解。雖然這部電影情節(jié)婉轉(zhuǎn)有趣，但我對(duì)哥倫比亞影業(yè)的期待不止如此」。所以雖然最后的評(píng)論是中立的，但是它同樣傳遞了對(duì)于湯姆·漢克斯積極情緒和對(duì)哥倫比亞電影公司的消極情緒。

許多現(xiàn)有的情緒分析工具將與文本相關(guān)聯(lián)的情感值整理作為一個(gè)整體處理，這使得系統(tǒng)很難跟蹤用戶對(duì)任何單獨(dú)實(shí)體的情緒。使用我們的工具包，開(kāi)發(fā)者們可以讓系統(tǒng)自動(dòng)提取給定文本中的「正面」和「負(fù)面」信息，從而更清楚地了解用戶對(duì)各個(gè)單獨(dú)實(shí)體的情緒。

原文鏈接：https://yahooresearch.tumblr.com/post/154110423951/presenting-an-open-source-toolkit-for-lightweight

工具包消歧