3月11日外媒消息,Google近日發(fā)布了一個名為Wikilinks Corpus的大數(shù)據(jù)集合,它將可以幫助開發(fā)人員構(gòu)建出可以準確解釋人類語言的軟件。Google表示,Wikilinks Corpus的規(guī)模要比以往的數(shù)據(jù)集合都要大,更重要的是,它是免費的。
谷歌發(fā)布Wikilinks Corpus大數(shù)據(jù)集合
Google在其Reaserch Blog中提出,人類非常擅長辨別同一個單詞在不同語境下的意思。于是,Wikilinks Corpus網(wǎng)羅了包含來自各大網(wǎng)頁及維基百科的4000多萬條鏈接,它們的單元被稱為mention,開發(fā)人員則可以通過分析每一條mention的內(nèi)容以及目標鏈接的內(nèi)容,進而確定一些模棱兩可的單詞究竟是什么意思。