国产成人综合久久精品红,亚洲三级视频在线观看,精品一区二区三区视频在线观看免

Facebook提出門控卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)言建模

責(zé)任編輯：editor007

2016-12-27 16:11:47

摘自：機(jī)器之心

目前語(yǔ)言建模的主要方法都是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的。語(yǔ)言建模的當(dāng)前技術(shù)水平基于長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM; Hochreiter等人，1997）

目前語(yǔ)言建模的主要方法都是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的。在本研究中，我們提出了一種使用卷積方式處理的語(yǔ)言建模方式。我們引入了一種新的門控機(jī)制，可以緩和梯度傳播，它的表現(xiàn)比LSTM方式的門控（Oord等人，2016）更加優(yōu)秀。我們的方法在WikiText-103上創(chuàng)造了新的最高紀(jì)錄，同時(shí)我們也在Google Billion Word基準(zhǔn)上進(jìn)行了單GPU測(cè)試，結(jié)果創(chuàng)造了新的最快記錄。因?yàn)榭梢圆⑿羞\(yùn)算，在對(duì)延遲敏感的任務(wù)中，我們的模型的速度相較其他模型提升了一個(gè)數(shù)量級(jí)。目前為止，這是第一次出現(xiàn)非訓(xùn)話方式在此類任務(wù)中超越了循環(huán)方式。

Facebook提出門控卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)言建模

　　用于語(yǔ)言建模的門控卷積網(wǎng)絡(luò)架構(gòu)

統(tǒng)計(jì)語(yǔ)言模型被用于估算詞序列的概率分布。這相當(dāng)于給定一個(gè)詞，對(duì)下一個(gè)詞的概率進(jìn)行建模，例如：

Facebook提出門控卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)言建模

其中wi是詞匯表中的離散字索引。語(yǔ)言模型是語(yǔ)音識(shí)別系統(tǒng)（Yu&Deng，2014）以及機(jī)器翻譯系統(tǒng)的關(guān)鍵組成部分（Koehn，2010）。

近年來(lái)，神經(jīng)網(wǎng)絡(luò)在此類任務(wù)的表現(xiàn)超過(guò)了n元語(yǔ)法模型（Kneser & Ney，1995；Chen & Goodman，1996）。經(jīng)典的語(yǔ)言模型面臨數(shù)據(jù)短缺的問(wèn)題，無(wú)法準(zhǔn)確表征長(zhǎng)段語(yǔ)句，缺乏分析長(zhǎng)范圍從屬關(guān)系的能力。神經(jīng)語(yǔ)言模型通過(guò)在應(yīng)用神經(jīng)網(wǎng)絡(luò)的連續(xù)空間中嵌入單詞來(lái)解決這個(gè)問(wèn)題。語(yǔ)言建模的當(dāng)前技術(shù)水平基于長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM; Hochreiter等人，1997），理論上可以建模任意長(zhǎng)的從屬關(guān)系。

Facebook提出門控卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)言建模

在本文中，我們介紹了門控卷積網(wǎng)絡(luò)（gated convolutional networks）并將其應(yīng)用于語(yǔ)言建模。卷積網(wǎng)絡(luò)可以被堆疊以表示大的上下文尺寸，并且在具有在更大的上下文范圍內(nèi)提取分層更抽象的特征（LeCun&Bengio，1995）。這種特性允許我們通過(guò)在大小N和內(nèi)核寬度k的上下文上應(yīng)用O（N / k）運(yùn)算來(lái)建模長(zhǎng)期從屬關(guān)系。相反，循環(huán)網(wǎng)絡(luò)將輸入視為鏈結(jié)構(gòu)，因此需要線性數(shù)目O（N）的操作。

輸入分層的分析與類似于經(jīng)典語(yǔ)法形式的構(gòu)造相似，其構(gòu)建了間隔增大的句法樹(shù)結(jié)構(gòu)。例如，由包含復(fù)雜內(nèi)部結(jié)構(gòu)的名詞短語(yǔ)和動(dòng)詞短語(yǔ)組成的句子（Manning&Schutze¨，1999；Steedman，2002）。另外，分層結(jié)構(gòu)也簡(jiǎn)化了學(xué)習(xí)，因?yàn)橄噍^于鏈結(jié)構(gòu)，給定上下文大小的非線性的數(shù)量減少，從而減輕了消失梯度問(wèn)題（Glorot&Bengio，2010）。

現(xiàn)代計(jì)算機(jī)硬件非常適合運(yùn)行高度并行化的模型。在循環(huán)網(wǎng)絡(luò)中，下一個(gè)輸出取決于前一個(gè)的隱藏狀態(tài)，它不啟用對(duì)序列元素的并行化。卷積網(wǎng)絡(luò)非常適合于此類計(jì)算，因?yàn)樗休斎胱值挠?jì)算可以同時(shí)執(zhí)行。

門控已經(jīng)顯示出超越循環(huán)神經(jīng)網(wǎng)絡(luò)最快表現(xiàn)的潛力（Jozefowicz等人，2016）。我們的門控線性單元通過(guò)為梯度提供線性路徑，同時(shí)保留非線性能力，減少了深層架構(gòu)的消失梯度問(wèn)題。

我們?cè)趩蝹€(gè)GPU系統(tǒng)中進(jìn)行了實(shí)驗(yàn)，證明了使用門控卷積網(wǎng)絡(luò)的語(yǔ)言建模優(yōu)于其他最近發(fā)布的語(yǔ)言模型，如在Google Billion上類似設(shè)置訓(xùn)練的LSTM Word基準(zhǔn)（Chelba等人，2013）。我們還評(píng)估了我們的模型分析WikiText-103基準(zhǔn)中長(zhǎng)距離從屬關(guān)系的能力，其中該模型以整個(gè)段落而不是單個(gè)句子為條件進(jìn)行處理，并且我們?cè)诖嘶A(chǔ)上實(shí)現(xiàn)了新的最快記錄（Merity等人，2016）。最后，我們展示了門控線性單元可以實(shí)現(xiàn)更高的精度和收斂，比OST等人的LSTM門控更快。

建模門控卷積