目前語(yǔ)言建模的主要方法都是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的。在本研究中,我們提出了一種使用卷積方式處理的語(yǔ)言建模方式。我們引入了一種新的門控機(jī)制,可以緩和梯度傳播,它的表現(xiàn)比LSTM方式的門控(Oord等人,2016)更加優(yōu)秀。我們的方法在WikiText-103上創(chuàng)造了新的最高紀(jì)錄,同時(shí)我們也在Google Billion Word基準(zhǔn)上進(jìn)行了單GPU測(cè)試,結(jié)果創(chuàng)造了新的最快記錄。因?yàn)榭梢圆⑿羞\(yùn)算,在對(duì)延遲敏感的任務(wù)中,我們的模型的速度相較其他模型提升了一個(gè)數(shù)量級(jí)。目前為止,這是第一次出現(xiàn)非訓(xùn)話方式在此類任務(wù)中超越了循環(huán)方式。
用于語(yǔ)言建模的門控卷積網(wǎng)絡(luò)架構(gòu)
統(tǒng)計(jì)語(yǔ)言模型被用于估算詞序列的概率分布。這相當(dāng)于給定一個(gè)詞,對(duì)下一個(gè)詞的概率進(jìn)行建模,例如:
其中wi是詞匯表中的離散字索引。語(yǔ)言模型是語(yǔ)音識(shí)別系統(tǒng)(Yu&Deng,2014)以及機(jī)器翻譯系統(tǒng)的關(guān)鍵組成部分(Koehn,2010)。
近年來(lái),神經(jīng)網(wǎng)絡(luò)在此類任務(wù)的表現(xiàn)超過(guò)了n元語(yǔ)法模型(Kneser & Ney,1995;Chen & Goodman,1996)。經(jīng)典的語(yǔ)言模型面臨數(shù)據(jù)短缺的問(wèn)題,無(wú)法準(zhǔn)確表征長(zhǎng)段語(yǔ)句,缺乏分析長(zhǎng)范圍從屬關(guān)系的能力。神經(jīng)語(yǔ)言模型通過(guò)在應(yīng)用神經(jīng)網(wǎng)絡(luò)的連續(xù)空間中嵌入單詞來(lái)解決這個(gè)問(wèn)題。語(yǔ)言建模的當(dāng)前技術(shù)水平基于長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM; Hochreiter等人,1997),理論上可以建模任意長(zhǎng)的從屬關(guān)系。
在本文中,我們介紹了門控卷積網(wǎng)絡(luò)(gated convolutional networks)并將其應(yīng)用于語(yǔ)言建模。卷積網(wǎng)絡(luò)可以被堆疊以表示大的上下文尺寸,并且在具有在更大的上下文范圍內(nèi)提取分層更抽象的特征(LeCun&Bengio,1995)。這種特性允許我們通過(guò)在大小N和內(nèi)核寬度k的上下文上應(yīng)用O(N / k)運(yùn)算來(lái)建模長(zhǎng)期從屬關(guān)系。相反,循環(huán)網(wǎng)絡(luò)將輸入視為鏈結(jié)構(gòu),因此需要線性數(shù)目O(N)的操作。
輸入分層的分析與類似于經(jīng)典語(yǔ)法形式的構(gòu)造相似,其構(gòu)建了間隔增大的句法樹(shù)結(jié)構(gòu)。例如,由包含復(fù)雜內(nèi)部結(jié)構(gòu)的名詞短語(yǔ)和動(dòng)詞短語(yǔ)組成的句子(Manning&Schutze¨,1999;Steedman,2002)。另外,分層結(jié)構(gòu)也簡(jiǎn)化了學(xué)習(xí),因?yàn)橄噍^于鏈結(jié)構(gòu),給定上下文大小的非線性的數(shù)量減少,從而減輕了消失梯度問(wèn)題(Glorot&Bengio,2010)。
現(xiàn)代計(jì)算機(jī)硬件非常適合運(yùn)行高度并行化的模型。在循環(huán)網(wǎng)絡(luò)中,下一個(gè)輸出取決于前一個(gè)的隱藏狀態(tài),它不啟用對(duì)序列元素的并行化。卷積網(wǎng)絡(luò)非常適合于此類計(jì)算,因?yàn)樗休斎胱值挠?jì)算可以同時(shí)執(zhí)行。
門控已經(jīng)顯示出超越循環(huán)神經(jīng)網(wǎng)絡(luò)最快表現(xiàn)的潛力(Jozefowicz等人,2016)。我們的門控線性單元通過(guò)為梯度提供線性路徑,同時(shí)保留非線性能力,減少了深層架構(gòu)的消失梯度問(wèn)題。
我們?cè)趩蝹€(gè)GPU系統(tǒng)中進(jìn)行了實(shí)驗(yàn),證明了使用門控卷積網(wǎng)絡(luò)的語(yǔ)言建模優(yōu)于其他最近發(fā)布的語(yǔ)言模型,如在Google Billion上類似設(shè)置訓(xùn)練的LSTM Word基準(zhǔn)(Chelba等人,2013)。我們還評(píng)估了我們的模型分析WikiText-103基準(zhǔn)中長(zhǎng)距離從屬關(guān)系的能力,其中該模型以整個(gè)段落而不是單個(gè)句子為條件進(jìn)行處理,并且我們?cè)诖嘶A(chǔ)上實(shí)現(xiàn)了新的最快記錄(Merity等人,2016)。最后,我們展示了門控線性單元可以實(shí)現(xiàn)更高的精度和收斂,比OST等人的LSTM門控更快。