精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍

責任編輯:editor004

作者:機器之心

2017-05-10 11:55:57

摘自:36kr

機器翻譯實現顛覆性突破》和《重磅 | 谷歌神經機器翻譯再突破:實現高質量多語言翻譯和 zero-shot 翻譯》。

 

編者按:本文來自“機器之心”(ID:almosthuman2014),作者:Jonas Gehring、Michael Auli、David Grangier、Denis Yarats、Yann N. Dauphin,機器之心編譯,參與:吳攀、微胖、蔣思源。

去年谷歌在機器翻譯上取得了連續不斷的突破,參閱《重磅 | 谷歌翻譯整合神經網絡:機器翻譯實現顛覆性突破》和《重磅 | 谷歌神經機器翻譯再突破:實現高質量多語言翻譯和 zero-shot 翻譯》。谷歌的方法用到了文本處理慣用的循環神經網絡。近日,Facebook 也宣布在神經機器翻譯上取得了重大進展,在超過了去年谷歌研究的水平的同時還實現了顯著的速度提升。而和谷歌的方法不一樣,Facebook 的方法采用了一種完全基于卷積神經網絡的架構。機器之心對 Facebook 博客上的介紹文章進行編譯,同時在文末附上了該研究論文的摘要介紹,另外該研究的相關源代碼和模型也已經在 GitHub 上開源。

Facebook 的使命是讓世界更加開放和互聯,讓每個人都能以自己偏好的語言享受視頻和博文——當然,準確度和速度要盡可能最高。因此,語言翻譯就顯得很重要了。

今天,FAIR 團隊推出了一項研究成果:使用一種全新的卷積神經網絡(CNN)進行語言翻譯,結果以 9 倍于以往循環神經網絡(CNN)的速度實現了目前最高準確率。[1] 另外,你可以在 GitHub 開源許可下下載到 FAIR 序列模型工具包(fairseq)源代碼和訓練過的系統,研究人員可以打造用于翻譯、文本摘要以及針對其他任務的定制化模型。

為什么是 CNN?

幾十年前,最初由 Yann LeCun 開發的 CNN 已經成功用于多個機器學習領域,比如圖像處理。不過,對于文本應用來說,因為 RNN 的高準確度,其已經當仁不讓地成為了被最廣泛采用的技術和語言翻譯的最佳選擇。

盡管歷史表明,在語言翻譯任務上,RNN 勝過 CNN,但其內在設計是有局限性,只要看看它是如何處理信息的就能明白這一點。計算機的翻譯辦法是:閱讀某種語言句子,然后預測在另一種語言中相同含義的語詞排列順序。RNN 運行嚴格遵照從左到右或者從右到左的順序,一次處理一個單詞。這一運行方式并不天然地契合驅動現代機器學習系統的高度并行的 GPU 硬件。由于每個單詞必須等到網絡處理完前一個單詞,因此計算并不是完全并行的。對比之下,CNN 能夠同時計算所有元素,充分利用了 GPU 的并行,計算也因此更高效。CNN 的另一個優勢就是以分層的方式處理信息,因此,捕捉數據中的復雜關系也更容易些。

在之前的研究中,被用于翻譯任務的 CNN 的表現并不比 RNN 出色。然而,鑒于 CNN 架構潛力,FAIR 開始研究將 CNN 用于翻譯,結果發現了一種翻譯模型設計,該設計能夠讓 CNN 的翻譯效果也很出色。鑒于 CNN 更加出色的計算效率,CNN 還有望擴大翻譯規模,將世界上 6,500 多種語言(世界語言種類大約為 6,900 多種——譯者注)納入翻譯范圍。

在速度上達到當前最佳

我們的研究結果表明,與 RNN [2] 相比,我們的系統在由機器翻譯協會(WMT)提供的廣泛使用的公共基準數據集上達到了新的最佳效果。特別是,CNN 模型在 WMT 2014 英語-法語任務(該度量標準被廣泛用于判斷機器翻譯的準確度)上超過了之前最佳結果 1.5 BLEU。我們的模型在 WMT 2014 英語-德語任務上提高了 0.5 BLEU,在 WMT 2016 英語-羅馬尼亞語上提高了 1.8 BLEU。

對于實際應用,神經機器翻譯的一個考量因素是我們為系統提供一個句子后,它到底需要多長時間進行翻譯。FAIR CNN 模型在計算上十分高效,它要比強 RNN 系統快九倍左右。許多研究聚焦于量化權重或濃縮(distillation)等方法來加速神經網絡,而它們同樣也可被用于本 CNN 模型,甚至提速的效果還要大些,表現出了顯著的未來潛力。

利用多跳注意(multi-hop attention)和門控(gating)來改善翻譯效果

在我們模型架構中,一個明顯不同的組件就是多跳注意,這個機制就像人類翻譯句子時會分解句子結構:不是看一眼句子接著頭也不回地翻譯整個句子,這個網絡會反復「回瞥(glimpse)」句子,選擇接下來翻譯哪個單詞,這點和人類更像:寫句子時,偶然回過頭來看一下關鍵詞。[3] 多跳注意是這一機制的增強版本,可以讓神經網絡多次「回瞥」,以生成更好的翻譯效果。多次「回瞥」也會彼此依存。比如,頭次「回瞥」關注動詞,那么,第二次「回瞥」就會與助動詞有關。

在下圖中,我們給出了該系統讀取法語短語(編碼)并輸出其英語翻譯(解碼)的情形。我們首先使用一個 CNN 運行其編碼器以為每個法語詞創建一個向量,同時完成計算。接下來,其解碼器 CNN 會一次得到一個英語詞。在每一步,該注意都會「回瞥」原法語句子來確定翻譯句子中最相關的下一個英語詞。解碼器中有兩個所謂的層,下面的動畫給出了每層中注意完成的方式。綠線的強度表示了該網絡對每個法語詞的關注度。當該網絡被訓練時,其一直可以提供翻譯,同時也可以完成對英語詞的計算。

Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍(已開源)

我們的系統另一方面是門控(gating),其控制了神經網絡中的信息流。在每一個神經網絡中,信息流也就是通過隱藏單元的數據。我們的門控機制將具體控制哪些信息應該需要傳遞到下一個神經元中,以便產生一個優良的翻譯效果。例如,當預測下一個詞時,神經網絡會考慮迄今為止完成的翻譯。而門控允許放大翻譯中一個特定的方面或取得廣義的概覽,這一切都取決于神經網絡在當前語境中認為哪個是適當。

未來開發

這種方法是一種可選的機器翻譯架構,也為其它文本處理任務開啟了新的大門。比如說,在對話系統中的多跳注意(multi-hop attention)讓神經網絡可以關注到對話中距離較遠的部分(比如兩個分開的事實),然后將它們聯系到一起以便更好地對復雜問題作出響應。

以下為相關論文的摘要介紹:

論文:卷積序列到序列學習(Convolutional Sequence to Sequence Learning)

Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍(已開源)

序列到序列學習(sequence to sequence learning)的普遍方法是通過循環神經網絡將一個輸入序列映射到一個可變長度的輸出序列。我們引入了一種完全基于卷積神經網絡的架構。相比于循環模型,其在訓練階段中所有元素上的計算都是完全并行的,且其優化更簡單,因為非線性的數量是固定的且獨立于輸入的長度。我們使用門控線性單元簡化了梯度傳播(gradient propagation),而且我們為每個解碼器層都裝備了一個單獨的注意模塊(attention module)。我們在 WMT'14 英語-德語翻譯和 WMT'14 英語-法語翻譯上的準確度表現都超過了 Wu et al. (2016) 的深度 LSTM 設置,且在 GPU 和 CPU 上的速度都實現了一個數量級的提升。

Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍(已開源)

圖 1:訓練中批處理(batching)的圖示。頂部是英語源句子被編碼,同時我們為 4 個德語目標詞計算所有的注意值(中間)。我們的注意只是解碼器上下文表征(底部左側)和編碼器表征之間的點積。我們為解碼器上下文增加了由該注意模塊計算出來的條件輸入(中部右側),其可以預測目標詞(底部右側)。S 型和乘法框表示門控線性單元。

博客文章參考文獻:

[1] Convolutional Sequence to Sequence Learning. Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, Yann N. Dauphin.(即本論文)

[2] Google‘s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, ukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, Jeffrey Dean. Technical Report, 2016. 參考機器之心文章《重磅 | 谷歌翻譯整合神經網絡:機器翻譯實現顛覆性突破(附論文)

[3] Neural Machine Translation by Jointly Learning to Align and Translate. Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio. International Conference on Learning Representations, 2015. 地址:https://arxiv.org/abs/1409.0473

編者按:本文來自“機器之心”(ID:almosthuman2014),作者:Jonas Gehring、Michael Auli、David Grangier、Denis Yarats、Yann N. Dauphin,機器之心編譯,參與:吳攀、微胖、蔣思源。

去年谷歌在機器翻譯上取得了連續不斷的突破,參閱《重磅 | 谷歌翻譯整合神經網絡:機器翻譯實現顛覆性突破》和《重磅 | 谷歌神經機器翻譯再突破:實現高質量多語言翻譯和 zero-shot 翻譯》。谷歌的方法用到了文本處理慣用的循環神經網絡。近日,Facebook 也宣布在神經機器翻譯上取得了重大進展,在超過了去年谷歌研究的水平的同時還實現了顯著的速度提升。而和谷歌的方法不一樣,Facebook 的方法采用了一種完全基于卷積神經網絡的架構。機器之心對 Facebook 博客上的介紹文章進行編譯,同時在文末附上了該研究論文的摘要介紹,另外該研究的相關源代碼和模型也已經在 GitHub 上開源。

論文地址

GitHub 項目地址

Facebook 的使命是讓世界更加開放和互聯,讓每個人都能以自己偏好的語言享受視頻和博文——當然,準確度和速度要盡可能最高。因此,語言翻譯就顯得很重要了。

今天,FAIR 團隊推出了一項研究成果:使用一種全新的卷積神經網絡(CNN)進行語言翻譯,結果以 9 倍于以往循環神經網絡(CNN)的速度實現了目前最高準確率。[1] 另外,你可以在 GitHub 開源許可下下載到 FAIR 序列模型工具包(fairseq)源代碼和訓練過的系統,研究人員可以打造用于翻譯、文本摘要以及針對其他任務的定制化模型。

為什么是 CNN?

幾十年前,最初由 Yann LeCun 開發的 CNN 已經成功用于多個機器學習領域,比如圖像處理。不過,對于文本應用來說,因為 RNN 的高準確度,其已經當仁不讓地成為了被最廣泛采用的技術和語言翻譯的最佳選擇。

盡管歷史表明,在語言翻譯任務上,RNN 勝過 CNN,但其內在設計是有局限性,只要看看它是如何處理信息的就能明白這一點。計算機的翻譯辦法是:閱讀某種語言句子,然后預測在另一種語言中相同含義的語詞排列順序。RNN 運行嚴格遵照從左到右或者從右到左的順序,一次處理一個單詞。這一運行方式并不天然地契合驅動現代機器學習系統的高度并行的 GPU 硬件。由于每個單詞必須等到網絡處理完前一個單詞,因此計算并不是完全并行的。對比之下,CNN 能夠同時計算所有元素,充分利用了 GPU 的并行,計算也因此更高效。CNN 的另一個優勢就是以分層的方式處理信息,因此,捕捉數據中的復雜關系也更容易些。

在之前的研究中,被用于翻譯任務的 CNN 的表現并不比 RNN 出色。然而,鑒于 CNN 架構潛力,FAIR 開始研究將 CNN 用于翻譯,結果發現了一種翻譯模型設計,該設計能夠讓 CNN 的翻譯效果也很出色。鑒于 CNN 更加出色的計算效率,CNN 還有望擴大翻譯規模,將世界上 6,500 多種語言(世界語言種類大約為 6,900 多種——譯者注)納入翻譯范圍。

在速度上達到當前最佳

我們的研究結果表明,與 RNN [2] 相比,我們的系統在由機器翻譯協會(WMT)提供的廣泛使用的公共基準數據集上達到了新的最佳效果。特別是,CNN 模型在 WMT 2014 英語-法語任務(該度量標準被廣泛用于判斷機器翻譯的準確度)上超過了之前最佳結果 1.5 BLEU。我們的模型在 WMT 2014 英語-德語任務上提高了 0.5 BLEU,在 WMT 2016 英語-羅馬尼亞語上提高了 1.8 BLEU。

對于實際應用,神經機器翻譯的一個考量因素是我們為系統提供一個句子后,它到底需要多長時間進行翻譯。FAIR CNN 模型在計算上十分高效,它要比強 RNN 系統快九倍左右。許多研究聚焦于量化權重或濃縮(distillation)等方法來加速神經網絡,而它們同樣也可被用于本 CNN 模型,甚至提速的效果還要大些,表現出了顯著的未來潛力。

利用多跳注意(multi-hop attention)和門控(gating)來改善翻譯效果

在我們模型架構中,一個明顯不同的組件就是多跳注意,這個機制就像人類翻譯句子時會分解句子結構:不是看一眼句子接著頭也不回地翻譯整個句子,這個網絡會反復「回瞥(glimpse)」句子,選擇接下來翻譯哪個單詞,這點和人類更像:寫句子時,偶然回過頭來看一下關鍵詞。[3] 多跳注意是這一機制的增強版本,可以讓神經網絡多次「回瞥」,以生成更好的翻譯效果。多次「回瞥」也會彼此依存。比如,頭次「回瞥」關注動詞,那么,第二次「回瞥」就會與助動詞有關。

在下圖中,我們給出了該系統讀取法語短語(編碼)并輸出其英語翻譯(解碼)的情形。我們首先使用一個 CNN 運行其編碼器以為每個法語詞創建一個向量,同時完成計算。接下來,其解碼器 CNN 會一次得到一個英語詞。在每一步,該注意都會「回瞥」原法語句子來確定翻譯句子中最相關的下一個英語詞。解碼器中有兩個所謂的層,下面的動畫給出了每層中注意完成的方式。綠線的強度表示了該網絡對每個法語詞的關注度。當該網絡被訓練時,其一直可以提供翻譯,同時也可以完成對英語詞的計算。

我們的系統另一方面是門控(gating),其控制了神經網絡中的信息流。在每一個神經網絡中,信息流也就是通過隱藏單元的數據。我們的門控機制將具體控制哪些信息應該需要傳遞到下一個神經元中,以便產生一個優良的翻譯效果。例如,當預測下一個詞時,神經網絡會考慮迄今為止完成的翻譯。而門控允許放大翻譯中一個特定的方面或取得廣義的概覽,這一切都取決于神經網絡在當前語境中認為哪個是適當。

未來開發

這種方法是一種可選的機器翻譯架構,也為其它文本處理任務開啟了新的大門。比如說,在對話系統中的多跳注意(multi-hop attention)讓神經網絡可以關注到對話中距離較遠的部分(比如兩個分開的事實),然后將它們聯系到一起以便更好地對復雜問題作出響應。

以下為相關論文的摘要介紹:

論文:卷積序列到序列學習(Convolutional Sequence to Sequence Learning)

序列到序列學習(sequence to sequence learning)的普遍方法是通過循環神經網絡將一個輸入序列映射到一個可變長度的輸出序列。我們引入了一種完全基于卷積神經網絡的架構。相比于循環模型,其在訓練階段中所有元素上的計算都是完全并行的,且其優化更簡單,因為非線性的數量是固定的且獨立于輸入的長度。我們使用門控線性單元簡化了梯度傳播(gradient propagation),而且我們為每個解碼器層都裝備了一個單獨的注意模塊(attention module)。我們在 WMT'14 英語-德語翻譯和 WMT'14 英語-法語翻譯上的準確度表現都超過了 Wu et al. (2016) 的深度 LSTM 設置,且在 GPU 和 CPU 上的速度都實現了一個數量級的提升。

圖 1:訓練中批處理(batching)的圖示。頂部是英語源句子被編碼,同時我們為 4 個德語目標詞計算所有的注意值(中間)。我們的注意只是解碼器上下文表征(底部左側)和編碼器表征之間的點積。我們為解碼器上下文增加了由該注意模塊計算出來的條件輸入(中部右側),其可以預測目標詞(底部右側)。S 型和乘法框表示門控線性單元。

博客文章參考文獻:

[1] Convolutional Sequence to Sequence Learning. Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, Yann N. Dauphin.(即本論文)

[2] Google‘s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, ukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, Jeffrey Dean. Technical Report, 2016. 參考機器之心文章《重磅 | 谷歌翻譯整合神經網絡:機器翻譯實現顛覆性突破(附論文)》

[3] Neural Machine Translation by Jointly Learning to Align and Translate. Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio. International Conference on Learning Representations, 2015. 地址:https://arxiv.org/abs/1409.0473

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 沅江市| 织金县| 巩留县| 荔浦县| 晋宁县| 墨江| 天全县| 金华市| 嘉义市| 弥渡县| 三亚市| 炎陵县| 横山县| 伽师县| 林口县| 吕梁市| 山东省| 措勤县| 璧山县| 资溪县| 双鸭山市| 衡阳县| 怀化市| 观塘区| 四川省| 张北县| 会泽县| 阿尔山市| 柳江县| 革吉县| 布尔津县| 闽侯县| 武义县| 通许县| 明光市| 佛教| 大悟县| 化德县| 宁远县| 台中县| 孟州市|