《創(chuàng)世記》第11章中記載,人類計(jì)劃建立通天的高塔,而上帝讓人類說不同的語(yǔ)言,使得他們無法協(xié)作,計(jì)劃最終失敗。
現(xiàn)實(shí)中,不同語(yǔ)言成為了各自所屬文化的因子,構(gòu)建出一種多樣的美。但語(yǔ)言仍像鴻溝,阻礙著人類的交流。
最近,F(xiàn)acebook用人工智能對(duì)翻譯系統(tǒng)進(jìn)行了一次重大改造。
他們的工程師發(fā)現(xiàn),網(wǎng)站上對(duì)帖文和回復(fù)進(jìn)行翻譯的按鈕每天會(huì)被點(diǎn)擊數(shù)十億次,翻譯動(dòng)作有數(shù)千個(gè)方向(比如中英互譯,英文到中文是一個(gè)方向,反之又是另一個(gè)方向)之間。
如此巨量的翻譯工作,F(xiàn)acebook一直以來做的卻不好。他們過去使用的統(tǒng)計(jì)機(jī)器系統(tǒng),翻不準(zhǔn)俗語(yǔ),識(shí)別不了錯(cuò)字和縮寫,無法理解上下文,很難準(zhǔn)確翻譯帖文的意圖。于是,工程師們用改用一種名叫“帶注意力的長(zhǎng)短時(shí)記憶”(Long Short-Term Memory with attention, LSTM) 的深度學(xué)習(xí)技術(shù),設(shè)計(jì)了一套人工智能翻譯系統(tǒng)。
目前,新的神經(jīng)機(jī)器翻譯系統(tǒng)已完全取代了過去的機(jī)翻系統(tǒng),部署到Facebook網(wǎng)站、Instagram以及其他產(chǎn)品中。改造的效果顯著:按照業(yè)界公認(rèn)的BLEU標(biāo)準(zhǔn),F(xiàn)acebook新翻譯系統(tǒng)各種語(yǔ)言互譯得分比舊系統(tǒng)提高了11%。
人際溝通大多通過語(yǔ)言完成。而當(dāng)參與方不使用統(tǒng)一語(yǔ)言,溝通就必須通過翻譯。因此翻譯系統(tǒng)的準(zhǔn)確度極大影響著溝通的成果。但遺憾的是,絕大多數(shù)網(wǎng)上和手機(jī)上的翻譯網(wǎng)站和軟件,背后的技術(shù)都來自機(jī)器翻譯。
通常,機(jī)翻系統(tǒng)對(duì)常見的單詞、短語(yǔ)和句法簡(jiǎn)單的句子翻譯效果較好。如果一句話就是主謂賓,比如“我吃米飯”,系統(tǒng)翻譯成 “I eat rice”,這沒問題。
但比如中日互譯、或者下圖中土耳其語(yǔ)和英文互譯,原文的語(yǔ)言和翻譯后語(yǔ)言在句法上有很大的差別,機(jī)器翻譯就會(huì)捉襟見肘了。下圖是機(jī)翻結(jié)果:
翻譯出的英文沒有語(yǔ)法錯(cuò)誤,但還是不太容易懂什么意思。這是因?yàn)闄C(jī)翻會(huì)把句子拆成一個(gè)個(gè)字段,結(jié)果就是把一個(gè)個(gè)字段的翻譯放出來,沒有對(duì)目標(biāo)語(yǔ)言的語(yǔ)序、語(yǔ)法和表達(dá)習(xí)慣進(jìn)行優(yōu)化。
人工智能怎樣做到更準(zhǔn)確、更有人味兒地翻譯呢?
維基百科解釋, LSTM是一種在時(shí)間上遞歸神經(jīng)網(wǎng)絡(luò) (Recurrent Neural Network),適合于處理和預(yù)測(cè)時(shí)間序列中間隔和延遲相對(duì)較長(zhǎng)的重要事件。翻譯正好是這種類型的工作,因?yàn)楹荛L(zhǎng)的一句話,可能后半段是對(duì)前半段的邏輯呼應(yīng),但機(jī)翻系統(tǒng)根本不記得前面說的是什么。
LSTM能記住整句話的內(nèi)容,對(duì)句子的上下文進(jìn)行反溯,理解邏輯,從而給出更精確、流利和地道的翻譯結(jié)果,如下圖:
“注意力”(attention) 也是深度學(xué)習(xí)里一個(gè)很有趣的機(jī)制,它有點(diǎn)像人類觀察事物時(shí)眼神的聚焦,鍋里有菜,你會(huì)自動(dòng)把更多注意力分配到菜上而不是鍋或者鍋柄。
注意力能夠幫助新系統(tǒng)留意一些在標(biāo)準(zhǔn)英語(yǔ)辭典里沒有出現(xiàn)的詞,這些詞很有可能是縮寫和短語(yǔ),比如idk (I don’t know)、tmrw (tomorrow),也有可能是網(wǎng)絡(luò)用語(yǔ)。當(dāng)神經(jīng)機(jī)器在句子里發(fā)現(xiàn)這樣的詞,會(huì)先留空不翻譯,分配一定的計(jì)算力,去其他詞庫(kù)和訓(xùn)練數(shù)據(jù)集查找這個(gè)詞的釋義,最后再翻譯出來。
不僅如此,研發(fā)團(tuán)隊(duì)還利用了一些神經(jīng)網(wǎng)絡(luò)剪枝(保留重要的權(quán)重)和壓縮編碼的算法,極大地降低神經(jīng)翻譯系統(tǒng)的詞匯表大小,減小了計(jì)算量,但沒有拉低翻譯精度。
搞定了翻譯系統(tǒng),并不是終點(diǎn),工程師們還要把它部署到Facebook數(shù)十億用戶量級(jí)的后端系統(tǒng)中去。開發(fā)了深度學(xué)習(xí)框架Caffe的Facebook研究科學(xué)家賈揚(yáng)清,已經(jīng)帶隊(duì)開發(fā)出了更注重模塊化,利于移動(dòng)端和大規(guī)模部署的Caffe2。在新框架上運(yùn)行,神經(jīng)翻譯系統(tǒng)的效率提升了2.5倍。
由于深度學(xué)習(xí)技術(shù)的進(jìn)展,神經(jīng)機(jī)器翻譯在近年越發(fā)流行,并已進(jìn)入許多流行的產(chǎn)品中,開始幫助人們更好地溝通。微軟推出的翻譯軟件Microsoft Translate,讓溝通多方像用微信一樣加入群聊,自然對(duì)話并獲得各自的翻譯,備受好評(píng)。
去年,全球5億人使用的Google Translate服務(wù)中部署了神經(jīng)翻譯機(jī)器。當(dāng)時(shí)PingWest品玩用一些經(jīng)典中英段落測(cè)試互譯,仍會(huì)出現(xiàn)奇怪的翻譯:
In my younger and more vulnerable years my father gave me some advice that I’ve been turning over in my mind ever since.
“Whenever you feel like criticizing anyone,”he told me,”just remember that all the people in this world haven’t had the advantages that you’ve had.”
人工翻譯:
我年紀(jì)還輕,閱歷不深的時(shí)候,我父親教導(dǎo)過我一句話,我至今還念念不忘。
“每逢你想要批評(píng)任何人的時(shí)候,”他對(duì)我說,“你就記住,這個(gè)世界上所有的人,并不是個(gè)個(gè)都有過你那些優(yōu)越條件。”
Google神經(jīng)機(jī)器翻譯(去年):
在我更年輕,更容易年,我的父親給了我一些建議,我一直在我心中從此翻身。
“每當(dāng)你覺得批評(píng)任何人,”他告訴我,“只記得,所有的在這個(gè)世界上的人都沒有,你有過的優(yōu)勢(shì)。”
時(shí)隔一年之久再去測(cè)試,效果已經(jīng)好了很多:
在我年輕,更脆弱的歲月里,我父親給了我一些建議,自從我一直在轉(zhuǎn)過頭來。
“每當(dāng)你想批評(píng)任何人,”他告訴我,“只要記住,這個(gè)世界上所有的人都沒有你的優(yōu)勢(shì)。”
這是由于神經(jīng)機(jī)器翻譯后端的深度學(xué)習(xí)系統(tǒng)學(xué)習(xí)能力比統(tǒng)計(jì)機(jī)更強(qiáng)。隨著輸入的數(shù)據(jù)源,以及使用的人越來越多,它能不斷提升翻譯技巧。Facebook用戶剛剛超過20億,每天都有超過13億說不同語(yǔ)言的人在上面分享活動(dòng)、發(fā)圖片、評(píng)論以及點(diǎn)贊。現(xiàn)在,F(xiàn)acebook翻譯后端已經(jīng)完全遷移至神經(jīng)機(jī)器翻譯,這些訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)每天處理多達(dá)45億次翻譯請(qǐng)求。
未來,F(xiàn)acebook打算引入一些更先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu),比如卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks, CNNs)。測(cè)試結(jié)果發(fā)現(xiàn)使用CNN進(jìn)行英法互譯的BLEU得分比LSTM進(jìn)一步提升了12%。不僅如此,他們也在嘗試一些更難的挑戰(zhàn),比如多語(yǔ)種(而非雙語(yǔ)種)翻譯。
屆時(shí),基于神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng),將在精度、地道程度、多語(yǔ)種翻譯能力等更多維度上超過和取代統(tǒng)計(jì)機(jī),甚至人工翻譯——就目前來看,取代這些工作可能是人工智能為數(shù)不多的壞處之一。