微軟自然語言和機器翻譯工作的技術專家黃學東(Xuedong Huang)稱,這是最具挑戰性的自然語言處理任務的重要里程碑之一。
機器翻譯是科學家和技術人員們數十年來研究的課題,在此前很多時間里,專家們認為機器永遠無法做到像人那樣說話與對話。微軟機器翻譯團隊試圖證明當使用中文和英文語言對話時,AI 可以表現得像人一樣自然,目前他們獲得了初步的成果。
但這一里程碑并不代表研究人員已經解決了機器翻譯的問題,相反,未來還要面臨大量挑戰,微軟打算先著手在實時新聞報道上(中英文)測試這個 AI,等 AI 成長得足夠好之后,就會進入模仿人類對話式的中英互譯,同時也會開發其他語種的 AI 智能翻譯。
從歷史上看,曾經主流的機器學習技術在行業中應用是統計機器翻譯 (SMT)。SMT 使用先進的統計分析,從一句話中上下文的幾個詞中來估計最佳可能的翻譯。SMT 自 20 世紀中期以來的為所有主要翻譯服務提供商所使用,其中包括微軟。隨著基于深度神經網絡(NN) 的翻譯技術的出現,帶動了機器翻譯技術的突變,顯著提高了翻譯質量,這種新的翻譯技術在 2016 年的下半年開始大規模部署使用,這使得研究人員們能夠創造更流利,自然的翻譯。
微軟的中英翻譯 AI 基礎方法是雙重學習——將中文譯成英文,再將英文譯回中文來確保翻譯結果的準確度,并允許 AI 從自己的錯誤中學習并改進結果。AI 還會在重復翻譯的過程中,根據用戶的編輯和修改操作,學會自主編輯和修改翻譯結果。這樣將保證翻譯結果的準確性,語法上也不會再出現顛三倒四的奇怪錯誤,語句也不再充斥著一股機翻味。
在很好地解決準確性之后,研究團隊下一波會考慮讓 AI 翻譯更接近于人類,比如賦予更多抒情性和情景交談能力。預計當人工智能在翻譯領域充分發展之后,將取代大部分新聞、說明、規范文件等的翻譯工作。