摘要 : 未來NLP技術如果能在如何學習理解人類語義方面取得更多技術突破,機器翻譯取代越來越多的人工翻譯崗位,或許并非癡人說夢。
科技博客用翻譯軟件來翻譯硅谷資訊,大學生使用翻譯軟件閱讀英語論文,海外旅行者已把翻譯App作為手機必備應用,看樣子機器翻譯就要取代譯員,如同機器在問答、導航、收銀這些崗位做到的一樣。那么現在機器翻譯究竟做到什么程度了?
機器翻譯初具“理解”能力
理想豐滿,現實亦可期。盡管現在機器翻譯距離人工翻譯還有一段距離,但隨著技術的發展和人類對語言認知的深入,機器翻譯取代人工翻譯很值得期待。
單詞翻譯是最為簡單的,就是詞典在做的事情,單詞與單詞放在一起,成了短語也可以應付。短語和單詞構成句子,不同場景下有著不同的意思,如果還要考慮這些句子在不同篇章中,基于上下文語境的意思,這對機器翻譯而言就有點兒難度了。
舉個通俗的例子,電影字幕的翻譯大家都很熟悉,也都知道只有翻譯者理解了導演要說什么,演員要講什么,理解了故事的來龍去脈,具備對應的專業背景知識,才能帶給觀眾好字幕。
工業界的翻譯技術與它有異曲同工之處,目前尚處于能夠準確翻譯短語和單詞,同時不斷提升句子翻譯質量的階段,且逐步向精準的篇章翻譯靠齊。
句子翻譯兩大難題:消歧和調序
機器翻譯尚處于“句子翻譯“的初級階段,即準確地理解每一個句子的基本意思。據百度NLP(自然語言處理技術)技術人員介紹,盡管機器翻譯在句法理解上有所突破,但最大的難點還在于消歧和調序。
一個是順序問題。長句子,英文的語序和中文的是不一樣的,比如中文“在這張桌子上有一束花”,英文是“There are a bunch of flowers on the table”。這樣的不同是當前機器翻譯的一大難點,機器翻譯需要做到適當地調整順序。
第二個問題是歧義問題。一個詞有多個語義,比如“看”這個詞,看病、看書、看球,是不一樣的;打球、打賞、打牌、打臉中“打”的意思也非常不同。如果直接將句子中的“看”簡單翻譯為Look自然不行,而這樣的情況又無法窮舉。
消歧和調序是機器翻譯要解決的最重要的兩個問題。如果能夠突破,機器翻譯未來就可以幫助人們做更多事情。
機器翻譯突破的殺手锏——NLP技術
業界如何解決機器翻譯所面臨的問題呢?不妨看看百度翻譯的思路。
百度翻譯的核心方案是依靠NLP技術。NLP技術能夠基于海量自然語言語料庫,通過機器學習自動理解不同單詞、短語和句式,模擬人腦思考過程去理解自然語言。
比如,為了增加更多語種之間的互譯可能,百度翻譯選擇中文或英文作為中間語言,在其他語種之間架起一座‘翻譯橋梁’。由于不同語種間的語料規模不一,并且一些小語種間的直接翻譯模型也較小,如果用戶想要將葡萄牙語翻譯成日語,通過這項中軸語技術,機器將自動從葡語——中文——日語,葡語——英文——日語等模型中識別并過濾出最優模型,進而迅速呈現最優翻譯結果。
憑借NLP技術的深厚積累和領先優勢,百度翻譯在很多方面超越同類競品。大規模語料去噪和過濾技術、基于樞軸方法的翻譯知識橋接技術,使得資源匱乏的小語種翻譯成為可能。此外,憑借著在中文資源上的先天優勢,百度翻譯還實現了普通話和粵語、文言文之間的互譯。
機器面對情緒豐富的人類,會醉嗎?
什么才是好的翻譯?清末著名學者嚴復曾提出三個字“信、達、雅”。信是指要準確;達是指說人話接地氣;雅則是指譯文要詞語得體、簡明、優雅。最生動的例子莫過于“Bigger Than Bigger”這個口號的翻譯。中國大陸版本被譯成“比更大還更大”,被廣為吐槽,只做到“信”。香港版本的翻譯“豈止于大”就備受好評。
機器翻譯應該會很容易翻譯出“比更大還更大”這樣的結果,而要翻譯出“豈止于大”這樣具有信達雅風的語句自然還需要時間。
好在百度、Google等公司都在翻譯上投入大量資源,基于計算機、語言學等多種交叉學科不斷在取得突破。人工智能的技術基石正在快速發展,給機器翻譯帶來了新的契機。
未來NLP技術如果能在如何學習理解人類語義方面取得更多技術突破,機器翻譯取代越來越多的人工翻譯崗位,或許并非癡人說夢。