1947年,美國科學家韋弗(W. Weaver)博士和英國工程師布斯(A. D. Booth)博士提出了利用計算機進行語言自動翻譯的設想,機器翻譯(Machine Translation,英文簡稱MT,中文簡稱“機譯”)從此步入歷史舞臺,并走過了一條曲折而漫長的發展道路。
從上世紀50年代到60年代前半期,機譯研究呈不斷上升趨勢,并從理論走向實驗。美國和前蘇聯兩個超級大國出于政治、軍事、經濟目的,均對機譯項目提供了大量的資金支持,而歐洲國家由于地緣政治和經濟的需要也對機譯研究給予了相當大的重視;此時的中國和日本也開始了這項研究,機譯一時出現熱潮。這個時期的機譯雖然剛剛處于開創階段,但已進入了最初的繁榮期。
1966年,由美國科學院成立的語言自動處理咨詢委員會(ALPAC)公布了一個題為《語言與機器》的報告;該報告全面否定了機譯的可行性和實用性,并建議停止對機譯項目的資金支持。這一報告的發表給了正在蓬勃發展的機譯當頭一棒,美加英法德意等國的相關研究陷入了近乎停滯的僵局。無獨有偶,當時的中國爆發了“文革”動亂,基本上這些研究也停滯了。這個時期的機譯研究步入了蕭條期。
進入70年代后,隨著科學技術尤其計算機技術的發展和國際交流的日趨頻繁,從技術層面和社會需求推動了機譯研究的復蘇,機譯項目又開始發展起來,各種實用的以及實驗的系統被先后推出。而中國的機譯研究在“文革”結束后也重新振作起來,80年代中期以后,其機譯研究發展進一步加快,并取得了長足的進步和可喜的成績。
從80年代中期開始,基于語料和多引擎機譯方法的廣泛運用,機譯系統的性能和效率有了明顯提高,各式各樣的翻譯軟件如雨后春筍般問世,并走進了市場。
到了本世紀,由于互聯網技術的普遍應用,機譯又迎來了一個全新的發展機遇。如今基于搜索引擎的在線翻譯已成為了一個必不可少的工具。其中谷歌翻譯目前已實現了對100種語言的支持,每日用戶超過2億。
為提高在線翻譯質量,谷歌公司的幾名工程師提出了一種嶄新的機譯方法——將語言翻譯變成向量空間數學問題,利用數據挖掘技術建模一種語言的結構,然后與另一種語言的結構進行對比,從而擴充和完善雙語平行語料庫。他們聲稱:在翻譯英語和西班牙語之間的單詞和短語時,準確率可以達到幾乎90%。此外,為了進一步提高在線翻譯質量,谷歌建立了人工翻譯社區,面向所有用戶開放。在這個社區里,語言專家和專業譯者可以對原有的譯文進行比較、評分,同時也可以提交新的譯文。
2011年開始,伴隨著語音識別、機譯技術的快速發展和經濟全球化的需求,即時口譯研究已成為當今信息處理領域新的研究熱點。例如,谷歌公司新推出的翻譯手機軟件就具有即時語音翻譯功能;除了語音翻譯功能之外,該軟件還能讓使用者用手機的攝像頭即時翻譯圖像內的文本。
前不久,微軟公司推出了具有即時口譯功能的“Skype Translator”,它可以自動翻譯不同語言的語音通話和即時通信消息,當前支持的語言包括英語、西班牙語、意大利語和漢語普通話。除了實時語音翻譯之外,Skype Translator的即時通信消息翻譯已支持50種語言,包括法語、日語、阿拉伯語、威爾士語等。由于這款翻譯工具集成了機譯、大數據、語音識別、機器學習等先進技術,因此被廣泛看好。
機譯是涉及數學、語言學、邏輯學、人工智能和語音技術等多種學科和技術的綜合性研究課題。它消除了不同文字和語言間的隔閡,堪稱高科技造福人類之舉。美國發明家和企業家庫茲威爾(R. Kurzweil)博士在接受著名網絡媒體《赫芬頓郵報》采訪時曾預言,“到2029年機譯的譯文質量將達到人工翻譯的水準。”這一預言未免過于樂觀。但遺憾的是,至今機譯的若干理論難題(如深層次語義)都沒有從根本上得到解決;某些方法和技術也沒有實質性的改進;機譯系統的性能(在消歧和調序方面)還不盡如人意,尤其是譯文質量,離理想目標仍相差甚遠。
眾所周知,人工翻譯的過程是人工譯者集理解、分析、選擇及再創造為一體的綜合過程,是大腦思維活動的過程。因此,機譯的譯文質量要達到人工翻譯的水準,就必須解開大腦處理語言信息之謎。正如中國數學家和語言學家周海中教授所言:在人類尚未明了大腦是如何進行語言的模糊識別和邏輯判斷的情況下,機譯要想達到“信、達、雅”的程度是不可能的。這一觀點精辟到位,道出了制約譯文質量提高的瓶頸所在。
我們相信,在計算機專家、語言學家、心理學家、邏輯學家和數學家的共同努力下,尤其在“人類大腦工程”的推動下,機譯的瓶頸問題將會得到解決,語言的交流障礙將會得以跨越。展望未來,機譯技術將迎來更加光明的發展前景和更加廣闊的發展空間。