在2015年度國家科學技術獎勵大會上,由百度與中國科學院自動化所、中國科學院計算技術研究所、浙江大學、哈爾濱工業大學、清華大學等單位共同研發的“基于大數據的互聯網機器翻譯核心技術及產業化”項目(以下簡稱“機器翻譯項目”),獲得了國家科學技術進步獎二等獎。
此項目獲國家科技大獎,標志著互聯網大數據為我國機器翻譯技術插上了騰飛的“翅膀”,同時也引發了人們對機器翻譯的關注和探討:在如今的大數據時代,機器翻譯能否取代人工?記者就此采訪了相關專家。
“機器翻譯”技術是世界性難題
機器翻譯技術涉及計算機、認知科學、語言學等學科,一直被科學界公認為是人工智能領域最難的課題之一。
“機器翻譯出現于20世紀40年代,美國等發達國家曾出現過機器翻譯技術研究熱潮。然而多年來,機器翻譯卻一直沒有得到普遍應用。”百度技術副總裁、機器翻譯項目負責人王海峰接受記者采訪時介紹,因為讓計算機理解人類語言,要經歷從分析、理解到轉換生成等繁雜步驟,讓原本只認識“0”和“1”的計算機去實現不同語言之間的翻譯,涉及語言現象的靈活多樣、翻譯知識獲取難度大、翻譯模型計算復雜度高等多個難題。
據了解,中國機器翻譯研究起步于1957年,是世界上第4個開始研究機器翻譯的國家。雖然歷經幾十年的發展,但機器翻譯技術始終未能突破真正實用的門檻。王海峰從1993年初開始從事機器翻譯領域研究工作,最終他組建了項目研究團隊,集合了清華大學、浙江大學、哈爾濱工業大學以及中科院等國內頂尖科研力量,通過百度豐富的海量互聯網數據,再經過云計算平臺處理,才讓機器翻譯從理論走向實踐,變成可能。
基于大數據的互聯網翻譯成為突破口
近些年來,隨著互聯網以及大數據的迅猛發展,基于大數據的互聯網翻譯成為了機器翻譯技術實用化的突破口。王海峰說:“組建研發團隊后,我們從整個互聯網上挖掘翻譯資源,在此基礎上使用云計算平臺訓練統計翻譯模型、深度學習模型,最終讓機器翻譯真正達到實用水平,也實現了機器翻譯領域很多研究者們的畢生夙愿。”
王海峰介紹,互聯網大數據給機器翻譯帶來了機遇,語言資源數據量激增,使得海量翻譯知識的自動獲取和實時更新成為可能。但同時,互聯網大數據也帶來了新的挑戰:比如互聯網語言數據噪聲大,語言歧義現象多,小語種雙語資源數據稀缺等。他們的項目團隊遭遇了不少難題,比如2010年初,通過數據分析,他們的研究團隊發現,互聯網數據雖大,里面卻存在著大量的低質語料,比如“好好學習、天天向上”在抓取回來的語料中大多數都被翻為了“good good study,day day up”。
面對如此令人啼笑皆非的語料,項目團隊反復研究改進,最終將傳統文本處理技術與互聯網技術完美結合。國家科技獎的項目評審專家認為,該獲獎項目突破了機器翻譯領域內的四大世界級技術難題:“提出基于大數據的互聯網機器翻譯模型,快速響應高負荷翻譯需求;基于大數據的翻譯知識獲取,克服語言數據噪聲問題;通過深度語義分析和翻譯技術,解決語言語義歧義問題;提出樞軸語言機器翻譯技術,實現了稀缺語種的多語言翻譯。”
未來需要機器翻譯和人工翻譯的融合發展
現在,在百度等大數據翻譯平臺,輸入任何需要翻譯的語言,都能得到比較準確的翻譯語言結果。那么,有了機器翻譯技術,未來機器翻譯是否會取代人工翻譯呢?
“與人工翻譯相比,機器翻譯具有獨特的優勢。隨著互聯網數據的不斷豐富、翻譯模型的持續創新,機器翻譯效果會被打磨得越來越好。也許三五年后,看似高大上的機器翻譯會融入日常生活的方方面面。”王海峰接受記者采訪時表示:“首先,機器翻譯現在可以覆蓋多達幾十種語言,這對于人工翻譯來說是難以達到的。另外,機器翻譯系統具有可涵蓋多領域、多行業的海量詞典和翻譯模型,可在不同場景下進行翻譯,而反觀人工翻譯,則往往只能精深于某個特定的領域或行業。機器翻譯正在為人們生活帶來各種便利。人們可以通過機器翻譯,解決衣食住行中遇到的語言難題。小到出國旅游、科技文獻翻譯,大到國際貿易、跨語言文化交流,多語言信息聯通需求,都讓機器翻譯發揮重要價值。”
哈爾濱工業大學的李生教授表示,機器翻譯在生活服務、學習等領域正逐漸替代人工翻譯,成為個人翻譯助手。不過目前的翻譯技術手段還無法完全達到“信、達、雅”的標準。但隨著信息技術的推動,實現及時的全世界信息共享,單靠人工翻譯顯然很難完成,但機器翻譯也不會完全替代人工翻譯,二者需要融合發展。