亚洲国产天堂久久综合网站,久久中文字幕一区二区,91国自产精品中文字幕亚洲

大數據時代：機器翻譯能否取代人工

責任編輯：editor004

作者：袁于飛

2016-01-18 10:55:14

摘自：光明日報

王海峰介紹，互聯網大數據給機器翻譯帶來了機遇，語言資源數據量激增，使得海量翻譯知識的自動獲取和實時更新成為可能。”　　哈爾濱工業大學的李生教授表示，機器翻譯在生活服務、學習等領域正逐漸替代人工翻譯，成為個人翻譯助手。

在2015年度國家科學技術獎勵大會上，由百度與中國科學院自動化所、中國科學院計算技術研究所、浙江大學、哈爾濱工業大學、清華大學等單位共同研發的“基于大數據的互聯網機器翻譯核心技術及產業化”項目（以下簡稱“機器翻譯項目”），獲得了國家科學技術進步獎二等獎。

此項目獲國家科技大獎，標志著互聯網大數據為我國機器翻譯技術插上了騰飛的“翅膀”，同時也引發了人們對機器翻譯的關注和探討：在如今的大數據時代，機器翻譯能否取代人工？記者就此采訪了相關專家。

“機器翻譯”技術是世界性難題

機器翻譯技術涉及計算機、認知科學、語言學等學科，一直被科學界公認為是人工智能領域最難的課題之一。

“機器翻譯出現于20世紀40年代，美國等發達國家曾出現過機器翻譯技術研究熱潮。然而多年來，機器翻譯卻一直沒有得到普遍應用。”百度技術副總裁、機器翻譯項目負責人王海峰接受記者采訪時介紹，因為讓計算機理解人類語言，要經歷從分析、理解到轉換生成等繁雜步驟，讓原本只認識“0”和“1”的計算機去實現不同語言之間的翻譯，涉及語言現象的靈活多樣、翻譯知識獲取難度大、翻譯模型計算復雜度高等多個難題。

據了解，中國機器翻譯研究起步于1957年，是世界上第4個開始研究機器翻譯的國家。雖然歷經幾十年的發展，但機器翻譯技術始終未能突破真正實用的門檻。王海峰從1993年初開始從事機器翻譯領域研究工作，最終他組建了項目研究團隊，集合了清華大學、浙江大學、哈爾濱工業大學以及中科院等國內頂尖科研力量，通過百度豐富的海量互聯網數據，再經過云計算平臺處理，才讓機器翻譯從理論走向實踐，變成可能。

基于大數據的互聯網翻譯成為突破口

近些年來，隨著互聯網以及大數據的迅猛發展，基于大數據的互聯網翻譯成為了機器翻譯技術實用化的突破口。王海峰說：“組建研發團隊后，我們從整個互聯網上挖掘翻譯資源，在此基礎上使用云計算平臺訓練統計翻譯模型、深度學習模型，最終讓機器翻譯真正達到實用水平，也實現了機器翻譯領域很多研究者們的畢生夙愿。”

王海峰介紹，互聯網大數據給機器翻譯帶來了機遇，語言資源數據量激增，使得海量翻譯知識的自動獲取和實時更新成為可能。但同時，互聯網大數據也帶來了新的挑戰：比如互聯網語言數據噪聲大，語言歧義現象多，小語種雙語資源數據稀缺等。他們的項目團隊遭遇了不少難題，比如2010年初，通過數據分析，他們的研究團隊發現，互聯網數據雖大，里面卻存在著大量的低質語料，比如“好好學習、天天向上”在抓取回來的語料中大多數都被翻為了“good good study，day day up”。

面對如此令人啼笑皆非的語料，項目團隊反復研究改進，最終將傳統文本處理技術與互聯網技術完美結合。國家科技獎的項目評審專家認為，該獲獎項目突破了機器翻譯領域內的四大世界級技術難題：“提出基于大數據的互聯網機器翻譯模型，快速響應高負荷翻譯需求；基于大數據的翻譯知識獲取，克服語言數據噪聲問題；通過深度語義分析和翻譯技術，解決語言語義歧義問題；提出樞軸語言機器翻譯技術，實現了稀缺語種的多語言翻譯。”

未來需要機器翻譯和人工翻譯的融合發展

現在，在百度等大數據翻譯平臺，輸入任何需要翻譯的語言，都能得到比較準確的翻譯語言結果。那么，有了機器翻譯技術，未來機器翻譯是否會取代人工翻譯呢？

“與人工翻譯相比，機器翻譯具有獨特的優勢。隨著互聯網數據的不斷豐富、翻譯模型的持續創新，機器翻譯效果會被打磨得越來越好。也許三五年后，看似高大上的機器翻譯會融入日常生活的方方面面。”王海峰接受記者采訪時表示：“首先，機器翻譯現在可以覆蓋多達幾十種語言，這對于人工翻譯來說是難以達到的。另外，機器翻譯系統具有可涵蓋多領域、多行業的海量詞典和翻譯模型，可在不同場景下進行翻譯，而反觀人工翻譯，則往往只能精深于某個特定的領域或行業。機器翻譯正在為人們生活帶來各種便利。人們可以通過機器翻譯，解決衣食住行中遇到的語言難題。小到出國旅游、科技文獻翻譯，大到國際貿易、跨語言文化交流，多語言信息聯通需求，都讓機器翻譯發揮重要價值。”

哈爾濱工業大學的李生教授表示，機器翻譯在生活服務、學習等領域正逐漸替代人工翻譯，成為個人翻譯助手。不過目前的翻譯技術手段還無法完全達到“信、達、雅”的標準。但隨著信息技術的推動，實現及時的全世界信息共享，單靠人工翻譯顯然很難完成，但機器翻譯也不會完全替代人工翻譯，二者需要融合發展。

機器翻譯語義歧義