Google Translate目前是翻譯機器翻譯中比較受歡迎的,也是翻譯效果比較好的。Google Translate質量有所提升,其關鍵并不在于語言學和語料庫研究的突破,而是因為一項技術: 大數據 。
在大數據出現之前,傳統機器翻譯遵循以下規則:先設定好一套盡可能完善的語法規則以及兩種語言的對應詞庫,然后根據這套規則對輸入的語言進行翻譯。
谷歌用了大數據這一技術,使翻譯質量得到了大大的提高。
Och 在Google Translate官方博客的一篇題目為《打破語言的隔閡》的文章中介紹了一些Google Translate的發展史。Google Translate項目起源于2001年,當時僅提供9種語音互譯的服務。盡管它采用了當時世界領先的機器翻譯,但是翻譯質量并不高,幾年來也沒有什么提高。到2003年,他們發現了一種數據驅動的方法——通過收集大量網絡語言資源進行輔助。但是期初運行速度非慢。2006年,Google Translate改進了“統計機器翻譯”。
Google Translate的核心技術在于“統計機器翻譯”,之所以采用“統計機器翻譯”,一個重要原因是Google的云計算架構。機器翻譯需要海量的數據儲存空間以及高效的運算能力,而Google擁有分布式計算系統和分布式儲存系統,恰好滿足了這方面的需求。
簡單來說,使用大數據進行翻譯是并不是按照語法規則來翻譯的,而是將整個句子放到互聯網庫中進行搜索,統計出整個互聯網上所有與這句話翻譯相關的結果,而統計次數最高的譯文就可以最為最終答案參考。這樣一來,Google翻譯出來了結果就有了很好的效果,被用戶接受程度也最高,翻譯的質量有了很大提高。
從Google Translate的例子可以看出,其實“大數據”的應用并不是說只在一些“理工科的領域”,它必將會滲透到我們生活的方方面面,給我們的生活帶來極大的不同和改變。