長久以來,人類都有一個共同夙愿:發明一個機器,實現全人類之間毫無障礙的自由交談。而毫無疑問,自由交談在一個宣稱自由連接的互聯網時代更能彰顯它的價值——畢竟,同是地球人,同住地球村,當你我覓得彼此,卻聽不懂彼此語言,實在有些尷尬。
事實上,與那些讓生活變得復雜的“智能產品”不同,實時翻譯是那種讓人在直覺上理應擁有的技術,正因如此,它也一直存在于《星際迷航》《神秘博士》以及《銀河系漫游指南》等科幻作品中。好消息是,人類似乎離這個夙愿越來越近了。
幾天之前,微軟旗下的Skype(聽起來很久遠的名字)宣布,具備實時語音翻譯技術的翻譯器Skype Translator中文預覽版正式在中國市場推出。其實不同母語間的人直接對話,讓機器實時翻譯,這些技術微軟早在去年就已與公眾見面,只是那時還不支持中文——你知道,哪怕是對于機器,有大約一萬個常用漢字以及各種語音語調的中文也頗具挑戰性。但如今,包括微軟和谷歌在內的科技巨頭的發力,使得地球上使用人數最多的語言和使用最廣泛的語言能直接展開對話。
那么問題來了,作為不同文化之間的擺渡人,倘若實時翻譯真能實現人類的自由交談,這一切意味著什么?
翻譯神器
作為一項長久愿望,在此前數十年時間,語音實時翻譯的發展一直受到錯誤率高,麥克風敏感度差異,噪音環境等因素阻礙。但近些年來,由于大數據的涌現,這項技術取得了不錯的進展。而Skype Translator更是凝聚了微軟在語音識別,自動翻譯和機器學習等多領域的成果。
簡單地說,Skype Translator的翻譯邏輯主要分為三步:將你的實時語音轉成文字;將文字翻譯成另一種語言的文字;將文字轉成語音。其中,識別實時語音并轉成文字是最棘手的部分。
如你所知,精確的實時語音翻譯有賴于強大的機器學習——也就是軟件學習訓練數據的能力。這些訓練數據包括翻譯的網頁,配有字幕的視頻,以及預先翻譯且轉錄成文字的一對一談話。事實上,已有不少人分享了他們過去的對話記錄。Skype Translator通過記錄對話來分析文本并訓練系統更好地“學習”語言——當準備好的數據錄入系統后,機器學習軟件會在這些對話和環境涉及到的單詞中搭建一個統計模型,當你說話時,軟件會在統計模型中尋找相似內容,然后應用到預先“學到”的轉化程序中,得以讓語音轉換為文本,再從文本轉換成另一種語言。
值得一提的是,與程序設定一般的朗誦不同,人會一邊思考一邊說話,會犯錯,這種犯錯在口語表達中的體現就是打磕巴,停頓,重復,或者頻頻出現如“嗯”“啊”“呃”之類的語氣助詞,針對于此,Skype Translator的機器學習模型也會處理這些停頓。在預覽版中,用戶可以看到部分語氣詞停頓被移除,而未被移除的部分則可能通過用戶反饋進行再優化。
不過,作為一項不斷優化的技術,無論是微軟的Skype Translator還是“老對手”谷歌的Google Translate,至少在現階段,實時語音翻譯技術應該還談不上完美,系統對語音的識別準確率也有待完善——你知道,語言如一只野獸,時刻都在變化,哪怕同一國家,因地域不同也有不同口音與俚語文化(有人就非常期待機器實時翻譯以下對話:“約嗎?我在火車站等你。”“我去!太遠了!我不去!”)。這些問題可以通過更大范圍的數據解決么?也許能,但還需要時間。
然而無論怎樣,就像一位評測者所言:“(如今語音實時翻譯)整個體驗就像是兩名電話銷售員在使用對講機,不過在使用過程中,這樣的抱怨將會被 奇跡 帶來的震驚所取代。”
地球村
在《圣經·創世紀》中記載,曾有一個時代,人類擁有共同的語言,于是有人想在巴比倫造一座通天塔——巴別塔,以便直接跟上帝對話,為了懲罰人類的傲慢與虛榮,上帝讓這些人說不同的語言,導致人們無法溝通,雞同鴨講,人類計劃失敗,自此各散東西。
那么技術能解除“巴別塔魔咒”么?倘若語言不再是人類交流的壁壘,會發生什么?
讓我們先來談談語言的意義。在全球7000多種語言中(盡管有不少“小語種”已日漸枯萎),除了詞匯和語法的表層差異,不同的語言是否能使人類產生不同的思維方式——譬如對時間與空間概念的認知,或者對因果關系的認知,幾千年來就一直是學者們爭論的主題。神圣羅馬帝國的查理曼大帝就曾在科技還不甚昌明的時代宣稱:“掌握第二種語言就是擁有第二個靈魂。”
當然,從科學的角度,斯坦福大學教授Lera Boroditsky也曾頗具詩意地表達過語言的意義:“每種語言都包含著一種獨特的世界觀,反映了使用者數千年來的思想,傾向和認知方式。一種語言就像一個完整的宇宙,人類有7000多個平行宇宙,有的彼此相似,有的大相徑庭。這種巨大的多樣性是人類頭腦靈活性和精致性創造出的奇跡。我相信,對人類認知世界的認識越深刻,就越能更好地理解人類的本質。”
嗯,倘若互聯網發展的底層邏輯是將全人類更好地連接在一起,形成一個巨大村落,那么語言也許就是最后一個技術障礙。在此之前,圖片作為全世界的通用語言,在社交應用上發揮了巨大作用——無論在哪個國家,笑容就是笑容,哭泣就是哭泣。當然,表情符號也發揮了類似作用——你知道么,真的有人曾用表情符號聊了45分鐘。
所以,可以肯定的是,當人類連接在一起,打破語言的壁壘,更好地理解彼此,勢必將開啟“地球村”的新篇章。
最后我想說,對于那些連四級都沒過的同學,你們也許真的有福啦。