上個世紀(jì)中葉,計算機還是一個要占據(jù)整個房間的龐然大物。在冷戰(zhàn)期間,美國獲取了大量前蘇聯(lián)的各方面資料,但苦于翻譯人才不足,只能求助于計算機技術(shù)來解決翻譯壓力。1954年IBM公司將250個單詞和語法規(guī)則搭配,將60個俄語斷句翻譯成了英語。當(dāng)時有樂觀派專家對媒體稱“三年后的機器翻譯一定會非常成熟”。
但這種思路很快就被證明是種誤導(dǎo)。因為語言的變化是極其靈活的,一個單詞在不同的語境和情緒下有著截然不同的含義。就像是中文的 “哪里”,可以是詢問位置,也可以是一句客套話。而IBM的單詞配語法有著很大的局限性,語料庫始終在追求精確的語法,而人們的表達(dá)卻越來越隨意。到20 世紀(jì)90年代,IBM投入了大量的資金挑戰(zhàn)機器翻譯,卻收效甚微,最終項目無奈終止。
2006年谷歌公司開始涉及機器翻譯。谷歌的語料庫跳出了兩種語言互相對等匹配的傳統(tǒng)文本翻譯思路,不再僅依靠兩種語言之間嚴(yán)謹(jǐn)?shù)恼Z法詞法聯(lián)系。開始基于全球互聯(lián)網(wǎng),利用一個更大更龐雜的數(shù)據(jù)庫來進(jìn)行翻譯。
如果只追求單詞和語法的準(zhǔn)確,那谷歌語料庫只能算是一堆殘渣廢料。因為谷歌語料庫的內(nèi)容既有來自國際組織的標(biāo)準(zhǔn)文件,也有來自網(wǎng)絡(luò)論壇的“閑言碎語”和大量其他未經(jīng)處理的互聯(lián)網(wǎng)訊息,它掌握了不同語言質(zhì)量參差不齊的文檔大約有幾十億頁,其中包容了大量的拼寫錯誤。這海量的“原版”語言構(gòu)成了跨語言表達(dá)的“訓(xùn)練集”,可以正確地推算出詞匯搭配在一起的可能性。谷歌翻譯出來的文字從語言美學(xué)角度來看確實沒有美感,但語義溝通還是不成問題的。學(xué)會一門語言到通讀文獻(xiàn)的水平需要數(shù)年的時間,而在這種機器翻譯的輔助下只需要一瞬間,細(xì)想起來運用大數(shù)據(jù)手段解決溝通壁壘的效率還是立竿見影的。
大數(shù)據(jù)的成功運用打破了不同語言之間的交流壁壘,提高了兩種語言的溝通效率。在現(xiàn)實的經(jīng)濟活動中,去理解一個陌生領(lǐng)域的難度不亞于理解一門全新的語言。這樣的問題在銀行風(fēng)控部門的工作中表現(xiàn)最為突出。各個行業(yè)發(fā)展迅速,銀行面對的申請貸款企業(yè)來自各行各業(yè),每個行業(yè)的特點迥異。尤其現(xiàn)在跨行業(yè)經(jīng)營的現(xiàn)象與日俱增,這大大提升了對銀行客戶經(jīng)理本身的素質(zhì)要求。當(dāng)銀行面對一個全新的行業(yè)時,跨行業(yè)的理解難度就像是面對一門新語言。其次出于成本的考慮,銀行負(fù)責(zé)貸后監(jiān)管的人手畢竟有限,即便每個責(zé)任人再努力也不可能有充足的時間對手上的若干家貸款企業(yè)逐一跟蹤。所以在短時間內(nèi)有效了解該行業(yè)的管理特點,風(fēng)險易發(fā)節(jié)點、頻率對銀行的貸款風(fēng)控至關(guān)重要。簡而言之,銀行風(fēng)控部門亟待解決的問題就是如何降低跨界溝通難度、提高跨界溝通效率。銀行和企業(yè)的“跨界溝通”也需要一種有效的“翻譯”手段。
大數(shù)據(jù)手段沖破語言溝通障礙案例對經(jīng)濟領(lǐng)域的跨界溝通有著重要的指導(dǎo)意義。傳統(tǒng)的思路中,資方會通過財務(wù)報表來衡量一個企業(yè)的優(yōu)劣,但事實證明這種辦法是“小數(shù)據(jù)”思路,在數(shù)據(jù)采集手段更為便利的今天,似乎財報的短板在日益凸顯,畢竟財報的三張表是可以用PS手段來美化的,并不能如實反映企業(yè)情況。
谷歌語料庫包含了互聯(lián)網(wǎng)上的各種語言“細(xì)節(jié)”,在翻譯的過程中會甄選最貼近真實情況的平行文本,所有能最大限度反映語言的本意。一家企業(yè)的財報數(shù)據(jù)量一般是幾十個KB,而如果統(tǒng)計幾年的明細(xì)數(shù)據(jù)可以到十幾個GB,這寫明細(xì)數(shù)據(jù)包括企業(yè)訂單、庫存、下線、結(jié)算、付款這些核心環(huán)節(jié)的所有數(shù)據(jù)。通過相應(yīng)的大數(shù)據(jù)算法模型來進(jìn)行清洗和分析后“翻譯”成銀行或相應(yīng)部門能夠“理解”的版本,是解決信息不對稱問題的有效途徑。
李克強總理在剛剛結(jié)束的兩會上也提到了“互聯(lián)網(wǎng)+”和“大數(shù)據(jù)”的概念,未來幾年的大數(shù)據(jù)和互聯(lián)網(wǎng)的發(fā)展基調(diào)非常明顯。事實上國內(nèi)已經(jīng)有企業(yè)在“大數(shù)據(jù)金融”領(lǐng)域走在了世界的前列,通過大數(shù)據(jù)手段為中小企業(yè)爭取了數(shù)十億的純信用融資,并且至今沒有發(fā)現(xiàn)一筆不良。大數(shù)據(jù)的概念在深入人心,大數(shù)據(jù)成功實踐的案例也在不斷增加。
大數(shù)據(jù)的魅力在于“通達(dá)”,大數(shù)據(jù)手段可以提高兩種不同語言的溝通效率,可以降低不同經(jīng)濟領(lǐng)域的跨界難度。尤其對于金融部門,大數(shù)據(jù)手段恰可以真實反映企業(yè)狀況,提前判斷未來可能發(fā)生的經(jīng)營風(fēng)險。大數(shù)據(jù)時代來了,谷歌讓兩種語言的溝通更順暢,經(jīng)濟領(lǐng)域的跨界溝通還會遠(yuǎn)嗎?