據(jù)聯(lián)合國統(tǒng)計,世界上有7000多種語言,但消亡的速度卻非常快,平均每個月都有2種語言消失。由于人工智能在語言存檔和學(xué)習(xí)方面具有優(yōu)勢,人工智能在拯救瀕危語言的斗爭中變得比以往任何時候都更加重要。
Jason Lovell正在學(xué)習(xí)新西蘭的土著語言“毛利語”,但缺少幫助他練習(xí)的對象,因此他與IBM的“沃森人工智能”合作,創(chuàng)立了一個Facebook messenger聊天機器人,該聊天機器人能夠理解并回復(fù)用戶的信息,包括毛利語和英語。即使用戶犯了拼寫錯誤,比如“Reobot”,對Lovell的聊天機器人來說,也不會造成理解障礙。Lovell希望在不久的將來引入發(fā)音幫助。通過提供毛利語交流機會,Reobot可以幫助學(xué)習(xí)者更快地培養(yǎng)自信和技能。
為了向居住在偏遠社區(qū)的兒童教授澳大利亞土著語言,一組來自ARC語言動力學(xué)卓越中心(CoEDL)的研究人員開發(fā)了Opie,這是一種低成本、易于運輸?shù)臋C器人。在學(xué)習(xí)故事、游戲和課程時,Opie的眼睛能夠和孩子們互動,此外,機器人能夠記錄孩子們的語言技能,協(xié)助老師追蹤他們的學(xué)習(xí)進度。CoEDL已經(jīng)與谷歌展開合作,為土著語言轉(zhuǎn)錄和構(gòu)建人工智能模型,這要歸功于谷歌的開源人工智能平臺TensorFlow。這臺機器學(xué)習(xí)技術(shù)為語言學(xué)家省去了數(shù)百萬小時的時間,在CoEDL的存儲庫中記錄了超過4萬小時的錄音。
對許多組織來說,維護語言數(shù)據(jù)數(shù)據(jù)并將其引入土著社區(qū)是一項挑戰(zhàn)。第一人民文化委員會(FPCC)的使命是支持不列顛哥倫比亞省的土著語言、藝術(shù)、文化和遺產(chǎn)的復(fù)興,與當(dāng)?shù)厣鐓^(qū)合作,將語言數(shù)據(jù)存檔,并通過其First Voices平臺進行教學(xué)。First Voices的最新創(chuàng)新是一款鍵盤應(yīng)用,用戶可以在移動設(shè)備上的任何應(yīng)用上輸入超過100種本地語言,包括社交媒體、電子郵件和文字處理。
First Voices存儲的數(shù)據(jù)是一個開源的云原生內(nèi)容服務(wù)引擎,其將人工智能和機器學(xué)習(xí)整合在內(nèi)。
未來學(xué)家托馬斯·弗雷(Thomas Frey)設(shè)想出一種全球語言檔案館,作為一個活生生的博物館,一座“語言的盧浮宮”,在那里,已經(jīng)滅絕的語言甚至都可以被學(xué)習(xí):“將收集到的足夠多的視頻、音頻和書面文件輸入到人工智能語言重建引擎(AI Language Recreation Engine),其能夠生成一個功能性的三維立體化身,將語言傳授給想要學(xué)習(xí)它的人。”人工智能引擎將更進一步,填補任何語言空白,在需要時創(chuàng)建一種語言的書面形式,并提供語言之間的翻譯。
弗雷將瀕危語言項目(Endangered Languages Project)作為創(chuàng)建全球語言檔案的第一步,該項目由第一人民文化委員會在夏威夷大學(xué)夏威夷分校的瀕危語言目錄/瀕危語言項目(ELCat/ELP)管理。瀕危語言項目匯集了瀕危語言的資源和信息,這要歸功于全世界的合作者,到目前為止,該項目已擁有3418種語言的數(shù)據(jù),其中許多語言都位列瀕危語種中。