數(shù)字技術(shù)的發(fā)展和人工智能的應(yīng)用,為語言保護(hù)工程帶來新的可能。和傳統(tǒng)手段相比,新技術(shù)不僅讓語言存檔速度和能力提升,并且可以通過互動(dòng)學(xué)習(xí)為方言庫的完善做出貢獻(xiàn)。
四川話聲音模特還沒找到合適的
人工智能可以成為瀕危語言的救命稻草嗎?《人民日報(bào)》曾評論稱,“從某種程度上說是可以的,如果使用到位,至少能避免重演‘一個(gè)人帶走一種語言’的尷尬。”
剛成立不到一個(gè)月的阿里AI labs(人工智能實(shí)驗(yàn)室)方言保護(hù)專項(xiàng)小組,現(xiàn)在是虛擬小組狀態(tài),語音識別和語音合成兩塊業(yè)務(wù)正在推進(jìn)。據(jù)阿里巴巴集團(tuán)公關(guān)部公關(guān)經(jīng)理朱珠介紹,目前四川話的語音識別工作已經(jīng)完成。
反響熱烈的四川話聲音模特招募,正是為了語音合成做準(zhǔn)備。朱珠表示,雖然報(bào)名四川話聲音模特的人數(shù)眾多,但目前還沒找到合適人選。“聲音模特跟大家意義中的配音不一樣,在技術(shù)上我們要求聲音模特錄制基本的語料,這些語料可以自由組合,合成新的句子。即使沒有錄制過這句話,也能‘說’出來。聲音模特人選確定后,技術(shù)開發(fā)還需要3個(gè)月左右的時(shí)間。”
四川話是西南官話,使用者眾且一致性強(qiáng)。與學(xué)界優(yōu)先保護(hù)瀕危語言的做法不同,阿里AI labs方言保護(hù)始于四川話,正是看準(zhǔn)了語音交互產(chǎn)品在方言優(yōu)勢地域的巨大商業(yè)價(jià)值,這背后是三四線城市以及農(nóng)村地區(qū)。朱珠承認(rèn):“現(xiàn)階段,我們做不到像語保工程那么廣的覆蓋度,但我們重在積累厚度。同時(shí)也要考慮方言和產(chǎn)品的結(jié)合,選擇從有大量使用者的方言起步。”
方言保護(hù)不可能瞬間用錢砸出來
在陜西師范大學(xué)文學(xué)院教授邢向東眼中,企業(yè)參與方言保護(hù),在技術(shù)和資金方面有強(qiáng)大的優(yōu)勢。“不過也有困難,方言文化資料的記錄、保存在語保工程里都有明確、嚴(yán)格的規(guī)范和標(biāo)準(zhǔn),企業(yè)做的動(dòng)態(tài)方言庫中,如何收集方言材料?方言材料的質(zhì)量有沒有一個(gè)下限式的標(biāo)準(zhǔn)?如何判斷是什么方言?人工智能對方言材料依照什么原則分類和存儲?這些都需要在啟動(dòng)、設(shè)計(jì)階段就考慮到。”
對于學(xué)者提出的疑問,朱珠回應(yīng)稱:“產(chǎn)品開發(fā)還在進(jìn)行中,我們需要和學(xué)界多溝通,共同研究出更科學(xué)的方式。”
阿里AI labs的方言保護(hù)小組還沒來得及和他們的顧問見面。作為第一位顧問,暨南大學(xué)華文學(xué)院教授郭熙得知項(xiàng)目投入1億元后說,“估計(jì)不夠”。
朱珠表示,在初步階段,學(xué)界對于這個(gè)項(xiàng)目是很好奇的,自己接觸的專家中還是鼓勵(lì)的多。“郭老師也說,他相信肯定有一些改變,至于我們能做成什么樣,他也很想看一看。”朱珠強(qiáng)調(diào),方言保護(hù)不是一個(gè)人或一家公司能做到的事情,也不可能指望能瞬間用錢砸出來,“記錄和保留即將消失的語言,我不知道能不能做得到,這是一個(gè)很終極的目標(biāo)。希望能借此提高大家對于方言保護(hù)的關(guān)注度,更重視方言,更愿意使用方言。”