瀕危語言保護(下簡稱為“語保”)已經成為一項重要而迫切的工作。在中國,普通話的優勢地位已經造成一些少數民族語言、方言等弱勢語言的使用人數明顯減少,如不及時對弱勢語言采取措施,我們將失去對人類文化遺產完整記錄的機會。
當前方法手段不能滿足語保進程
我國對語保工作早就有所重視,并有著深厚的方言研究基礎。2005年我國啟動國家語言資源保護工程(以下簡稱為“語保工程”),我國學者對方言保護的主要研究方法是田野調查,研究內容包括中國語言資源有聲數據庫、方言詞典、方言地圖等。
國際語言學家也對瀕危語言進行了語言資源記錄。2017年,美國科學家提出語音羅塞塔計劃,旨在通過“未知”語言的語音和“已知”語言的文本的平行關系記錄沒有文字的“未知”語言(即瀕危語言)。
歸納、確定被研究語言的基本音位是語言記錄的基本工作之一,但目前這項工作很大程度依賴于調查者對語音的主觀感知和“口耳”工作。由于依賴人工,分析語料局限于孤立字、詞,導致研究進度受限,很難將研究內容擴大到連續語音,從音位歸納上升到句法、語義層面的分析。并且,很多中國方言,特別是南方方言中,孤立音節的聲韻調在連續話語中表現多變,在復雜的連續話語中,去除語境、韻律結構、情感等諸多因素的干擾,歸納完整的語音變化單靠人力是力所不及的。
同時,隨著社會發展的日新月異,每隔數年語言會發生明顯變化。因此,語言記錄和分析需要高效的解決方案。
利用AI技術實現“語言復制”迫在眉睫
利用人工智能技術系統地研究瀕危語言、方言的語音結構、語言結構,實現對一種語言的完整“復制”迫在眉睫。
“語言復制”的概念是通過智能語音技術對一種語言實現完整記錄。記錄內容包括確定該語言的語音結構(例如音節語言的聲母、韻母、聲調等)、完整分析該語言的句法結構、連續語音的音變和連讀變調分析、基本意義單位和主流語言的對應關系以及這個語言的任意文本或語音和主流語言之間的互譯關系。
基于主流語言語音系統,完成語音復制需要建立被研究語言的語音合成系統(文語轉換系統)、語音識別系統以及和主流語音之間的翻譯系統。科大訊飛智能語音技術的發展和多年來的語言積累,可以助力語保工程。一些核心技術的突破和語言積累,使得不同語種之間互譯成為可能。
科大訊飛人工智能(AI)研究院有著豐厚的智能語音研究基礎,到目前為止實現了中文、英文以外的30多種語言(包含多種少數民族語言)的語音合成、語音識別、翻譯,其中許多語音系統屬拓荒性系統。研究院基于深度學習技術,采用全球文本、聲學解決方案,在除中文普通話、英語等強勢語言以外的許多語音合成系統上突破了語音合成MOS4.0的門檻,目前正嘗試在部分瀕危語言和方言上進行語言復制。
需要更多熱愛母語的人參與
不同的研究目的會產生不同的語言分類。從人工智能的角度出發,我們將語言分為主流語言和非主流語言。中文普通話就是主流語言。非主流語言又分為三個類別。第一類是文字、口語都被廣泛使用的語言,例如維吾爾語、藏語等。在這類語言的使用區域,雖然文字被廣泛使用,但是往往缺乏正字規范。第二類是有文字但較少使用、口語仍被正常使用的語言,例如彝語、錫伯語等,語言群體內大多數成員僅限在家鄉口語交流時使用,多數群體成員不能熟練使用文字或基本不識字。第三類為瀕危語言及沒有文字的語言,包括只有少數老人還在使用、群體內幾乎所有其他的成員都已放棄使用的語言以及沒有文字的語言。對這類語言進行完整記錄比較困難,實現語言復制也有相當難度。
對于文字、口語都被廣泛使用的語言實現語言復制是可行的;對于有文字但較少使用、口語仍被正常使用的語言,實現語言復制也是可能的。對于沒有文字的語言可以收集被研究語言的語音,并在有條件的情況下轉寫成主流語言的文字,使用這樣的平行數據,利用人工智能領域的端—端技術實現被研究語言語音到主流語言文本之間的轉換,即美國科學家正在實施的“語音羅塞塔方案”,這在邏輯上是可行的。但被研究語言的采集、文本轉寫缺乏規范并存在許多具體困難。
在可能的情況下盡可能多地收集自然語音和文本的平行數據是十分有意義的。有了足夠大的數據,即使目前處理不了,今后仍有機會可利用。利用人工智能技術進行語言記錄是一個研究方法的問題,在具體工作中仍然需要采用正確的技術路線進行操作,即使使用了人工智能技術,語言數據的處理仍然脫離不了人力支持。語言是全人類的共同財富,每種語言背后都有精彩的文化。語保工程不應該只是少數人的事業,應該有更多熱愛自己母語的人群參與。