近日,三個國際科研小組嘗試破譯大腦的語言信號。他們使用大腦數(shù)據訓練出了一種人工智能系統(tǒng),該系統(tǒng)結合深度學習和語音合成技術的最新進展,可以將大腦活動數(shù)據轉化成語音。
三組研究人員在人們大聲朗讀、默念或聽錄音時監(jiān)控他們大腦的某些部位來采集數(shù)據,再把收集到的大腦信號轉化成人類聽眾能夠理解的單詞和簡單句,轉化準確率在40%至80%之間。相關研究于2018年10月至11月發(fā)表在生物學預印本網站bioRxiv上。
收集大腦活動數(shù)據的過程十分艱難。來自第一個研究團隊的哥倫比亞大學計算機科學家Nima Mesgaran介紹,這項研究用到的神經網絡計算模型要求相當精確的數(shù)據,需通過打開頭蓋骨植入電極的侵入方式獲取。只有少數(shù)腦外科手術可以進行這種侵入式的信息收集,可供收集的時間通常只有20至30分鐘。另外,將大腦信號轉換為語音的方式因人而異,計算機模型必須針對每個人進行“培訓”。
在Mesgaran等人的研究中,他們讓5位癲癇患者聽0到9的數(shù)字錄音,并在此過程中采集他們的聽覺皮層信息。然后,神經網絡計算模型用收集到的神經信號生成語音信息。當計算機合成并播放出這些0到9的語音信息時,人類聽眾將其正確辨認的概率為75%。
加州大學舊金山分校的Gopala K Anumanchipalli 教授團隊做了類似的研究。他們收集了3位癲癇患者朗讀文本時的神經信號,通過AI系統(tǒng)轉化成語音信息。研究人員邀請了166位志愿者來辨別這些語句,其中一些句子的識別率超過80%。這項研究發(fā)表于2018年11月。
另一類數(shù)據來自接受腦瘤手術的患者。德國不來梅大學的Miguel Angrick和荷蘭馬斯特里赫特大學的Christian Herff收集了6個腦瘤手術患者的數(shù)據。在患者朗讀單詞時,研究人員記錄下他們大腦語言區(qū)和運動區(qū)的神經信號并生成語音信息。研究人員發(fā)現(xiàn),約40%的計算機合成單詞可以被人類聽眾理解。
然而,這些研究還處于早期階段,只能收集并解讀人們說話時的大腦信息,尚不能為完全喪失語言功能的人服務。完全喪失語言功能的人無法開口說話,只能在心中默念。而圣地亞哥州立大學的神經科學家Stephanie Riès介紹,人們在默念時產生的大腦信號與說話時的大腦信號并不相同,如果沒有外部聲音的配合,計算機甚至很難分辨出大腦語言信號的起始點。這也意味著,人類距離使用腦機接口和人工智能技術讓失語者“開口說話”的那一天還很遠。