不過,最近有3個研究小組在將植入大腦的電極數據轉化為計算機生成的語音方面取得了進展,他們通過被稱為神經網絡的計算模型,重建了可以被人類聽眾理解的單詞和句子。
最近幾個月以來,正如在bioRxiv上發布的多篇論文描述的那樣,研究人員仍無法完全重建僅僅存在于人們大腦里的語音信息。但另一方面,研究人員在人們大聲朗讀、輕聲細語,或者聽錄音的時候,監視了大腦的部分活動。
未參與該研究的瑞士日內瓦大學神經工程師Stephanie Martin表示,重新演繹人們腦海中的語音信息這一做法“令人興奮不已”。
中風或疾病后失去說話能力的人可以用眼睛或其他小動作控制光標或選擇屏幕上的字母。但如果大腦—計算機界面能夠直接重建語言,他們可能會重新獲得更多,例如,控制語調或者在節奏較快的對話中插話。
但將這一想法付諸實踐卻困難重重。“我們試圖找出在不同時間點打開和關閉的神經元模式,以此推斷語言信息。”美國哥倫比亞大學計算機科學家Nima Mesgarani說,“從一個映射到另一個映射的過程非常復雜。”
這些信號轉換為語音的情況因人而異,因此必須對計算機模型“因材施教”。這些模型需要非常精確的數據支持,而這需要打開頭骨。
研究人員只能在極少數情況下進行此類侵入性研究。一種是在切除腦瘤的過程中,暴露在外的大腦發出的電信號幫助外科醫生定位并避開關鍵的語言和運動區域。另一種則是當癲癇患者植入電極以確定手術前癲癇發作的起因時。Mesgarani表示,在收集數據的過程中,“我們的操作時間最多只有20至30分鐘,時間非常寶貴”。
研究人員通過將信息提供給神經網絡獲取了大部分寶貴數據,神經網絡通過將信息傳遞到計算“節點”層處理復雜模式。神經網絡也能通過調整節點之間的連接來學習。在實驗中,神經網絡接觸了一個人發出或聽到的語音記錄以及同步的大腦活動的數據。
Mesgarani團隊使用了5名癲癇患者的數據。該網絡分析了聽覺皮層(在語音和聽力過程中都很活躍)在他們聽到故事錄音和人們從0讀到9的錄音后的記錄活動。然后,計算機僅利用神經數據重建了錄音中的數字。計算機“讀出”人們腦海中數字的準確度高達75%。
德國不來梅大學神經科學家Miguel Angrick和荷蘭馬斯特里赫特大學神經科學家Christian Herff領導的另一個團隊,則采用了6名接受腦腫瘤手術志愿者的數據。他們捕捉到這些患者朗讀單音節詞的聲音,同時電極還記錄下大腦的語音規劃區域和運動區域活動。神經網絡將電極讀數映射到音頻記錄,然后根據先前的腦數據重建單詞。根據計算機化的評分系統,大約40%的生成單詞能夠被理解。
最后,加州大學舊金山分校神經外科醫生Edward Chang和他的團隊重建了3名癲癇患者大聲朗讀時,在他們的語言和運動區域捕獲的完整句子。在測試中,166人需要從10個書面語句中選擇出一句他們聽過的句子,識別句子的正確率達到了80%。
研究人員還進一步改善了模型:通過人們默讀時記錄的數據重建句子。Herff表示,這是一個重要的研究成果,“使得識別語音技術又進一步”。
然而,加州圣地亞哥州立大學研究語言生成的神經科學家StephanieRiès表示,“我們真正需要解決的問題是當患者不能說話時,以上這些方法的表現如何。”當一個人安靜地“說話”或“聽到”自己的聲音時,大腦發出的信號與說話或聽到的信號并不相同。如果沒有與大腦活動相匹配的外部聲音,計算機甚至可能很難分辨出內部語言的開始和結束。
紐約州衛生局國家適應神經技術中心神經工程師Gerwin Schalk表示,解碼想象中的語音需要“一個巨大的飛躍,我們真的不清楚該怎么做”。