最近幾個月以來,正如在bioRxiv雜志上發布的論文中表示,他們還是沒法完全重建僅僅存在于人們大腦里的語音信息。但另一方面,研究人員在人們大聲朗讀、輕聲細語、或者聽錄音的時候,監視大腦的某些部分活動。瑞士日內瓦大學的神經工程師斯蒂芬妮·馬丁(Stephanie Martin)表示,重新演繹人們腦海中的語音信息這一做法“令人興奮興奮不已”。
在中風或疾病之后失去說話能力的人可以使用他們的眼睛或做出其他小動作來控制光標或選擇屏幕上的字母。 比如說,物理學家斯蒂芬·霍金通過拉緊他的臉頰,觸發安裝在眼鏡上的開關。但如果腦機接口可以直接重現他們的語音,他們能夠做到的事情會更多:例如,控制音調音量,或者有能力插話。
事實上,要想將這一想法付諸實踐,困難重重。“我們試圖找出在不同時間點打開和關閉的神經元模式,以此推斷語言信息。” 哥倫比亞大學的計算機科學家Nima Mesgarani說:“從一個映射到另一個映射,這一過程非常復雜。”這些信號轉換為語音的情況因人而異,因此必須對每個人“因材施教”。這些模型需要非常精確的數據支持,也就是說,需要打開頭骨直接尋找神經元。
研究人員只能在極少數情況下進行此類研究,其中一個便是在移除腦腫瘤期間,暴露的大腦的電子讀數能夠幫助外科醫生找到語言區域和運動區域;另一種則是當癲癇患者植入電極以確定手術前癲癇發作的起因時。對于數據收集,Mesgarani如是說:“在此過程中,我們的操作時間最多只有20至30分鐘,時間真是非常寶貴。”
研究團隊通過將信息提供給神經網絡來獲取大部分寶貴數據,神經網絡通過將信息傳遞到計算“節點”層來處理復雜模式,而神經網絡也能夠通過調整節點之間的連接來學習。在實驗中,神經網絡的運算依賴于一個人發出或聽到的語音記錄以及同步的大腦活動的數據。
Mesgarani的團隊通過五名癲癇患者的數據進行研究,他們的網絡分析了聽覺皮層(在語音和聽力過程中都很活躍)的錄音,因為那些病人聽到了故事錄音和人們從0讀到9的錄音。然后計算機僅從神經數據重建錄音中的數字。計算機“讀出”人們腦海中數字的準確度高達75%。
由德國不來梅大學的神經科學家Miguel Angrick和荷蘭馬斯特里赫特大學的神經科學家Christian Herff領導的另一個團隊,則依靠六名接受腦腫瘤手術志愿者的數據。他們捕捉到了這些患者朗讀單音節詞的聲音,同時,還記錄下大腦的語音規劃區域和運動區域,為了吐字清晰,向聲道發送的命令。神經網絡將電極讀數映射到音頻記錄,然后根據先前的腦數據重建單詞。根據計算機化的評分系統,大約40%的生成單詞能夠被理解。
最后,加州大學舊金山分校的神經外科醫生Edward Chang和他的團隊重建了三名癲癇患者大聲朗讀時,在他們的語言和運動區域捕獲的完整句子。在相關的網絡測試中,166人需要從10個書面語句中選擇出一句他們聽過的句子,神經網絡識別句子的正確率達到了80%。研究人員還進一步改善了模型:通過人們默讀時記錄的數據,來重建句子。荷蘭科學家Herff表示,這是一個重要的研究成果, “使得識別語音技術更進一步”。
然而,“我們真正需要解決的問題是當患者不能說話時,以上這些方法能如何表現。”加州圣地亞哥州立大學研究語言生產的神經科學家StephanieRiès表示。當一個人默讀或“聽到”大腦活動與實際說出的話不同時,大腦會發出信號。但如果沒有外部聲音來匹配大腦活動,計算機甚至很難理清內部語音開始和結束位置。
奧爾巴尼紐約州衛生部國家神經技術中心的神經工程師Gerwin Schalk說,構建腦海中的語音信息需要“跳躍式思維”,目前 “根本不清楚如何做到這一點。”Herff表示,根據大腦和計算機界面的用戶提供反饋:如果他們能夠實時聽到計算機的語音解釋,他們也許能夠迅速調整他們的想法以獲得更為精準的表達。