近期,美國加利福尼亞的研究人員開發了一個由人工智能驅動的系統,可實現幫助癱瘓患者用原聲恢復自然說話能力。
這項新技術由美國加利福尼亞大學伯克利分校和舊金山分校的研究人員共同研發。通過植入式設備采集大腦神經信號,并利用"AI 學習重建患者獨特的語音特征。與"2024 年該領域腦機接口合成語音的進展相比,此次研究成果實現了質的飛躍。
該研究論文近期發表在《自然·神經科學》雜志上。加利福尼亞大學伯克利分校電氣工程與計算機科學助理教授、該研究的聯合首席研究員戈帕拉·阿努曼奇帕利解釋道:“我們的流式處理方法將亞馬遜智能語音助手Alexa"和蘋果語音助手"Siri 等設備所具備的快速語音解碼能力引入了神經假肢領域。通過使用類似的算法,我們發現可以對神經數據進行解碼,并首次實現近乎同步的語音傳輸。這樣合成所得語音更加自然流暢。”
這項技術的創新之處在于兼容多種腦信號采集方式:它能直接記錄大腦皮層神經活動的高密度電極陣列(如本實驗所用),也適用于穿透式微電極,還能用于測量面部肌肉活動的非侵入式表面肌電圖(sEMG)傳感器。
其工作原理是:首先,安裝在患者身上的神經修復裝置會從控制語言產生的大腦運動皮層采集神經數據,然后人工智能將這些數據解碼成語音。該論文的合著者趙哲俊解釋說:“我們解碼的是思維形成后的指令——當患者確定表達內容、選詞造句并準備調動發音器官時的神經活動。”
人工智能是基于患者在屏幕上看到文字并默默嘗試說出這些文字時所采集的大腦功能數據進行訓練的。這使得研究團隊能夠將神經活動與患者試圖說出的文字進行映射。同時,文本轉語音模型會生成患者“說話”的音頻,該模型是利用患者在受傷癱瘓之前的聲音數據開發的。
在上述概念驗證演示中,合成語音雖未達完美自然度,節奏也并非完全自然,但已非常接近。該系統在患者嘗試說話后的1"秒內就開始解碼大腦信號并輸出語音,和"2023 年進行的研究中所需的8"秒相比有了顯著提升。
這項技術可以極大地改善漸凍癥等類似衰弱性疾病患者的生活質量,幫助他們表達日常需求和復雜想法,更順暢地與親友交流。
下一步,研究人員計劃加快人工智能生成語音的處理速度,并探索增強語音情感表現力的的方法。
(編譯自"New Atlas 網站)