腦電波破譯大賽!神經科學家如何讓大腦"開口說話"?
4月22日消息,神經科學家正通過快速發展的技術探索,致力於利用腦電波恢復或增強身體機能,爲失語者重建發聲通道,將無聲思維轉化爲可聞語音。
美國加州多所高校以及紐約Precision Neuroscience等公司,正將腦機接口技術與人工智能結合起來,在生成自然語音方面取得技術突破。
長期以來,科學研究和相關投資與關注長期聚焦於幫助重度殘障人士操控計算機鍵盤、控制機械臂或恢復癱瘓肌體功能的植入式設備。現如今,部分實驗室另闢蹊徑,專注於研發能將思維模式直接轉化爲語音的技術,並已取得顯著進展。
“我們已經取得長足的進步,這項研究的主要目標是讓腦信號轉譯的合成語音達到常人對話的流暢度,”加州大學舊金山分校(UCSF)神經外科醫生張復倫(Edward Chang)表示,“我們所用的人工智能算法不斷優化,每有新的受試者加入,都能帶來更多寶貴經驗。”
上月,張復倫團隊聯合加州大學伯克利分校在《自然·神經科學》發表論文,詳細介紹他們對一位四肢及軀幹癱瘓達18年、因中風喪失言語能力的女性患者所開展的研究。這名患者通過默唸由1024個詞彙組成的句子來訓練深度學習神經網絡。研究人員將她的神經活動數據實時傳輸至一個集語音合成與文本解碼於一體的模型,重建她的發聲。
這種技術已經將腦電波信號與輸出語音之間的延遲時間從之前的8秒縮短至1秒,更接近正常對話100-200毫秒的時間差。系統平均解碼速度達到每分鐘47.5個單詞,大約是常人語速的三分之一。
每年有數以萬計的患者可從這種“語音假體”技術中受益:他們認知功能基本完好,卻因中風、漸凍症等神經退行性疾病或其他腦部病變喪失發聲功能。研究人員期待,若技術持續突破,還可助力腦癱或自閉症等導致語言障礙的人羣。
企業界也開始關注語音神經假體的潛力。Precision Neuroscience宣稱,憑藉更爲密集的植入電極,公司採集到的腦電波信號分辨率比學術機構更高。
Precision Neuroscience已經與31名患者合作,計劃很快擴大數據採集規模,爲產品商業化鋪路。今年4月17日,Precision Neuroscience獲得監管部門批准,傳感器單次植入受試者體內時間最長可達30天。公司首席執行官邁克爾·馬傑(Michael Mager)表示:“這將使我們的科學家能夠在一年內構建起’地球上最大規模高分辨率神經數據庫’。”
馬傑透露,Precision Neuroscience下一步計劃“將組件小型化並置於生物相容性密封封裝中,以實現永久植入。”
相比之下,埃隆·馬斯克(Elon Musk)麾下的腦機接口公司Neuralink則側重開發癱瘓患者的計算機操控功能,而非語音合成領域。
要讓腦電波順暢直譯爲語音,最大技術瓶頸在於目前患者需要花費大量時間學習如何使用系統。荷蘭烏得勒支大學醫學中心腦機接口專家尼克·拉姆齊(Nick Ramsey)表示,關鍵是語言運動皮層(控制自主行動的大腦區域)的神經響應模式是否存在個體差異:如果人與人之間的模式趨同,那麼用先前受試者數據訓練的機器學習模型就可以快速適配新患者。
拉姆齊說,“目前我們還需要讓受試者看着文字默唸數十甚至數百小時,才能生成足夠的數據。若能快速適配,就可以大幅縮短數據訓練週期。”
他還強調,現有研究均聚焦於運動皮層對發聲肌肉的調控機制,尚無證據顯示其他大腦區域或思維活動可被解碼爲語音。“即便可行,人們未必願意坦露內心獨白,”拉姆齊補充道,“畢竟許多想法真說出口或許傷人傷己。”
加州大學戴維斯分校神經假體實驗室聯合主任謝爾蓋·斯塔維斯基(Sergey Stavisky)坦言,實現媲美自然語言的合成技術“道阻且長”。可能仍需相當長的時間。他所在的團隊雖實現98%的想要表達內容的解碼準確率,但語音輸出存在延遲且缺乏音調等關鍵特徵。斯塔維斯基說,現有電極硬件能否支持合成與人聲無異的語音仍是未知數。
他強調,科學家們還需深入研究大腦的語音編碼機制,開發更精準的神經信號轉譯算法。
斯塔維斯基補充,“理想中的語音神經假體應當完整復現人類聲音的表現力,讓使用者精準控制音高、節奏,甚至實現歌唱功能。”(辰辰)