腦波轉為聲音 AI 幫身障者「發聲」
舊金山加州大學和柏克萊加州大學研究員研究如何將神經數據轉化爲聲音。 美聯
神經科學家正努力加快研究利用腦波,修復或強化身體能力,爲無法說話的人提供聲音。美國加州的大學和一些企業的研究員,都希望透過結合大腦植入晶片和人工智慧(AI),生成類似自然說話的效果。
各界對於大腦植入晶片的投資和關注,過去都聚焦於在讓身障人士能夠操作電腦鍵盤、控制機械手臂,或讓癱瘓的四肢部分恢復運作。但現在一些實驗室卻正專注於將腦波模式轉化爲說話的技術,以取得進步。
舊金山加州大學神經外科醫師張復倫(Edward Chang)表示:「我們正取得重大進展,主要目標是讓大腦合成的聲音,流暢到像兩個說話的人在聊天。我們使用的AI演算法迅速演進,並正向我們團隊的每位新參與者學習。」
張復倫和同僚3月在《自然-神經科學》期刊發表一篇報告,詳述一名18年前因中風而四肢癱瘓、無法說話的女性,參與研究的過程。
賦予無法發聲者聲音
研究人員透過讓這位女性嘗試說出以1,024個不同字彙組成的句子,訓練一個深度學習神經網路,並透過將她的神經數據傳輸到一個語音合成暨文字解碼模型,生成她的聲音音訊。
舊金山加州大學和柏克萊加州大學研究員研究如何將神經數據轉化爲聲音。 美聯社
這項技術成功讓生成音效落後患者大腦訊號的秒數,縮短爲1秒,遠少於先前的8秒,也大幅接近一般說話的時間差100-200毫秒。這套系統的解碼速度中位數爲每分鐘47.5個字,約是一般說話速率的三分之一。
每年可能有數千人受益於所謂的人工發聲器(voice prosthesis)。這些人的認知功能仍然近乎完好,卻因爲中風、神經退化性疾病ALS(俗稱漸凍人症)及其他大腦狀況,而失去說話能力。如果成功,研究員期盼這項技術能更進一步幫助因爲腦性麻痹或自閉症等狀況,而難以發聲的人。
神經人工發聲器的潛力正開始引起企業興趣。紐約Precision神經科學公司號稱能比這些學校研究員,捕捉到更高解析度的大腦訊號,因爲其植入物的電極更爲密集。
Precision已和31名患者進行合作,並計劃儘快從更多患者身上搜集數據,以提供商業化的可能途徑。該公司4月17日獲得監管許可,能讓植入式感測器一次最多留在患者體內30天。執行長馬格表示,該公司的科學家因此能在一年內將其系統訓練成「地球上最大的高解析度神經數據儲存庫」,下一步將是「把零件縮小放入能與人體相容的密封包裹中,如此一來就能永遠植入人體內」。
捕捉大腦訊號轉化爲聲音
全球首富馬斯克旗下的Neuralink是最知名的腦機介面公司,但該公司一直專注在讓癱瘓的人可以操縱電腦,而非賦予人工合成聲音。
腦聲技術發展的最主要阻礙,是患者花在學習使用系統的時間。大腦的運動皮層負責控制說話等自主運動,這個區塊的反應模式種類數量因人而異,是一項關鍵的未解問題。
烏特勒支大學醫學中心腦機介面研究員拉姆齊表示,如果每個人的模式都類似,在前一名患者身上訓練的機器學習模型就能用在新患者上,這將加速現今要花「數十或數百小時的流程,透過要求參與者嘗試念出眼前的文字,產生足夠數據」。
拉姆齊表示,現在所有的腦聲研究都專注在運動皮層,因爲沒有證據證明說話可以從大腦的其他區域產生,或能透過解碼內心想法產生,「就算可以,你也不會希望別人聽到你的內心獨白。有太多事情我不大聲說出來,是因爲它們不會對我有益,或可能傷害別人」。
腦聲研究的阻礙
戴維斯加州大學神經義肢實驗室共同主任史塔維斯基表示,人工合成聲音要發展到和健康的人說話一樣好,「可能仍有長路要走」。
他表示,他的實驗室已經展示過,即便解碼他人想說的話能達到約98%的準確率,但聲音無法立即輸出,也無法捕捉到重要的說話特徵,例如語氣。他也說,目前也不清楚使用的錄音硬體(電極),能否讓合成聲音達到和健康的人聲一樣。
史塔維斯基表示,科學家必須對大腦如何編碼生成對話進行更深度的研究和了解,並開發出更好的演算法來將神經活動轉換爲聲音輸出。
他說:「終極的神經人工發聲器應該提供全方位表現力的人聲,這樣他們才能夠例如精準控制他們的音準和節奏,做類似像是唱歌。」