科大訊飛昇級語音合成技術,復刻效果接近真人

6月26日,科大訊飛宣佈其語音合成技術實現關鍵升級,“一句話聲音復刻”與“超擬人語音合成”兩項能力取得突破。

據介紹,訊飛星火APP自2024年4月上線“一句話聲音復刻”功能以來,已在用戶與行業中獲得廣泛認可。此次升級後,AI可在僅一句錄音基礎上,復刻用戶完整音色、語氣與情緒起伏,效果接近真人。

據悉,此次訊飛技術突破的關鍵,除了星火語音大模型底座的基礎和持續迭代,還構建了一套三階段層次化語音建模框架。

在音色恢復方面,訊飛通過融合幀級音色編碼與聲紋語義一致性損失函數,進一步提升合成音頻的相似度與自然度。結合DPO強化學習策略,顯著增強語音的穩定性與流暢性。

語音合成從早年需錄製數十小時素材,到如今一句話即可復刻,使用門檻持續下降。科大訊飛表示,這一技術已廣泛應用於教育、醫療、車載、金融等場景,釋放更多定製化、情感化需求。

在多輪對話場景中,訊飛構建的上下文感知語音生成系統,融合歷史文本與語音特徵,令AI聲音具備“情商”,能根據話題與情緒變化自動調整語調,實現更自然的人機交互。

據介紹,蔚來汽車已率先在新車型中搭載訊飛超擬人情感語音系統,成爲首個在車內引入生成式語音合成框架的車企。奇瑞、廣汽、長城、本田等車廠也採用該技術提升車載助手體驗。

除智能座艙外,該技術還應用於教育產品,如AI學習機的“互動式問診規劃”功能,可根據學生表現生成個性化學習方案;在醫療場景中,情感語音導診機器人有效提升老年用戶的交流舒適度。

在數字內容創作方面,訊飛智作平臺實現“一張照片+一句錄音”定製虛擬數字人,脣形同步率達98%,已應用於高校教師視頻教學和個人IP打造。

科大訊飛研究院院長劉聰表示:“我們希望聲音不止於工具,更成爲承載情感與個性的新維度,賦能更多場景行業、催生更多可能”。(袁寧)

本文來自本站科技報道,更多資訊和深度內容,關注我們。