☰

科大訊飛昇級語音合成技術，復刻效果接近真人

6月26日，科大訊飛宣佈其語音合成技術實現關鍵升級，“一句話聲音復刻”與“超擬人語音合成”兩項能力取得突破。

據介紹，訊飛星火APP自2024年4月上線“一句話聲音復刻”功能以來，已在用戶與行業中獲得廣泛認可。此次升級後，AI可在僅一句錄音基礎上，復刻用戶完整音色、語氣與情緒起伏，效果接近真人。

據悉，此次訊飛技術突破的關鍵，除了星火語音大模型底座的基礎和持續迭代，還構建了一套三階段層次化語音建模框架。

在音色恢復方面，訊飛通過融合幀級音色編碼與聲紋語義一致性損失函數，進一步提升合成音頻的相似度與自然度。結合DPO強化學習策略，顯著增強語音的穩定性與流暢性。

語音合成從早年需錄製數十小時素材，到如今一句話即可復刻，使用門檻持續下降。科大訊飛表示，這一技術已廣泛應用於教育、醫療、車載、金融等場景，釋放更多定製化、情感化需求。

在多輪對話場景中，訊飛構建的上下文感知語音生成系統，融合歷史文本與語音特徵，令AI聲音具備“情商”，能根據話題與情緒變化自動調整語調，實現更自然的人機交互。

據介紹，蔚來汽車已率先在新車型中搭載訊飛超擬人情感語音系統，成爲首個在車內引入生成式語音合成框架的車企。奇瑞、廣汽、長城、本田等車廠也採用該技術提升車載助手體驗。

除智能座艙外，該技術還應用於教育產品，如AI學習機的“互動式問診規劃”功能，可根據學生表現生成個性化學習方案；在醫療場景中，情感語音導診機器人有效提升老年用戶的交流舒適度。

在數字內容創作方面，訊飛智作平臺實現“一張照片+一句錄音”定製虛擬數字人，脣形同步率達98%，已應用於高校教師視頻教學和個人IP打造。

科大訊飛研究院院長劉聰表示：“我們希望聲音不止於工具，更成爲承載情感與個性的新維度，賦能更多場景行業、催生更多可能”。（袁寧）

本文來自本站科技報道，更多資訊和深度內容，關注我們。

相關資訊