微軟開源音頻模型Vibe Voice1.5B 可連續合成90分鐘語音

8月26日,微軟研究院在美國宣佈開源創新音頻模型VibeVoice-1.5B,該模型一次性可連續合成90分鐘超長逼真語音,顯著超越此前多數模型60分鐘的上限。根據公開資料整理,VibeVoice-1.5B在語音合成時長、音色穩定性及語義連貫性方面實現多項突破。傳統模型在30分鐘後常出現音色漂移、語義斷裂等問題,而VibeVoice-1.5B通過架構優化有效緩解上述缺陷,爲長音頻內容創作、有聲讀物及虛擬助手等場景提供更穩定的技術支持。