微軟開源音頻模型Vibe Voice1.5B 可連續合成90分鐘語音
8月26日,微軟研究院在美國宣佈開源創新音頻模型VibeVoice-1.5B,該模型一次性可連續合成90分鐘超長逼真語音,顯著超越此前多數模型60分鐘的上限。根據公開資料整理,VibeVoice-1.5B在語音合成時長、音色穩定性及語義連貫性方面實現多項突破。傳統模型在30分鐘後常出現音色漂移、語義斷裂等問題,而VibeVoice-1.5B通過架構優化有效緩解上述缺陷,爲長音頻內容創作、有聲讀物及虛擬助手等場景提供更穩定的技術支持。
相關資訊
- ▣ 趣丸科技開源語音大模型MaskGCT
- ▣ 音頻驅動全身視頻生成模型 夸克與浙江大學聯合開源OmniAvatar
- ▣ 英偉達視頻模型Magic 1-For-1,1 分鐘生成 1 分鐘視頻,且開源
- ▣ AI早知道|國內首個端到端語音大模型Lingo;摩爾線程開源音頻理解大模型MooER摩耳
- ▣ 快手可靈大模型開放視頻續寫功能 可生成最長約3分鐘視頻
- ▣ 成本最高降90% 百度發佈端到端語音語言大模型
- ▣ 蕪湖小樂色申請可溯源的語音合成專利,便於語音溯源
- ▣ AI早知道|Kimi開源音頻基礎模型;階躍星辰開源圖像編輯模型
- ▣ 英偉達發佈了一款模型,可以生成音樂和音頻
- ▣ AI早知道|騰訊推全球首個語音指揮FPS AI ;摩爾線程開源音頻理解大模型
- ▣ 摩爾線程正式開源音頻理解大模型MooER
- ▣ 騰訊混元發佈並開源語音數字人模型
- ▣ 浙江君同智能申請基於條件擴散模型的語音轉換對抗音頻生成專利,提高語音轉換對抗音頻生成效率效果
- ▣ 騰訊混元發佈開源圖生視頻模型,上傳圖片即可生成5秒帶音效短視頻
- ▣ 英偉達對外展示了一款模型,可以生成音樂和音頻
- ▣ 百度網訊申請基於大語言模型的音頻生成專利,提升目標音頻準確性
- ▣ AI早知道|阿里開源大模型QwQ-32B;Grok免費開放語音模式
- ▣ 騰訊混元發佈並開源語音數字人模型HunyuanVideo-Avatar
- ▣ 微軟開源最強小模型Phi-4,超GPT-4o、可商用
- ▣ 快手“可靈”大模型可生成最長約3分鐘視頻
- ▣ 豆包視頻生成模型Seedance 1.0 pro正式發佈 實時語音模型同步全量上線
- ▣ OpenAI首次展示音頻模型Voice Engine 15秒即可複製原音
- ▣ OpenAI首次展示語音生成模型Voice Engine:可複製原聲
- ▣ 騰訊混元發佈並開源語音數字人模型,已應用於QQ音樂、全民K歌、酷狗音樂
- ▣ 可靈AI全系模型上線“視頻音效”功能 可同步生成高質量立體聲音效
- 西瓜視頻聯合抖音發佈中視頻夥伴計劃,抖音流量首次可分成
- ▣ 騰訊科技申請音頻生成模型相關專利,使得訓練得到準確性更高的音頻生成模型
- ▣ AI早知道|ChatGPT免費開放高級語音模式;B站推出IndexTTS文本轉語音模型
- ▣ 語音獨角獸ElevenLabs推出AI音樂服務 可在數分鐘內生成完整曲目