☰

微軟開源音頻模型Vibe Voice1.5B 可連續合成90分鐘語音

8月26日，微軟研究院在美國宣佈開源創新音頻模型VibeVoice-1.5B，該模型一次性可連續合成90分鐘超長逼真語音，顯著超越此前多數模型60分鐘的上限。根據公開資料整理，VibeVoice-1.5B在語音合成時長、音色穩定性及語義連貫性方面實現多項突破。傳統模型在30分鐘後常出現音色漂移、語義斷裂等問題，而VibeVoice-1.5B通過架構優化有效緩解上述缺陷，爲長音頻內容創作、有聲讀物及虛擬助手等場景提供更穩定的技術支持。

相關資訊

▣ 趣丸科技開源語音大模型MaskGCT
▣ 音頻驅動全身視頻生成模型夸克與浙江大學聯合開源OmniAvatar
▣ 英偉達視頻模型Magic 1-For-1，1 分鐘生成 1 分鐘視頻，且開源
▣ AI早知道｜國內首個端到端語音大模型Lingo；摩爾線程開源音頻理解大模型MooER摩耳
▣ 快手可靈大模型開放視頻續寫功能可生成最長約3分鐘視頻
▣ 成本最高降90% 百度發佈端到端語音語言大模型
▣ 蕪湖小樂色申請可溯源的語音合成專利，便於語音溯源
▣ AI早知道｜Kimi開源音頻基礎模型；階躍星辰開源圖像編輯模型
▣ 英偉達發佈了一款模型，可以生成音樂和音頻
▣ AI早知道｜騰訊推全球首個語音指揮FPS AI ；摩爾線程開源音頻理解大模型
▣ 摩爾線程正式開源音頻理解大模型MooER
▣ 騰訊混元發佈並開源語音數字人模型
▣ 浙江君同智能申請基於條件擴散模型的語音轉換對抗音頻生成專利，提高語音轉換對抗音頻生成效率效果
▣ 騰訊混元發佈開源圖生視頻模型，上傳圖片即可生成5秒帶音效短視頻
▣ 英偉達對外展示了一款模型，可以生成音樂和音頻
▣ 百度網訊申請基於大語言模型的音頻生成專利，提升目標音頻準確性
▣ AI早知道｜阿里開源大模型QwQ-32B；Grok免費開放語音模式
▣ 騰訊混元發佈並開源語音數字人模型HunyuanVideo-Avatar
▣ 微軟開源最強小模型Phi-4，超GPT-4o、可商用
▣ 快手“可靈”大模型可生成最長約3分鐘視頻
▣ 豆包視頻生成模型Seedance 1.0 pro正式發佈實時語音模型同步全量上線
▣ OpenAI首次展示音頻模型Voice Engine 15秒即可複製原音
▣ OpenAI首次展示語音生成模型Voice Engine：可複製原聲
▣ OpenAI發佈語音模型GPT-realtime 能夠生成更加自然流暢的語音
▣ 騰訊混元發佈並開源語音數字人模型，已應用於QQ音樂、全民K歌、酷狗音樂
▣ 可靈AI全系模型上線“視頻音效”功能可同步生成高質量立體聲音效
西瓜視頻聯合抖音發佈中視頻夥伴計劃，抖音流量首次可分成
▣ 騰訊科技申請音頻生成模型相關專利，使得訓練得到準確性更高的音頻生成模型
▣ AI早知道｜ChatGPT免費開放高級語音模式；B站推出IndexTTS文本轉語音模型

DMCA | PRIVACY | s@bg3.co