☰

音頻驅動全身視頻生成模型夸克與浙江大學聯合開源OmniAvatar

人民財訊7月25日電，記者25日從阿里旗下夸克獲悉，夸克技術團隊和浙江大學最新聯合開源了OmniAvatar，這是一個創新的音頻驅動全身視頻生成模型，只需要輸入一張圖片和一段音頻，即可生成相應視頻，且顯著提升了畫面中人物的脣形同步細節和全身動作的流暢性。此外，還可通過提示詞進一步精準控制人物姿勢、情緒、場景等要素。

相關資訊

▣ 豆包大模型團隊開源視頻生成模型VideoWorld
▣ 智譜開源視頻生成模型CogVideoX
▣ 阿里萬相視頻生成模型開源
▣ 阿里開源視頻生成模型Wan2.2-S2V
▣ 阿里巴巴重磅宣佈！全面開源視頻生成模型萬相2.1模型同時支持文生視頻和圖生視頻任務
▣ 阿里宣佈開源推理模型和視頻生成模型
▣ 生數科技與清華聯合推出視頻大模型Vidu
▣ 探索音視頻前沿技術浙江大學創新與實踐基地成立
▣ 騰訊混元發佈開源圖生視頻模型，上傳圖片即可生成5秒帶音效短視頻
▣ 直播預告｜開源Talk：視頻生成模型專題
▣ 崑崙萬維開源AI短劇視頻生成模型
▣ 字節跳動進軍AI視頻生成，發佈兩款視頻生成大模型
▣ 硅基流動上線由Lightricks開源的視頻生成模型LTX-Video
▣ 快手聯合推出開源文生視頻 AI 模型：最高 10 秒 768P@24fps
▣ 英偉達視頻模型Magic 1-For-1，1 分鐘生成 1 分鐘視頻，且開源
▣ 微軟開源音頻模型Vibe Voice1.5B 可連續合成90分鐘語音
▣ 阿里雲開源多模態視頻生成模型通義萬相“Wan2.2-S2V”
▣ 阿里開源電影級視頻生成模型通義萬相2.2
▣ 豆包視頻生成大模型發佈
▣ 阿里雲開源視頻基礎模型
▣ 成都開心音符申請音頻和視頻生成專利，生成的目標視頻和音頻同步性高
▣ 騰訊混元圖生視頻模型發佈並開源
▣ 字節跳動豆包大模型下週將發佈視頻生成模型
▣ 字節跳動正式進軍AI視頻生成賽道一天發佈兩款視頻生成大模型
▣ 豆包：視頻生成模型“VideoWorld”可僅靠視覺認知世界現已開源
影音雙驅臻彩無限 ——全國產音視頻標準落地騰訊視頻高品質片源
▣ 階躍星辰將在3月開源圖生視頻模型
▣ 騰訊混元上線並開源新圖生視頻模型
▣ 浙江君同智能申請基於條件擴散模型的語音轉換對抗音頻生成專利，提高語音轉換對抗音頻生成效率效果

DMCA | PRIVACY | s@bg3.co

音頻驅動全身視頻生成模型 夸克與浙江大學聯合開源OmniAvatar

相關資訊

音頻驅動全身視頻生成模型夸克與浙江大學聯合開源OmniAvatar