音頻驅動全身視頻生成模型 夸克與浙江大學聯合開源OmniAvatar

人民財訊7月25日電,記者25日從阿里旗下夸克獲悉,夸克技術團隊和浙江大學最新聯合開源了OmniAvatar,這是一個創新的音頻驅動全身視頻生成模型,只需要輸入一張圖片和一段音頻,即可生成相應視頻,且顯著提升了畫面中人物的脣形同步細節和全身動作的流暢性。此外,還可通過提示詞進一步精準控制人物姿勢、情緒、場景等要素。