英偉達視頻模型Magic 1-For-1,1 分鐘生成 1 分鐘視頻,且開源
作者|子川
來源|AI先鋒官
開源的風終於吹到了AI視頻生成領域。
近日,英偉達聯合北京大學和 Hedra Inc三方聯合開源了一款全新的AI視頻生成模型 Magic 1-For-1,其主要特點就是“生成速度超快”。
Magic 1-For-1 的核心優勢在於高效的視頻生成能力,生成速度與視頻時長几乎1:1,5秒視頻3秒完成,1分鐘視頻僅需1分鐘。
這也意味着無論是短視頻創作者還是需要快速生成大量視頻素材的團隊,Magic 1-For-1 都能輕鬆滿足需求。
最重要的是Magic 1-For-1開源了,並且它通過量化技術將模型體積從32GB壓縮至16GB,在RTX 4090等消費級顯卡就可以跑。
論文名:Magic 1-For-1: Generating One Minute Video Clips within One Minute
論文鏈接:https://arxiv.org/pdf/2502.07701
開源代碼:https://magic-141.github.io/Magic-141/
其技術的核心思想很簡單:將文本到視頻的生成任務分解爲兩個相對簡單的任務,用於擴散步驟蒸餾,即文本到圖像生成和圖像到視頻生成。
話不多說,接下來就帶大家欣賞一下的Magic 1-For-1大作~
Magic 1-For-1在描繪人物運動時能做到符合真實的運動規律,即使是複雜動作也能很好的刻畫。
比如下面這個視頻,就完美的還原了小丑的名場面,從肢體動作到面部表情的細微變化,每一個動作都符合小丑的性格特點,一點都分辨不出它是AI生成的。
還有人物說話的畫面,不僅動作、神態十分逼真,甚至在口型的匹配上也做到了幾乎完美的還原,看起來毫無違和感。
除了運動,Magic 1-For-1還能模擬真實物理世界特性,生成的視頻更符合物理規律。
比如兩朵緩慢綻放的花,從花瓣的輕輕舒展到花蕊的逐漸露出,每一個細節都符合自然界的生長規律。
此外,Magic 1-For-1支持生成不同風格的視頻,比如動畫風格的視頻。
就像下面這樣。
它能夠完美地捕捉動畫特有的風格特點,生成小貓可愛的外觀——比如圓滾滾的眼睛、柔軟的毛髮等。
對於擬人化的場景,Magic 1-For-1也是信手拈來,比如這隻熊貓坐在湖邊彈吉他。
說完優點,下面我們來談談缺點。
Magic 1-For-1 雖然在很多方面表現不錯,但在處理高速運動場景時卻有點差強人意了,比如下面士兵射擊畫面時,子彈出膛瞬間的捕捉不夠精準,大家只能看到槍口的紅光閃爍,甚至還出現紅光彎曲的現象。
還有這個汽車的視頻,濺起的水花效果顯得有些粗糙,給人一種廉價的“五毛特效”感。
而且在視頻質量方面,Magic 1-For-1 僅支持 540×960 的分辨率,在目前1080p遍地走,電影級畫質多如狗的視頻生成領域,多多少少遜色了些,但它開源了~~
最後給大家趴一下Magic 1-For-1都運用了哪些獨特的技術?
任務分解與擴散步驟蒸餾
Magic 1-For-1 把複雜的“文字變視頻”任務拆成了兩個簡單任務:先從文字生成一張圖片,再從這張圖片生成視頻。這樣不僅讓生成過程更簡單,還減少了計算步驟。實驗發現,從圖片生成視頻比直接從文字生成視頻更容易,速度也更快。
多模態輸入與語義對齊
該模型引入了多模態輸入機制,不僅用文字,還結合了圖片來生成視頻來增強模型的語義理解和生成能力模,具體來說就是會把文字和圖片的信息結合起來,更好地理解要生成的內容,從而生成更符合描述的視頻。這種結合方式不僅讓模型學得更快,還提升了生成視頻的質量。
擴散步驟蒸餾技術
爲了讓生成速度更快,Magic 1-For-1 用了一種叫“擴散步驟蒸餾”的技術。簡單來說,就是訓練一個“少步驟”的生成器來模仿“多步驟”生成器的結果。這樣,模型只需要 4步 就能生成高質量的視頻,而傳統方法可能需要幾十步甚至上百步。這大大減少了計算成本,同時保持了視頻質量。
模型量化與內存優化
Magic 1-For-1 通過一種叫“量化”的技術,把模型的體積從 32GB 壓縮到 16GB,減少了內存佔用。這樣,模型不僅能在高性能計算設備上運行,還能在普通的消費級顯卡(比如 RTX 5090、A10 和 L20)上高效運行。
滑動窗口技術
生成長視頻時,Magic 1-For-1 使用滑動窗口技術逐步生成視頻片段, 會把視頻分成一個個小片段,逐步生成。這種方法不僅保持了生成的高效性,還讓整個視頻看起來更連貫、質量更高。通過這種技術,模型可以在 一分鐘內生成一分鐘的視頻。
隨着開源的力量涌入AI視頻生成領域,期待不久AI視頻生成領域也會有自己的Deepseek。
掃碼邀請進羣,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧