全球首發!Vidu 讓任意主體保持一致,視頻生成進入新階段!

上線一個月,Vidu 再度迎來重大更新!

4月底,由生數科技和清華大學聯合研發的國內首個純自研原創視頻大模型 Vidu 面向全球發佈,7月底正式上線,全面開放使用,憑藉在快速推理、精確語義理解、高動態性和極致動漫風格等方面的優勢,Vidu 產品表現位列全球視頻大模型的“第一梯隊”。

僅過去一個多月的時間,Vidu 迎來重大功能更新。9月11日生數科技舉辦媒體開放日活動,期間 Vidu 全球首發「主體參照」(Subject Consistency)功能,該功能能夠實現對任意主體的一致性生成,讓視頻生成更加穩定、可控。目前該功能面向用戶免費開放,註冊即可體驗!(體驗地址: www.vidu.studio)

所謂“主體參照”,就是允許用戶上傳任意主體的一張圖片,Vidu 就能夠鎖定該主體的形象,通過描述詞任意切換場景,輸出主體一致的視頻。

該功能不侷限於單一對象,而是面向“任意主體”,無論是人物、動物、商品,還是動漫角色、虛構主體,都能確保其在視頻生成中的一致性和可控性,這是視頻生成領域的一大創新。Vidu 也是全球首個支持該能力的視頻大模型。

比如進行人物角色的“主體參照”,無論是真實人物還是虛構角色,Vidu 都能保持其在不同環境中、不同鏡頭下的形象連貫一致。

比如動物,Vidu 可以實現其在不同環境下、大幅運動狀態中細節特徵保持一致。

比如商品,商品的外觀和細節在不同場景中保持高度一致。

上傳的主體也不限於寫實風格,比如針對動漫角色或者虛構的主體等,Vidu 也可以保持其高度一致。

在視頻大模型領域,儘管已有如“圖生視頻”和“角色一致性”等能力,但 Vidu 的“主體參照”功能在一致性方面實現了質的飛躍。具體對比看:

我們以具體案例來看,輸入一張林黛玉的角色照,輸入同樣的“在現代咖啡廳喝咖啡”的描述,能直觀看到,在Vidu “主體參照”功能下,林黛玉的形象在現代場景中得到了完美保留,場景輸出也自然而真實。

原圖

圖生視頻

主體參照

角色一致性

視頻大模型領域的競爭日益激烈,儘管衆多模型層出不窮,但它們普遍存在着一個核心問題——可控性不足,或者叫一致性的不足。

在實際的視頻創作中,視頻內容往往圍繞特定的對象展開,可以是角色或特定物體,這些對象在視頻中的形象需要保持連續一致。然而現有的視頻模型往往難以實現這一點,常常是主體在生成過程中容易崩壞。

尤其在涉及複雜動作和交互的情況下,保持主體的一致性更是一項挑戰。此外,視頻模型的輸出結果具有較大的隨機性,對於鏡頭運用、光影效果等細節的控制也不夠精細。所以現階段的視頻模型雖然在畫面表現力、物理規律、想象力等方面實現了一定程度的突破,但可控性的不足限制了它們在創作連貫、完整視頻內容方面的應用。目前,大多數的 AI 視頻內容還是基於獨立視頻素材的拼接,情節的連貫性不足。

爲了解決這一問題,業界曾嘗試採用“先AI生圖、再圖生視頻”的方法,通過AI繪圖工具如 Midjourney 生成分鏡頭畫面,先在圖片層面保持主體一致,然後再將這些畫面轉化爲視頻片段並進行剪輯合成。

但問題在於,AI 繪圖的一致性並不完美,往往需要通過反覆修改和局部重繪來解決。更重要的是,實際的視頻製作過程中涉及衆多場景和鏡頭,這種方法在處理多組分鏡頭的場景時,生圖的工作量巨大,能佔到全流程的一半以上,且最終的視頻內容也會因爲過分依賴分鏡頭畫面而缺乏創造性和靈活性。

Vidu 的“主體參照”功能徹底改變了這一局面。它摒棄了傳統的分鏡頭畫面生成步驟,通過“上傳主體圖+輸入場景描述詞”的方式,直接生成視頻素材。這一創新方法不僅大幅減少了工作量,還打破了分鏡頭畫面對視頻內容的限制,讓創作者能夠基於文本描述,發揮更大的想象力,創造出畫面豐富、靈活多變的視頻內容。這一突破將爲視頻創作帶來了前所未有的自由度和創新空間。

這一功能也確實得到了衆多一線創作者的“高度評價”。

“主體參照”功能通過鎖定角色或物體的形象,一方面讓故事情節更具連貫性,另一方面讓創作者能夠更自由地探索故事的深度和廣度。

光馳矩陣的發起人、青年導演李寧正在打造中國首部AIGC院線電影《玄宇》。他利用 Vidu 預創作了一段男主的視頻片段,其中所有人物畫面僅通過男主近景、中景、遠景三張定妝照生成。李寧在創作分享中提到,之前的AI電影創作過程,採用傳統的文生圖、圖生視頻流程,在分鏡的連貫上很難掌控,人物的整體造型很難保持一致,前期需要耗費大量的精力去調試圖片,同時畫面還容易產生鏡頭光影失控、圖像模糊甚至變形等一系列問題,且隨着視頻篇幅的增加,這些問題被進一步放大。Vidu “主體參照”功能讓人物的整體一致性顯著提升,不再需要前期生成大量的圖片,人物運動和畫面過渡也更加自然,極大助力了長篇敘事的創作。

中央廣播電視總檯導演、AIGC藝術家石宇翔(森海熒光)創作了一條動畫短片《夏日的禮物》,在分享創作流程中他表示,與基礎的圖生視頻功能相比,“主體參照”功能擺脫了靜態圖片的束縛,生成的畫面更具感染力和自由度,讓創作的連貫性大大提升。同時幫助他節約7成左右的生圖工作量,顯著提效,讓他能夠將更多精力放在故事內容的打磨上,而非生成圖片素材上。另外他表示,再疊加上 Vidu 的複雜動作處理能力和多元素的理解能力,他覺得 Vidu 就像是一位真人助理“動畫師”在輔助創作。

“主體參照”功能在商業廣告片方向展現了強大的潛力。廣告片的一大關鍵在於要保證多個鏡頭、不同場景下品牌物形象的一致性。Vidu “主體參照”功能能夠很好的實現,例如,在下面的跑步鞋廣告案例中,僅通過一張商品圖,便完成了所有視頻畫面的生成,無論是不同角度、背景,還是動態表現,跑步鞋的形象在整個視頻中都保持了高度一致。

生數科技官方介紹到,該視頻僅一位人員花費6個小時完成,包含前期策劃、素材生成,後期剪輯,其中30段 AI 視頻素材的生成僅花費3個小時,整個流程僅參照一張商品圖。傳統廣告片製作高度依賴線下實拍和後期製作,時間週期長、成本投入大,但現在通過 Vidu 能夠極大地節省廣告製作的成本,整個產出流程更加高效,品牌方對新素材的開發也能更加靈活。

與功能發佈同步,生數科技也推出了合作伙伴計劃,邀請廣告、影視、動漫、遊戲等行業的機構加入,共同探索新的視頻創作模式,在內容共創、技術支持、市場拓展等方面展開合作。首批合作伙伴包括開心麻花、貓眼娛樂、巨人網絡、美克家居、融創文化、河南省非物質文化遺產保護和智慧化中心、李可柒畫院等知名企業與機構。

作爲國內首個純自研的視頻大模型,Vidu 自發布以來便在海外內受到廣泛關注。在7月底正式上線後,憑藉在動態性、語義理解、動漫風格、快速推理等方面的亮點,Vidu 產品表現位列全球視頻大模型的“第一梯隊”,並在TikTok 等海外社交媒體平臺上掀起多種 AI 視頻主題玩法的熱潮,如“跨越時空的擁抱”等。根據第三方的數據顯示,Vidu 上線首月便位列全球網頁類產品用戶訪問量增速第一。

面向專業創作領域,Vidu 也牽手海內外多位 AI 藝術家,探索 AI 賦能下的全新創作模式。比如與北京電影節 AIGC 短片單元最佳影片得主、Ainimate Lab 合作打造的動畫短片《一路向南》,畫面質量接近傳統動畫製作標準,但成本僅爲傳統流程的 1/40。Ainimate Lab AI 負責人陳劉芳表示,該短片的創作團隊僅由三人構成:一名導演、一名故事版藝術家和一名 AIGC 技術應用專家,製作週期約爲 1 周,而傳統流程需要 20 人,包含導演、美術、建模、燈光、渲染等不同“工種”,週期在一個月左右。由此可見,Vidu 大大縮短了製作週期並顯著降低了成本。

生數科技聯合創始人兼CEO唐家渝表示, "主體參照"這一全新功能的上線,代表着 AI 完整敘事的開端,AI 視頻創作也將邁向更高效、更靈活的階段。無論是製作短視頻、動畫作品還是廣告片,在敘事的藝術中,一個完整的敘事體系是“主體一致、場景一致、風格一致”等要素的有機結合。

因此,視頻模型要達到敘事的完整性,就必須在這些核心元素上實現全面可控。“主體參照”功能是 Vidu 在一致性方面邁出的重要一步,但這僅僅是開始。未來,Vidu 將繼續探索如何精確控制多主體交互、風格統一、多變場景穩定切換等複雜元素,以滿足更高層次的敘事需求。

從更長遠的視角來看,一旦實現了全面的可控性,視頻創作行業將經歷一場顛覆性的變革。屆時,角色、場景、風格,甚至鏡頭運用、光影效果等元素,都將轉化爲可靈活調整的參數。用戶只需要動動手指、調調參,就可以完成一部影像作品的創作,而每一個作品的背後,也將是用戶基於AI構建出的獨特世界觀和自我表達。