字節跳動推視頻模型Goku,一鍵生成數字人直播帶貨

作者|子川

來源|AI先鋒官

字節即將發佈的這款視頻模型,有點東西。

就在剛剛,香港大學與字節跳動聯合發佈了一款名爲Goku(悟空)的視頻生成模型。

據介紹這款模型不僅能夠通過文本、圖片生成高質量視頻,還能直接生成虛擬數字人互動內容,更是被網友稱爲“市場營銷的終結者”

話不多說,先給大家掌掌眼。

像這樣。

這樣。

以及這樣的視頻通通都是Goku生成的。

從上面幾個案例我們不難看出,Goku可生成的視頻,人物手部動作、面部表情、光影效果均高度自然。

同時在權威測試中,Goku的文本到視頻生成VBench得分達84.85,創下新紀錄(SOTA)。

重點是還支持時長超20秒的高質量視頻。

除了Goku以外,還有一個專門爲廣告場景優化的子模型Goku+,可直接生成數字人視頻。

適用於直播帶貨、客服講解等場景。例如,輸入一段產品說明文本,模型便能生成一個“數字銷售員”的講解視頻,表情、手勢與語音完美同步。

提示詞:一張隨意的日常照片——坦率,可能是秘密或自發拍攝的,沒有藝術姿勢,沒有完美的構圖,也沒有濾鏡。光線很自然,整體感覺也很自然。拍攝對象是一位 21 歲的歐洲血統女性,皮膚白皙,金髮藍眼睛,非常有吸引力。她穿着一件羊毛連衣裙,上面彆着一個小麥克風——也許她正在接受採訪?背景是在室內,她的手在畫面中不可見,她正在看着觀衆。這是一個半身長的照片,以隨意的日常方式拍攝。

上傳一張書包的圖片,模型還可以自動生成產品展示視頻。

如果你覺得需要有一個模特來來突出商品的亮點,僅需一張商品圖+文字提示,即可生成帶真人互動的廣告片

是不是有點意思。

不過不好意思,現在還不能玩,官方目前只放出了技術報告,模型具體的發佈時間還未定。

技術報告:https://arxiv.org/abs/2502.04896

效果這麼好,這論文不得趴一趴。

據論文介紹,Goku的效果很好,主要是因爲它採用了多種先進的技術和優化方法。

1. 數據處理和篩選

Goku團隊構建了包含3600萬視頻+1.6億圖像的數據集,並通過美學評分、OCR分析、多模態大模型標註等技術嚴格篩選數據質量。

2. 聯合圖像和視頻生成

Goku採用了聯合圖像和視頻生成的方法,大家可以理解爲把圖片和視頻放在一起學習。

它用了一個特別的工具,叫做“聯合圖像-視頻變分自編碼器”(你可以把它想象成一個壓縮機),這個工具可以把圖片和視頻都變成一種通用的“代碼”(就像把不同的語言翻譯成一種通用語言)。

這樣,模型就能同時學習圖片的靜態內容和視頻的動態內容,最後生成又好看又流暢的圖片和視頻。

3. 先進的模型架構

Goku使用了基於Transformer的架構,這種架構能夠處理複雜的時空關係,使得生成的視頻在時間和空間上更加連貫。它還採用了“全注意力機制”,能夠更好地捕捉圖像和視頻中的細節。

4. 優化的訓練方法

Goku採用了“流式訓練”(Rectified Flow)方法。這種算法相比擴散模型,訓練效率更高、收斂速度更快,同時能生成更連貫的時序畫面。這一技術解決了傳統模型生成視頻時易出現的閃爍、斷層問題

這下,大家應該知道爲什麼Goku的效果這麼好了吧。

寫到最後,突然讓小編像起了去年風靡一時的Sora,Sora?似乎已經是上個版本的事了!

(又把Sora拉出來反覆鞭屍,哈哈哈哈哈~~)

掃碼邀請進羣,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

往期文章回顧