☰

字節跳動推視頻模型Goku，一鍵生成數字人直播帶貨

作者｜子川

來源｜AI先鋒官

字節即將發佈的這款視頻模型，有點東西。

就在剛剛，香港大學與字節跳動聯合發佈了一款名爲Goku（悟空）的視頻生成模型。

據介紹這款模型不僅能夠通過文本、圖片生成高質量視頻，還能直接生成虛擬數字人互動內容，更是被網友稱爲“市場營銷的終結者”

話不多說，先給大家掌掌眼。

像這樣。

這樣。

以及這樣的視頻通通都是Goku生成的。

從上面幾個案例我們不難看出，Goku可生成的視頻，人物手部動作、面部表情、光影效果均高度自然。

同時在權威測試中，Goku的文本到視頻生成VBench得分達84.85，創下新紀錄（SOTA）。

重點是還支持時長超20秒的高質量視頻。

除了Goku以外，還有一個專門爲廣告場景優化的子模型Goku+，可直接生成數字人視頻。

適用於直播帶貨、客服講解等場景。例如，輸入一段產品說明文本，模型便能生成一個“數字銷售員”的講解視頻，表情、手勢與語音完美同步。

提示詞：一張隨意的日常照片——坦率，可能是秘密或自發拍攝的，沒有藝術姿勢，沒有完美的構圖，也沒有濾鏡。光線很自然，整體感覺也很自然。拍攝對象是一位 21 歲的歐洲血統女性，皮膚白皙，金髮藍眼睛，非常有吸引力。她穿着一件羊毛連衣裙，上面彆着一個小麥克風——也許她正在接受採訪？背景是在室內，她的手在畫面中不可見，她正在看着觀衆。這是一個半身長的照片，以隨意的日常方式拍攝。

上傳一張書包的圖片，模型還可以自動生成產品展示視頻。

如果你覺得需要有一個模特來來突出商品的亮點，僅需一張商品圖+文字提示，即可生成帶真人互動的廣告片

是不是有點意思。

不過不好意思，現在還不能玩，官方目前只放出了技術報告，模型具體的發佈時間還未定。

技術報告：https://arxiv.org/abs/2502.04896

效果這麼好，這論文不得趴一趴。

據論文介紹，Goku的效果很好，主要是因爲它採用了多種先進的技術和優化方法。

1. 數據處理和篩選

Goku團隊構建了包含3600萬視頻+1.6億圖像的數據集，並通過美學評分、OCR分析、多模態大模型標註等技術嚴格篩選數據質量。

2. 聯合圖像和視頻生成

Goku採用了聯合圖像和視頻生成的方法，大家可以理解爲把圖片和視頻放在一起學習。

它用了一個特別的工具，叫做“聯合圖像-視頻變分自編碼器”（你可以把它想象成一個壓縮機），這個工具可以把圖片和視頻都變成一種通用的“代碼”（就像把不同的語言翻譯成一種通用語言）。

這樣，模型就能同時學習圖片的靜態內容和視頻的動態內容，最後生成又好看又流暢的圖片和視頻。

3. 先進的模型架構

Goku使用了基於Transformer的架構，這種架構能夠處理複雜的時空關係，使得生成的視頻在時間和空間上更加連貫。它還採用了“全注意力機制”，能夠更好地捕捉圖像和視頻中的細節。

4. 優化的訓練方法

Goku採用了“流式訓練”（Rectified Flow）方法。這種算法相比擴散模型，訓練效率更高、收斂速度更快，同時能生成更連貫的時序畫面。這一技術解決了傳統模型生成視頻時易出現的閃爍、斷層問題

這下，大家應該知道爲什麼Goku的效果這麼好了吧。

寫到最後，突然讓小編像起了去年風靡一時的Sora，Sora？似乎已經是上個版本的事了！

（又把Sora拉出來反覆鞭屍，哈哈哈哈哈~~）

掃碼邀請進羣，我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學一些AI搞錢技能。

往期文章回顧

字節跳動推視頻模型Goku，一鍵生成數字人直播帶貨

相關資訊