☰

字節跳動展示OmniHuman多模態框架：肖像+音頻=逼真動畫

IT之家 2 月 6 日消息，字節跳動的研究人員近日展示了一款 AI 模型，可以通過一張圖片和一段音頻生成半身、全身視頻。

字節跳動表示，和一些只能生成面部或上半身動畫的深度僞造技術不同，OmniHuman-1 能夠生成逼真的全身動畫，且能將手勢和麪部表情與語音或音樂精準同步。

字節跳動在其 OmniHuman-lab 項目頁面發佈了多個測試視頻，包括 AI 生成的 TED 演講和一個會說話的阿爾伯特・愛因斯坦。

在週一發佈的一篇論文中，字節跳動指出，OmniHuman-1 模型支持不同的體型和畫面比例，從而使視頻效果更自然。

據IT之家瞭解，字節跳動表示，OmniHuman-1 模型基於約 19000 小時的人類運動數據訓練而成，能夠在內存限制內生成任意長度的視頻，並適應不同的輸入信號。

研究人員還表示，OmniHuman-1 在真實性和準確性方面，超越了其他同類動畫工具。目前，該工具暫不提供下載或有關服務。

相關資訊