字節跳動展示OmniHuman多模態框架:肖像+音頻=逼真動畫

IT之家 2 月 6 日消息,字節跳動的研究人員近日展示了一款 AI 模型,可以通過一張圖片和一段音頻生成半身、全身視頻。

字節跳動表示,和一些只能生成面部或上半身動畫的深度僞造技術不同,OmniHuman-1 能夠生成逼真的全身動畫,且能將手勢和麪部表情與語音或音樂精準同步。

字節跳動在其 OmniHuman-lab 項目頁面發佈了多個測試視頻,包括 AI 生成的 TED 演講和一個會說話的阿爾伯特・愛因斯坦。

在週一發佈的一篇論文中,字節跳動指出,OmniHuman-1 模型支持不同的體型和畫面比例,從而使視頻效果更自然。

據IT之家瞭解,字節跳動表示,OmniHuman-1 模型基於約 19000 小時的人類運動數據訓練而成,能夠在內存限制內生成任意長度的視頻,並適應不同的輸入信號。

研究人員還表示,OmniHuman-1 在真實性和準確性方面,超越了其他同類動畫工具。目前,該工具暫不提供下載或有關服務。