豆包：視頻生成模型“VideoWorld”可僅靠視覺認知世界現已開源

視頻生成實驗模型“VideoWorld”由豆包大模型團隊與北京交通大學、中國科學技術大學聯合提出。不同於Sora 、DALL-E 、Midjourney等主流多模態模型，VideoWorld在業界首次實現無需依賴語言模型，即可認知世界。目前，該項目代碼與模型已開源。

本文源自：金融界AI電報

豆包：視頻生成模型“VideoWorld”可僅靠視覺認知世界 現已開源