☰

豆包新模型VideoWorld無需依賴語言、僅通過“視覺信息”認知世界

2月10日，界面新聞獲悉，豆包大模型團隊聯合北京交通大學、中國科學技術大學共同開發的視頻生成實驗模型“VideoWorld”正式開源。

不同於主流多模態模型，VideoWorld 在業界首次實現無需依賴語言模型，即可認知世界。這一創新，也是在人工智能視頻生成和多模態認知方面取得的重要突破。

傳統的多模態模型，如Sora、DALL-E和Midjourney等，大多依賴於語言或標籤數據來學習知識，而VideoWorld則通過純視覺信號進行學習和推理。這一特性使得VideoWorld在處理如摺紙、打領結等難以通過語言清晰表達的任務時，具有顯著優勢。

大模型的視覺理解能力一直是AI前沿研究方向之一。視頻中存在大量冗餘信息，會影響模型的學習效率，使得視頻序列的知識挖掘效率顯著落後於文本形式。但李飛飛教授曾在TED演講中提到，“幼兒可以不依靠語言理解真實世界”。與語言相比，“用眼睛看”是人類門檻更低的認知方式。

據介紹，VideoWorld的核心技術基於一種潛在動態模型（LDM），該模型能夠高效壓縮視頻幀間的變化信息，顯著提升知識學習的效率和效果。

此外，VideoWorld還結合了自迴歸Transformer架構和矢量量化-變分自編碼器（VQ-VAE），實現了高質量的視頻生成和複雜的任務推理。通過這一組合，VideoWorld能夠從未標註的視頻數據中學習複雜的任務知識，包括規則、推理和規劃能力。

在實際應用中，在不依賴任何強化學習搜索或獎勵函數機制前提下，VideoWorld 達到了專業 5 段 9x9 圍棋水平，能夠選擇最佳落子位置並擊敗高水平的對手。

此外，該模型還具有擴展到自動駕駛、智能監控等領域的潛力。

VideoWorld的開源項目代碼和模型已公開發布，豆包大模型團隊也提供了詳細的安裝和運行指南。

2月10日，受此消息影響，A股視覺認知概念股午後大幅走強，創業板星宸科技直線拉昇漲停，全志科技、富瀚微、虹軟科技等紛紛大幅衝高。

相關資訊