豆包新模型VideoWorld無需依賴語言、僅通過“視覺信息”認知世界

2月10日,界面新聞獲悉,豆包大模型團隊聯合北京交通大學、中國科學技術大學共同開發的視頻生成實驗模型“VideoWorld”正式開源。

不同於主流多模態模型,VideoWorld 在業界首次實現無需依賴語言模型,即可認知世界。這一創新,也是在人工智能視頻生成和多模態認知方面取得的重要突破。

傳統的多模態模型,如Sora、DALL-E和Midjourney等,大多依賴於語言或標籤數據來學習知識,而VideoWorld則通過純視覺信號進行學習和推理。這一特性使得VideoWorld在處理如摺紙、打領結等難以通過語言清晰表達的任務時,具有顯著優勢。

大模型的視覺理解能力一直是AI前沿研究方向之一。視頻中存在大量冗餘信息,會影響模型的學習效率,使得視頻序列的知識挖掘效率顯著落後於文本形式。但李飛飛教授曾在TED演講中提到,“幼兒可以不依靠語言理解真實世界”。與語言相比,“用眼睛看”是人類門檻更低的認知方式。

據介紹,VideoWorld的核心技術基於一種潛在動態模型(LDM),該模型能夠高效壓縮視頻幀間的變化信息,顯著提升知識學習的效率和效果。

此外,VideoWorld還結合了自迴歸Transformer架構和矢量量化-變分自編碼器(VQ-VAE),實現了高質量的視頻生成和複雜的任務推理。通過這一組合,VideoWorld能夠從未標註的視頻數據中學習複雜的任務知識,包括規則、推理和規劃能力。

在實際應用中,在不依賴任何強化學習搜索或獎勵函數機制前提下,VideoWorld 達到了專業 5 段 9x9 圍棋水平,能夠選擇最佳落子位置並擊敗高水平的對手。

此外,該模型還具有擴展到自動駕駛、智能監控等領域的潛力。

VideoWorld的開源項目代碼和模型已公開發布,豆包大模型團隊也提供了詳細的安裝和運行指南。

2月10日,受此消息影響,A股視覺認知概念股午後大幅走強,創業板星宸科技直線拉昇漲停,全志科技、富瀚微、虹軟科技等紛紛大幅衝高。