震撼!無需依賴語言模型,豆包打破AI視覺次元壁

21世紀經濟報道記者雷晨 北京報道

繼DeepSeek大模型之後,國產大模型再度實現突破。

2月10日,字節跳動豆包大模型團隊公衆號發文宣佈,與北京交通大學、中國科學技術大學聯合提出的視頻生成實驗模型“VideoWorld”,在業界首次實現無需依賴語言模型,即可認知世界。該項目代碼與模型已開源。

據介紹,VideoWorld僅通過“視覺信息”,即瀏覽視頻數據,就能讓機器掌握推理、規劃和決策等複雜能力。並且,在僅300M參數量下,VideoWorld已取得可觀的模型表現。

近年來,字節跳動持續加碼多模態技術研發,憑藉其在視頻、圖像和文本等多領域的深度融合,爲AI應用場景的拓展注入新動能。

多位機構分析師認爲,隨着技術門檻的降低和生態合作的深化,AI應用有望加速繁榮,賦能千行百業,開啓智能化新時代。

用“眼”學習的大模型

VideoWorld的獨特之處在於,它僅憑藉“視覺信息”,也就是通過瀏覽大量的視頻數據,就能讓機器掌握推理、規劃和決策等複雜能力。

在人工智能領域,以往的許多模型往往依賴語言模型或者標籤數據來學習知識,例如Sora、DALL-E、Midjourney等,而VideoWorld打破了這一傳統模式。

在模型構建方面,研發團隊構建了視頻圍棋對戰和視頻機器人模擬操控兩個實驗環境。在訓練過程中,VideoWorld模型通過“觀看”包含大量視頻演示數據的離線數據集來進行學習。其架構採用的是樸素自迴歸模型,主要包含VQ-VAE編碼器—解碼器和自迴歸Transformer架構。這種架構設計使得模型能夠有效地處理視頻數據中的時空信息,爲後續的推理和決策提供基礎。​

然而,在研究初期,團隊遇到了一個難題,即視頻序列知識挖掘效率低於文本形式。爲了解決這一問題,團隊引入了潛在動態模型(LDM),該模型由以德國慕尼黑大學的研究團隊爲首的多個研究團隊共同構建。LDM能夠將幀間視覺變化壓縮爲緊湊的潛在編碼,這不僅提升了知識挖掘效率,還能保留豐富的視覺信息,讓VideoWorld可以捕捉視覺序列中的長期依賴關係,從而在長期推理和規劃方面表現得更加出色。

據豆包大模型團隊介紹,在不依賴任何強化學習搜索或獎勵函數機制的前提下,VideoWorld達到了專業5段9x9圍棋水平。

此外,VideoWorld還能夠在多種環境中執行機器人任務。在機器人模擬操控實驗環境中,它可以根據“觀看”到的視頻數據,學習如何控制機器人完成各種任務,如移動、抓取物品等。

“VideoWorld通過僅依賴‘視覺信息’的方式,讓機器能夠掌握推理、規劃和決策等複雜能力,這無疑是人工智能技術在視覺學習領域的一次重要革新。”盤古智庫高級研究員江瀚對記者表示。

不過,儘管VideoWorld在圍棋和模擬機器人操控場景中表現卓越,但豆包大模型團隊同時指出,在真實世界的應用中,它還面臨高質量視頻生成和多環境泛化等挑戰。

AI應用生態加速繁榮

近年來,字節跳動在多模態技術研發上持續加大投入,從2023年2月探索大模型,到8月開啓“豆包”公測,再到2024年5月豆包正式對外服務並掀起大模型價格戰,豆包大模型在全球範圍內吸引了大量用戶,在2024年11月的全球月活躍排行榜上位列第二。

2月7日,字節跳動旗下即夢AI發佈新功能上線預告片,展示了全新的多模態視頻生成模型OmniHuman,僅需輸入一張圖片和一段音頻,就能生成生動的AI視頻。而VideoWorld的發佈,進一步拓展了字節跳動在多模態領域的技術版圖。

豆包大模型團隊還表示,VideoWorld項目代碼與模型已開源。

開源不僅是代碼和模型的共享,更意味着構建一個創新生態。以往,開發大模型需要鉅額資金投入、強大的算力支撐以及深厚的技術積累,這使得許多中小開發者和研究團隊難以涉足。

而開源大模型的出現,打破了這一壁壘,降低了技術門檻,讓更多的創新力量得以參與到大模型的開發與應用中。

此前,在OpenAI毅然選擇閉源策略後,衆多大模型廠商紛紛跟風,閉源彷彿成了新的行業共識。而近期橫空出世的DeepSeek卻反其道而行之,將高性價比的R1模型開源。

緊隨其後,VideoWorld也選擇開源,折射出中國AI產業從單一技術突破嚮應用生態構建的戰略轉向。

可見,產業格局的變革已悄然啓動。

江瀚告訴記者,此次VideoWorld的推出將推動相關產業的快速發展。“例如,在自動駕駛、智能製造、智能安防等領域,VideoWorld的應用將極大地提升系統的智能化水平,推動相關產業的快速發展。”他表示。