民生證券:豆包視頻大模型VideoWorld發佈 激活視覺市場潛力

財中社2月11日電 事件:2月10日,據豆包大模型團隊官宣發佈視頻生成實驗模型“VideoWorld”,不同於Sora、DALL-E、Midjourney等主流多模態模型,VideoWorld在業界首次實現無需依賴語言模型,即可認知世界。

開源視頻生成模型最新成果,可僅靠視覺認知世界。

視頻生成成爲通用知識學習方法,在現實世界充當“人工大腦”。作爲一種通用視頻生成實驗模型,VideoWorld去掉語言模型,實現了統一執行理解和推理任務。同時基於一種潛在動態模型,可高效壓縮視頻幀間的變化信息,顯著提升知識學習效率和效果。且目前該項目代碼與模型已開源。在不依賴任何強化學習搜索或獎勵函數機制前提下,VideoWorld達到了專業5段9x9圍棋水平,並能夠在多種環境中,執行機器人任務。團隊認爲,視頻生成可以成爲一種通用的知識學習方法,並在現實世界充當思考和行動的“人工大腦”。

模型僅靠“視覺”即可學習知識,“預測”未來,並“理解”因果關係。研究團隊構建了兩個實驗環境:視頻圍棋對戰和視頻機器人模擬操控,它在保留豐富視覺信息的同時,壓縮了關鍵決策和動作相關的視覺變化,實現了更有效的視頻學習,且這種純視覺模型可“預測”未來,並能“理解”因果關係。在未來,豆包團隊將着力解決其在真實世界環境中的應用,仍面臨着高質量視頻生成和多環境泛化等挑戰。

視覺認知世界的能力有望激活“視覺市場”爲其打開增長空間。

以海康威視爲代表的“視覺市場”有望在視頻大模型的能力催化下收益,作爲全球知名的視頻監控行業龍頭企業,根據2024年度全球安防50強榜單,海康威視以97.22億美元的2023年安防產品銷售收入穩居第一,超過後兩名的總和。2022年,海康威視明確智能物聯(AIOT)戰略,2023年,公司正式推出“觀瀾大模型”助力各行業實現數字化、智能化升級。根據Omdia報告,2022年海康威視在全球視頻監控市場中的佔有率達到25.9%,大幅領先於第二名。在龐大的視頻監控部署網絡下,開源視頻大模型的誕生對海康而言無疑是一劑強心針。

螢石網絡公司2023年智能家居攝像頭業務營收佔比62.07%,且作爲公司的現金牛業務及第一增長曲線,市場佔有率處於市場前列,且連續多年在雙11、618等購物節的天貓、抖音等平臺相關類目品牌排行中位列第一。且公司在視覺技術方面擁有硬件、軟件、雲平臺高度融合的生態閉環,端雲協同,爲智能檢測、智能識別、AI分析推理等功能提供了強大支持。視覺大模型的發佈有望進一步助推螢石網絡視覺領域業務再上臺階。

如果您有新聞線索,請聯繫我們:newsroom@caizhongshe.cn