☰

CAAI具身智能專委會主任蔣樹強：世界模型是智能體進行決策的重要依據

“具身智能體的大腦裡應該是什麼？”8月2日，“2025第三屆人工智能大模型技術高峰論壇”召開，CAAI（中國人工智能學會）具身智能專委會主任、中國科學院大學特聘教授、國家傑青獲得者蔣樹強圍繞智能體的“大腦”構成、大模型在具身智能中的作用、世界模型與記憶等作核心報告。

蔣樹強指出，具身智能離不開三個關鍵詞：身體、環境、智能。它們之間存在深層次、複雜的關係，智能的實現依賴於身體的結構、感知能力與環境的交互。

“具身智能可以理解爲在身體上融入智能，本體和智能同樣重要。智能不僅存在於大腦，還與感知、認知、行爲密切相關。”蔣樹強表示，身體的結構、形態、感知器與行爲能力共同構成智能的一部分，對智能的實現具有重要影響。例如，身高、肢體結構、感官分佈等決定了智能體如何感知和理解世界。

關於具身大模型，蔣樹強認爲，具身大模型一般需融合視覺、語言和行爲數據進行訓練。訓練具身大模型需要數據、算力、算法三者統一。數據不再只是文本或視頻，而是包含行爲、物理參數、觸覺等多模態信息，複雜度更高。

“我覺得在特定場景下，只用一種類型的本體去訓練，相對務實一點。但如果是各種各樣的機器形態一起訓練，事情的複雜度會很高。”因此，蔣樹強表示，具身大模型在真實物理空間中的泛化能力、數據複雜度、傳感器差異等問題仍是挑戰。

蔣樹強還提到，世界模型是對真實世界的抽象表示，包括三維空間、動態變化、對象關係、記憶與知識等。其目標是對環境狀態進行理解和預測，是智能體進行決策的重要依據。NIPS 2018的一篇文章指出，世界模型相當於是推理和角色相關模型系統。然而世界模型和大模型的關係以及世界模型和三維空間的關係，都是值得去思考和挖掘的。

“我們現在有單臂的機器人，讓它去自動導航到一個地方，把桌面收拾乾淨。實際上，這個是偏工程實現的，沒有太多理論的方法，我們主要做研究還是在導航這一塊。”蔣樹強介紹，目前研究中大量使用模擬器生成數據，但虛擬環境的物理參數可能不夠真實，如何將虛擬與真實環境對齊仍是難題。

CAAI具身智能專委會主任蔣樹強：世界模型是智能體進行決策的重要依據

相關資訊