CAAI具身智能專委會主任蔣樹強:世界模型是智能體進行決策的重要依據
“具身智能體的大腦裡應該是什麼?”8月2日,“2025第三屆人工智能大模型技術高峰論壇”召開,CAAI(中國人工智能學會)具身智能專委會主任、中國科學院大學特聘教授、國家傑青獲得者蔣樹強圍繞智能體的“大腦”構成、大模型在具身智能中的作用、世界模型與記憶等作核心報告。
蔣樹強指出,具身智能離不開三個關鍵詞:身體、環境、智能。它們之間存在深層次、複雜的關係,智能的實現依賴於身體的結構、感知能力與環境的交互。
“具身智能可以理解爲在身體上融入智能,本體和智能同樣重要。智能不僅存在於大腦,還與感知、認知、行爲密切相關。”蔣樹強表示,身體的結構、形態、感知器與行爲能力共同構成智能的一部分,對智能的實現具有重要影響。例如,身高、肢體結構、感官分佈等決定了智能體如何感知和理解世界。
關於具身大模型,蔣樹強認爲,具身大模型一般需融合視覺、語言和行爲數據進行訓練。訓練具身大模型需要數據、算力、算法三者統一。數據不再只是文本或視頻,而是包含行爲、物理參數、觸覺等多模態信息,複雜度更高。
“我覺得在特定場景下,只用一種類型的本體去訓練,相對務實一點。但如果是各種各樣的機器形態一起訓練,事情的複雜度會很高。”因此,蔣樹強表示,具身大模型在真實物理空間中的泛化能力、數據複雜度、傳感器差異等問題仍是挑戰。
蔣樹強還提到,世界模型是對真實世界的抽象表示,包括三維空間、動態變化、對象關係、記憶與知識等。其目標是對環境狀態進行理解和預測,是智能體進行決策的重要依據。NIPS 2018的一篇文章指出,世界模型相當於是推理和角色相關模型系統。然而世界模型和大模型的關係以及世界模型和三維空間的關係,都是值得去思考和挖掘的。
“我們現在有單臂的機器人,讓它去自動導航到一個地方,把桌面收拾乾淨。實際上,這個是偏工程實現的,沒有太多理論的方法,我們主要做研究還是在導航這一塊。”蔣樹強介紹,目前研究中大量使用模擬器生成數據,但虛擬環境的物理參數可能不夠真實,如何將虛擬與真實環境對齊仍是難題。