智源研究院院長王仲遠:多模態大模型會給具身智能帶來新變量

具身智能無疑是2025中關村論壇年會最熱的話題之一。3月29日,智源研究院在2025中關村論壇“未來人工智能先鋒論壇”上發佈首個跨本體具身大小腦協作框架RoboOS與開源具身大腦RoboBrain。

在接受媒體採訪時,智源研究院院長王仲遠表示,多模態大模型技術會給整個具身智能帶來一些新的變量。這些技術有助於機器人更快、更高效地擁有“大腦”,從而具備更強的智能。

多模態大模型讓機器人具備更強智能

王仲遠表示,大語言模型已經在理解和推理能力上達到了非常高的水平,甚至在某些領域可以接近碩士或博士水平,已經從實驗室進入產業界,但隨着互聯網文本數據基本已經被使用完畢,大語言基礎模型的性能提升進入相對緩慢的階段。

在現實世界中,存在大量多模態數據,比如流程圖、醫療領域的X光片數據、CT數據和各行業的傳感器數據等。多模態大模型能夠讓人工智能真正看到、理解、感知世界,並從數字世界進入物理世界,跟物理世界裡的硬件結合,也就是具身智能。

“具身智能概念出現的時間比較早,對於具身智能的理解,傳統研究者和從AI大模型領域轉向具身智能的研究者,並沒有在技術路線上完全達成共識。”他說,傳統機器人訓練依然在大量使用強化學習,通過重複練習,教機器人學抓杯子、倒水、寫毛筆字等,這種類型的人形機器人,泛化性會弱一些。

但是大模型技術,尤其是多模態大模型技術,會給整個具身智能帶來一些新的變量。這些技術有助於機器人更快、更高效地擁有“大腦”,從而具備更強的智能。

具身多模態大腦模型RoboBrain開源

當天下午,智源研究院發佈了跨本體具身大小腦協作框架RoboOS與開源具身大腦RoboBrain,可實現跨場景多任務輕量化快速部署與跨本體協作,推動單機智能邁向羣體智能。“簡單來講,它可以支持不同構型、不同品牌的機器人。不管是單臂機器人、雙臂機器人,還是輪式機器人、人形機器人,都可以使用我們的具身大腦。”

王仲遠說,RoboBrain能夠幫助這些硬件具備一些泛化的智能,面向具身智能應用領域的多模態大模型,能夠幫助機器人真正看到這個世界,對人類發出的指令進行拆解、邏輯推理和規劃決策,再分配給不同的小腦模型來執行,“這是我們把多模態大模型向具身智能進行落地的一個嘗試。”

RoboBrain能夠解讀人類指令和視覺圖像,以生成基於實時圖像反饋的行動計劃和評估,預測每一步的軌跡並感知相應的可操作區域。目前,可支持鬆靈雙臂、睿爾曼單/雙臂、智元人形、宇樹人形等不同類型的具身本體。

王仲遠說,爲了促進整個行業的發展,智源研究院將具身多模態大腦模型RoboBrain開源,希望能夠與本體的廠商、模型的廠商、應用的廠商一起協作,促進整個具身智能行業更好更快發展。

他說,開源一直是推動計算機行業乃至人工智能行業過去這幾十年快速發展的核心動力。“開源能夠讓我們的研究站在巨人的肩膀上,減少資源的浪費和無效的工作。不少商業化公司也探索出了開源與閉源結合的商業化模式。”

實現廣泛意義上的AGI至少還需5-10年

針對人形機器人賽道扎堆的問題,王仲遠說,行業內也有不少機器人公司迭代輪式構型的人形機器人,以避免雙足機器人不穩定帶來的能力侷限。但從長遠來看,人形機器人具有獨特優勢,其與人的構型相似,能更好適應社會基礎設施,從海量互聯網數據中學習人類技能,有利於具身智能和具身大腦模型的迭代。

短期內,人形機器人在產業落地方面仍面臨諸多挑戰,很多機器人尚處於“能走”階段,正向“走得快、走得穩”的目標努力。

他預測,今年人工智能應用有望迎來大爆發,尤其是大語言模型的落地應用,中國海量的應用場景將加速這一進程。多模態大模型目前仍處於相對早期階段,實現廣泛意義上的AGI可能還需5-10年,甚至更長時間,這取決於本體能力、世界模型構建和數據等多方面因素。

談及實現AGI(通用人工智能)還有多久,他表示,讓人工智能理解人類的語言、解決實際生活中的具體問題,如做飯、洗碗等,距離實現這種程度的AGI還有很長距離。在這個過程中,依賴於本體的能力、對世界模型構建的進展和不同的落地場景中數據的積累等。多模態大模型和世界模型是實現真正AGI的必經之路。

新京報記者 張璐

編輯 張磊 校對 張彥君