2025中關村論壇年會|智源研究院院長王仲遠:具身智能是機器人2.0時代最重要的特徵

北京商報訊(記者 魏蔚)3月29日,智源研究院院長王仲遠在未來人工智能先鋒論壇上,分享了智源研究院在具身智能領域的思考。

"大語言模型和多模態大模型的發展,進一步推動機器人從1.0時代向2.0時代發展。人工智能與機器人有了交匯點。機器人2.0時代,具身智能就是最重要的特徵",肯定大模型發展的同時,王仲遠沒有避諱問題,"當前具身智能的發展遇到很多瓶頸,首先硬件依然不夠成熟,成本比較高,阻礙具身智能進入更多場景落地應用。同時具身數據比較缺乏,導致模型的能力偏弱。在應用上,模型能力不足,又導致落地困難,形成了具身智能發展的循環悖論。要破解這些挑戰,需要每個環節都去突破"。

他進一步說,當前具身大模型存在幾個很明顯的問題,不好用、不易用、不通用。不好用是指現在的具身智能大模型沒有到"ChatGPT時刻",不易用是指部署具身大模型時和本體的適配難度比較高。不通用指的是一些具身模型只能在一種本體或同一品牌的本體使用,這阻礙了更多的機器人公司和硬件公司享受大模型的賦能。

針對上述問題,智源研究院當天發佈首個跨本體具身大小腦協作框架RoboOS與開源具身大腦RoboBrain。

作爲面向多機器人系統的跨本體具身大小腦協作框架,RoboOS專爲解決當前具身智能落地過程中的通用性適配與多機調度難題而設計。

RoboBrain由三個模塊組成:用於任務規劃的基座模型、用於可操作區域感知的A-LoRA模塊和用於軌跡預測的T-LoRA模塊。在推理時,模型首先感知視覺輸入,並將輸入指令分解爲一系列可執行的子任務,然後執行可操作區域感知和軌跡預測。RoboBrain採用多階段訓練策略,使其具備長曆史幀記憶和高分辨率圖像感知能力,進而提升場景感知和操作規劃的能力。