☰

智元發佈首個通用具身基座大模型：完成小樣本快速泛化，降低具身智能門檻

3月10日，智元發佈首個通用具身基座大模型——智元啓元大模型（GO-1）。據瞭解，該架構由VLM（多模態大模型）+MoE（混合專家）組成。其中VLM藉助海量互聯網圖文數據獲得通用場景感知和語言理解能力，MoE中的Latent Planner（隱式規劃器）藉助大量跨本體和人類操作數據獲得通用的動作理解能力，MoE中的Action Expert（動作專家）藉助百萬真機數據獲得精細的動作執行能力。三者環環相扣，可以利用人類視頻學習、完成小樣本快速泛化並且降低具身智能門檻。其已成功部署到智元多款機器人本體，而且還會持續進化，將具身智能推上一個新臺階。

對於多模態大模型與混合專家大模型的具體分工，智元具身研究中心常務主任任廣輝回覆《每日經濟新聞》記者問題時表示：“我們多模態大模型本身，自帶了一個專家。Latent Planner負責我們互聯網規模的圖文錄像訓練，它來理解視頻中的動作，比如倒水這個動作，肯定需要手腕旋轉。而Action Expert（動作專家），則是在看了很多理論，看了很多視頻動作後，負責在機器人本體（上的）執行。”

任廣輝補充表示：“各個模型分工明確，各司其職，並且是分層的。就如人類學東西一樣，先學理論，再看別人如何操作，再自己操作。這樣分層次（學習），也令整個學習、訓練相對而言更容易一點。”

智元發佈首個通用具身基座大模型：完成小樣本快速泛化，降低具身智能門檻

相關資訊