智元機器人姚卯青:不做大模型,機器人是沒有未來的
3月10日,智元機器人發佈首個通用具身基座模型——智元啓元大模型(Genie Operator-1),提出了Vision-Language-Latent-Action (ViLLA) 架構。該架構由VLM(多模態大模型) + MoE(混合專家)組成,其中VLM藉助大量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規劃器)藉助大量跨本體和人類操作視頻數據獲得通用的動作理解能力,MoE中的Action Expert(動作專家)藉助真機數據獲得精細的動作執行能力,三者相結合,實現了可以利用人類視頻學習,完成小樣本快速泛化。
智元稱,該模型可以降低具身智能門檻,並已經成功部署到智元多款機器人本體。
智元具身研究中心常務主任任廣輝對界面新聞介紹,現有具身模型面臨多個落地困境,包括泛化性差,到新場景時成功率大幅下降;擴展新任務時需要大量數據,落地成本高;不同本體的數據無法共用,數據成本高;模型無法持續進化等。
而現有的DP/ACT等具身小模型技能單一且無法快速學習新技能,GR-1/2等模型無法構建通用的場景感知、指令理解等能力,語義指令泛化受限,以及存在小樣本泛化到新場景/新任務能力較弱等問題。
智元新推出的ViLLA架構大模型可以比較好地解決這些問題。基於該架構的GO-1大模型可以結合互聯網視頻和真實人類示範進行學習,增強模型對人類行爲的理解,更好地爲人類服務。
由於具有強大的泛化能力,GO-1能夠在極少數據甚至零樣本下泛化到新場景、新任務,使得後訓練成本非常低。此外,GO-1大模型是通用機器人策略模型,能夠在不同機器人形態之間遷移,快速適配到不同本體。配智元一整套數據迴流系統,GO-1可以從實際執行遇到的問題數據中持續進化學習,“越用越聰明”。
在評測中,智元機器人在五種不同複雜度任務上針對GO-1的測試顯示,相比已有的最優模型,GO-1的任務成功率領先,平均成功率提高了32%(46%->78%),其中在“Pour Water”(倒水)、“Table Bussing”(清理桌面)和“Restock Beverage”(補充飲料)的任務中表現尤爲突出。
在成本方面,智元對界面新聞表示,目前機器人的研發成本中算力和數據是投入最大的兩個方面,因此節約訓練數據量對降低訓練成本的效果顯著。
“對機器人公司來說,如果不做大模型,是沒有未來的。沒有智能化、沒有作業能力的機器人只是一個硬件,能做的事情非常有限。所以我們對於機器人大模型的投入是非常大的。”智元新創技術有限公司研究院執行院長、具身業務部總裁姚卯青對界面新聞強調,“就像新能源車和手機行業一樣,硬件會收斂,供應鏈會整合,最後拼的是智能化。”
他透露,DeepSeek等大模型的工作給智元帶來了很大的啓發。智元參考了通用能力預訓練加垂類數據後訓練的思路,但在機器人領域增加了Latent Planner和Action Expert的創新。他還提到,最近火熱的Agent智能體在任務規劃上同樣有借鑑意義,長期來看智元可能會在機器人上融合Agent理念。
在多模態大模型方面,智元表示,已經與階躍星辰合作,後續將圍繞階躍的多模態、推理和訓練、工程化等底層模型能力進行深度的合作,將階躍星辰多模態等能力賦能到機器人上面。
姚卯青表示,大模型在機器人行業的應用也會經歷一個漸進式的過程。從一些較爲容易入手、結構化場景較爲明確的場景先進性落地探索,然後逐漸演化到一些半結構化和半開放的任務和場景,最終通過在各個行業、各個場景落地過程中收集到的數據,真正實現通用人工智能在物理世界的應用。
從時間上來說,他預判,未來1-2年,人形機器人能夠在局部工業場景應用落地,機器人走進家庭還需要5年左右的時間。此外,機器人實現像人一樣有通用能力的物理世界AGI(通用人工智能)還需要5-10年時間。
在機器人技術方向上,他認爲其還處於比較早期的階段,沒有到收斂的程度。受制於數據的問題,機器人行業還無法完成完整的驗證,這也是智元希望去主動開源的原因。
去年12月30日,智元機器人宣佈開源彙集百萬真實機器人數據的開源數據集AgiBot World(智元世界)。在GO-1發佈的同時,智元也將技術博客、論文完全公開。一季度內,智元機器人還會面向核心用戶開源GO-1模型。
姚卯青還向界面新聞等媒體稱,在本體、硬件、算法都還沒有收斂的情況下,大家急着“卷”價格戰沒有什麼意義。對於最近受關注的9.9萬元機器人話題,他認爲人形機器人產業還是要看產品競爭力,如果在達不到給用戶創造價值的時候打9.9萬元,只會把整個行業變成一個很不健康的狀態。
他透露,智元今年機器人出貨量計劃保持在數千臺,營收數將保持數倍規模增長。今年1月,智元機器人剛剛宣佈完成下線1000套通用具身機器人。