Figure發佈通用具身智能模型Helix,僅需500小時訓練數據實現高效泛化

當地時間2025年2月20日,人形機器人公司Figure宣佈推出自主研發的通用視覺—語言—動作(VLA)大模型Helix。這一模型在性能、架構及訓練效率上實現多項突破,首次展示了兩臺機器人協同完成複雜操作任務的能力,並大幅降低訓練數據需求,爲具身智能的商業化落地提供新方向。

一、雙系統架構實現高速與泛化協調

Helix採用“系統1(S1)”與“系統2(S2)”的雙層解耦架構,解決了傳統機器人模型在速度與通用性之間的權衡問題。S1作爲高速反應式視覺運動策略,以200赫茲的頻率將S2的語義分析結果轉化爲精確的連續動作;S2則基於互聯網預訓練的視覺語言模型(VLM),以7-9赫茲的頻率處理場景理解和語義推理。這一分工使得Helix既能實時執行動作,又能應對複雜情境的泛化需求。

雙系統架構的另一優勢在於模塊化迭代能力。由於S1與S2的解耦設計,二者可獨立優化,無需重新調整整體模型。例如,S2採用70億參數的開源VLM,未來可通過更換更高性能的基礎模型提升整體能力;而S1的8000萬參數視覺運動策略則專注於動作執行效率。這種設計顯著降低了模型升級的複雜性。

對比傳統分層模型,Helix通過端到端訓練直接輸出高維連續動作,避免了複雜的動作標記和規劃流程。例如,在官方演示中,兩臺機器人無需預設指令即可協作完成冰箱物品收納,展現了其對未知物體的零樣本泛化能力。

二、訓練效率與商業化落地能力

Helix僅需約500小時的監督數據即可完成訓練,數據量僅爲傳統VLA模型的極小部分。其核心突破在於通過自動化標註技術生成訓練指令:模型根據機器人攝像頭捕捉的視頻片段,反向生成對應動作的自然語言描述,從而大幅減少人工標註成本。這一方法有效解決了家庭場景下海量未知物體的泛化難題。

商業化可行性是Helix的另一亮點。該模型可在嵌入式低功耗GPU上運行,無需依賴雲端算力,爲家庭、倉儲等場景的實時部署提供可能。此外,Helix採用單一神經網絡權重集學習所有行爲,包括抓取、開關抽屜、跨機器人交互等,無需針對任務微調,顯著降低實際應用的開發門檻。

Figure創始人BrettAdcock表示,未來計劃將Helix模型規模擴大1000倍,並加速人形機器人量產。目前,Helix已在家庭場景中驗證了其處理複雜任務的能力,例如抓取仙人掌、雞蛋等易損物品。這一進展爲機器人從工業環境走向家庭服務奠定了基礎。

總結:Helix的發佈標誌着具身智能在模型架構、數據效率和商業化路徑上的重要突破。隨着端到端大模型與硬件技術的深度融合,人形機器人產業的泛化能力與落地速度有望進一步提速。

本文源自:金融界

作者:觀察君