賽道Hyper | 智元GE:重塑機器人智能執行邏輯

作者:周源/華爾街見聞

在科技迭代過程中,具身智能領域的發展,在當面,面臨着技術突破的緊迫需求。

7月27日,智元機器人在WAIC 2025“智啓具身論壇”發佈行業首個動作驅動世界模型開源平臺“Genie Envisioner”(以下簡稱GE)。

GE的出現,爲具身智能的實際應用提供了新的技術支撐,也讓行業看到了機器人自主決策能力提升的更多可能。

迫切需求:突破傳統

自1950年英國數學家、邏輯學家艾倫・圖靈(Alan Turing)在《Computing Machinery and Intelligence》(計算機器與智能)論文中提出具身智能概念以來,該領域在漫長的發展過程中,始終存在着一些難以突破的技術瓶頸。

傳統的人工智能技術主要依賴符號處理範式,這在處理虛擬環境中的邏輯問題時表現尚可,但在與真實物理世界做交互時,就顯得力不從心。

比如在工業生產的裝配環節,傳統機器人只能按照預設的程序操作,一旦零件位置出現微小偏差,就可能導致整個裝配過程中斷。

隨着工業生產的柔性化、個性化需求日益增長,商業服務場景對機器人的靈活性要求也不斷提高,市場迫切需要一種能讓機器人更好地適應複雜環境、自主做出決策並執行任務的技術,正是在這樣的背景下,具身智能成爲行業探索的重要方向。

具身智能強調智能體通過與環境的實時交互,實現感知、認知、決策與行動的一體化;但環境感知的精度、決策的靈活性以及動作執行的精準度等問題,仍然在很大程度上制約着具身智能技術的進一步發展。

智元機器人發佈的GE平臺,在技術層面,實現了三大核心能力——預測、控制和評測的協同運作,爲具身機器人從“看見”到“行動”提供端到端、一體化的解決方案。

GE平臺整合了這三項能力,形成一套從視覺感知到動作執行的端到端解決方案。

就預測來說,通過複雜算法,深入分析海量數據。以“做三明治”這個任務爲例,GE平臺的預測能力,可預判在拿起麪包時可能出現的滑落風險,進而指導機械臂調整抓取的角度。

這一過程是基於對面包的質地、機械臂的抓取力度等多維度數據的綜合分析,爲後續的動作規劃提供了有效參考。

控制能力能根據實際情況做出動態調整。比如在搬運不同重量的物體時,會依據物體重量改變機械臂的輸出功率:搬運較輕物體時減少功率以避免造成損壞,反之則增加功率以保證搬運穩定性,遇到障礙物時也能及時改變運動軌跡,體現了對實時反饋的快速響應能力。

在任務執行過程中,評測能力就可實時監控效果。比如“倒茶”這個動作,搭載GE平臺的智能終端(比如具身機器人),會持續監測茶水倒入的速度和量;當發現接近溢出的情況時,會向控制模塊發送信號,調整茶壺的傾斜角度,這樣的實時監測和反饋機制,能保障任務的完成效果。

平臺技術差異及優勢

GE核心組成部分包括多視角視頻擴散模型GE-Base和GE-Act動作解碼器。

依託AgiBot-World-Beta數據集(包含超100萬條、近3000小時頭部與雙臂腕同步視頻流),GE-Base對場景的理解不僅僅停留在表面的識別層面。

在廚房場景中,GE-Base不僅能識別雞蛋的位置,還能通過雞蛋的色澤、形狀等特徵,判斷其新鮮度,進而影響機器人的抓取力度,這得益於GE-Base對視頻流中空間佈局、動作演化以及語義意圖的多層解析,爲機器人感知外部環境提供有力信息支持。

160M參數動作解碼器GE-Act的主要功能,是將GE-Base獲取的視覺信息,轉化爲機器人能執行的動作指令。

以“擰瓶蓋”爲例,GE-Act能從視覺信息中計算出機械臂需要旋轉的角度、施加的扭矩等參數,確保既能擰開瓶蓋又不會損壞瓶子,其轉化準確性直接影響機器人動作的實際效果。

橫向對比來看,GE平臺的技術差異體現在哪裡?

在技術架構上,多數同類平臺的預測、控制、評測能力是相對獨立的模塊,數據在傳輸過程中存在一定延遲,協同性一般。

GE平臺整合了這三大能力,數據流轉延遲較低,故而機器人在面對突發情況時,從預測到控制再到評測的整個流程更快捷。

比如在遇到障礙物時,GE平臺能較快完成“預測碰撞風險-控制轉向-評測轉向效果”系列操作,而同類平臺可能會因爲協同方面的問題,導致轉向不及時或轉向過度。

在數據利用方面,部分同類平臺依賴單一視角的視頻數據做訓練,對場景感知存在一定侷限,在複雜環境中容易誤判。

GE平臺的GE-Base採用多視角視頻擴散模型,結合AgiBot-World-Beta數據集的多視角視頻流,能從多個維度捕捉場景信息,對場景的理解更全面。

比如在倉庫中,單一視角可能因爲遮擋而無法看清貨物的全貌,而多視角的GE-Base能綜合不同角度的信息,精準地識別出貨物的位置和狀態。

AgiBot-World-Beta是全球首個基於全域真實場景、全能硬件平臺、全程質量把控的大規模機器人數據集AgiBot World的一個版本。

2024年12月30日,智元機器人聯合上海人工智能實驗室、國家地方共建人形機器人創新中心以及上海庫帕思,正式開源AgiBot World數據集。這個數據集源自智元機器人位於張江科學城的數據採集工廠,這裡有上百臺人形機器人,爲數據集的生成提供硬件支持。

在真實測試時,搭載GE-Act的機器人完成了“做三明治”“倒茶”“擦桌面”等任務,其智能模式有明顯變化。

當食材的擺放位置與訓練數據中的場景不同時,比如火腿放在麪包的側面,傳統機器人可能會因爲沒有預設該場景而陷入停滯,而搭載GE平臺的機器人能自主規劃抓取路徑,依靠對當前場景的實時感知與決策完成操作。

在產業應用方面,比如工業領域,汽車製造的車型更新較快,傳統機器人更換生產線時,重新編程調試往往需要數天時間,而搭載GE平臺的機器人能通過視覺識別新零件結構,自主生成組裝動作,將切換時間縮短至數小時,提升了生產柔性。

GE平臺憑藉其技術架構和實際應用效果,爲具身智能的發展提供了可行的路徑,其在各領域的應用正逐漸改變傳統的生產與服務模式。