操作太絲滑了!谷歌AI讓機器人具備"微操黑科技"
谷歌新型AI模型能控制機器人摺紙(來源:本站科技報道)
3月13日消息,美國時間週三,Google旗下DeepMind實驗室宣佈推出兩款用於控制機器人的全新人工智能模型:Gemini Robotics與Gemini Robotics-ER。公司聲稱,這些模型能爲多種形態的機器人賦予精細運動技能與環境適應能力,顯著提升其在物理世界中的交互效率,推動人形機器人助手等應用落地。
值得注意的是,儘管用於機器人平臺的硬件在穩步發展(儘管並非總是如此),如何確保人工智能系統能夠安全精準控制機器人應對未知場景始終是行業難題。業內所謂的“具身智能”不僅是英偉達等科技巨頭的“登月計劃”,更是開啓通用機器人勞工時代的關鍵鑰匙。
谷歌開發的新模型基於Gemini 2.0大語言模型,針對機器人應用特別增加了相關功能。其中Gemini Robotics整合了谷歌所稱的“視覺-語言-行動”(Vision-Language-Action, VLA)能力,可處理視覺信息、理解語言指令並生成物理動作指令。而Gemini Robotics-ER則側重於“具身推理”,提升空間認知能力,可無縫接入現有的機器人控制系統。
比如,Gemini Robotics可以命令機器人“將香蕉放進籃子”,其會利用攝像頭獲取場景圖像識別香蕉,進而控制機械臂成功完成動作;也可以命令機器人“摺紙狐狸”,系統則會運用如何精細摺疊紙張的知識完成任務。
2023年,谷歌開發的RT-2模型在邁向通用機器人能力的道路上邁出重要一步——通過利用互聯網數據幫助機器人理解語言指令並適應新場景,其在未知任務中的表現較前代模型翻倍。兩年後,Gemini Robotics看似又取得了重大進展,不僅在理解指令方面表現出色,還能執行RT-2無法應對的複雜物理操作。
RT-2只能復現訓練過的物理動作,但Gemini Robotics的靈活性實現了質的飛躍,能夠完成摺紙、零食封裝等高難度任務。從僅僅理解指令的機器人,到能夠執行精細物理任務的機器人,這一轉變表明DeepMind正在逐步解決機器人領域最大挑戰:如何讓機器人將人工智能認知轉化爲現實世界中的精準動作。
泛化能力大幅提升
DeepMind表示,新推出的Gemini Robotics系統展現出更強的泛化性——即執行未經專門訓練的新任務的能力,其表現遠超此前的AI模型。公司稱,Gemini Robotics在全面泛化基準測試中的表現“較同類最優模型性能提升超過兩倍”。這種泛化能力至關重要,意味着機器人未來可無需針對每個場景專門訓練即可適應新情境,甚至能在不可預測的真實世界環境中運行。
這點尤其重要,因爲目前人們對人形機器人的實用性和能力仍有疑慮。去年10月份,特斯拉高調演示Optimus Gen 3人形機器人,宣稱能完成多項物理任務,但有幾臺機器人被證實是由人工遠程操控的,這使得人們對特斯拉自主人工智能的實際能力表示擔憂。
谷歌則試圖打造真正的“通用型機器大腦”。爲此,谷歌宣佈與總部位於得克薩斯州奧斯汀的Apptronik合作,基於Gemini 2.0構建下一代人形機器人。儘管這一模型主要在雙機械臂平臺ALOHA 2上進行訓練,但谷歌表示,Gemini Robotics可用於控制不同類型的機器人,其中包括Franka機械臂以及類似於Apptronik Apollo人形機器人等更復雜的系統。
雖然人形機器人這一應用對於谷歌基於大語言模型的生成式人工智能來說較爲新穎,但值得玩味的是,谷歌早在2013至2014年間就曾收購過幾家機器人公司,其中還有打造出知名人形機器人的波士頓動力(Boston Dynamics,現屬於現代集團),不過後來又悉數出售。此次與Apptronik開展的新合作,似乎是谷歌在探索人形機器人領域的新嘗試,而非此前戰略的延續。
其他公司也在緊鑼密鼓地研發人形機器人硬件,比如Figure AI在2024年3月份爲自家人形機器人籌得大額融資,前Alphabet子公司波士頓動力則在去年4月份推出一款靈活的新型Atlas機器人。但迄今爲止,業界尚未出現真正能使機器人實用化的人工智能控制系統。谷歌還宣佈,通過“可信測試者”計劃向波士頓動力、Agility Robotics 和 Enchanted Tools等公司有限開放Gemini Robotics-ER的使用權限。
安全性與侷限性
在安全性方面,谷歌提到採用“多層次、整體性的策略”,保留防碰撞和力度限制等機器人傳統安全機制。公司還受阿西莫夫“機器人三定律”的啓發,推出“機器人憲法”框架,並在此基礎上發佈了ASIMOV安全數據集,幫助研究人員評估機器人行爲的安全性影響。
全新的ASIMOV數據集表明谷歌希望通過標準化方法來評估機器人安全性,不僅僅侷限於防止物理傷害。這一數據集旨在幫助研究人員測試人工智能模型對機器人在不同場景中行爲後果的認知能力。根據谷歌公告,ASIMOV數據集將“幫助研究人員在真實世界場景中嚴謹衡量機器人行動的安全性影響。”
谷歌並未宣佈新模型的可用性時間表或商業應用層面的具體計劃,目前這些模型仍處於研究階段。儘管谷歌發佈的演示視頻展示了人工智能的驚人進步,但在控制環境下的實驗仍然難以完全反映這些系統在現實世界中的真實表現。(辰辰)