☰

迪士尼是怎麼做雙足機器人的？

智東西編譯陳駿達編輯 Panken

智東西8月1日消息，7月15日，迪士尼公佈了一篇16頁的論文，詳細介紹了他們新型雙足機器人BD-X的主要設計和控制方法。這個機器人外形酷似《機器人總動員》裡的“瓦力”，靈感源自於《星球大戰》中的同名機器人。其硬件採用標準零件和3D打印外殼，腿部有5個自由度，通過強化學習掌握了動畫人物的行走姿態，動作靈巧流暢，還鍛煉出跨越複雜地形的能力。

在不久前的IEEE活動上，這個迪士尼機器人還跟杭州宇樹科技的機器狗面對面炫技鬥舞。

▲迪士尼BD-X機器人與宇樹Go2互動（圖源：YouTube）

更早之前，它在今年3月的英偉達GTC大會上作爲驚喜嘉賓壓軸出場，與英偉達創始人兼CEO黃仁勳親密互動，還搖頭晃腦撒嬌賣萌。

▲酷似瓦力的BD-X機器人與黃仁勳在GTC大會上互動（圖源：英偉達）

這一機器人以娛樂爲目的的設計理念極大降低了硬件複雜度與成本。但迪士尼爲這臺機器人加上了額外的揚聲器、天線、頭燈和眼睛，這讓它能以更多的方式表現自己的“情緒”。

雖然BD-X看上去活靈活現，似乎真的能理解人們說的話，但其實它並不具備主動的感知和行爲能力。它的一舉一動都是通過人工操作實現的。這臺機器人配備了來自英偉達的機載計算機Jetson，能將人類指令與訓練時積累的經驗結合，輸出最終的行動指令。

▲論文首頁截圖（圖源：迪士尼）

論文地址：https://la.disneyresearch.com/publication/design-and-control-of-a-bipedal-robotic-character/

一、機械設計簡單有效，服務娛樂與創意目的

迪士尼在設計BD-X機器人時選擇了與大多數企業都不同的路徑。他們並不追求最好、最強大的機械設計，而是選擇了能夠滿足創意和娛樂目的的簡單設計。研究者成功集成了動畫內容、設計、控制、實時操縱等元素，並用不到1年的時間實現了定製機器人角色的快速開發。

這一機器人主要使用了市面上的標準化零件，而外殼則是3D打印的，但經過軟件調試後，仍然可以在降低硬件複雜度的前提下實現不錯的表現。

▲迪士尼BD-X機器人設計圖（圖源：迪士尼）

這一雙足機器人的總重爲15.4公斤，高度爲0.66米。每條腿上有5個自由度，而頭部與頸部則有4個自由度。腿部的高自由度使得這一機器人能完成大幅度的動作，而頭頸部的高自由度則讓機器人可以通過動作表現各種妙趣橫生、情感豐富的動作。

▲BD-X機器人在迪士尼樂園亮相，畫面最右側的二人爲操作員（圖源：YouTube）

迪士尼的工程師還通過巧妙的設計讓機器人能在沒有膝蓋彎曲執行器的情況下，依賴與地面的接觸實現逼真的膝蓋彎曲效果。這一機器人配備一塊微控制器驅動的通訊板，能以600赫茲的頻率實現內置電腦、執行器和慣性測量單元之間的通訊。1塊可拆卸電池爲機器人供電，能維持至少1個小時的運轉時間。

有趣的是，除了頭部和軀幹上配備的揚聲器，這臺機器人還有具備執行器的天線、能點亮的眼睛和一盞頭燈。這些設備爲機器人提供了更多表現情緒的方式，同時其控制和驅動都是相對獨立的，因此可以選擇是否搭載這些功能。

二、利用強化學習掌握動畫動作，在英偉達Isaac Gym中模擬訓練

爲了給機器人動作提供一個清晰的框架，迪士尼的研究人員將機器人的動作分爲以下3類。

1、持續性動作：沒有明確的起點和終點。機器人保持平衡，並對測量到的狀態和連續的控制輸入流做出響應。

2、週期性運動：有一個週期性的相位信號傳遞給策略。在這種模式下，相位信號無限循環。

3、偶發性運動：有預定的持續時間。策略接收單調遞增的相位信號，一旦運動結束，就會強制過渡到新的運動。

▲BD-X機器人的3種運動類型（圖源：迪士尼）

機器人的控制策略是機器人學中的重要概念，指的是將機器人的狀態映射爲動作或電機命令的函數，使機器人能實現預期的行爲和任務。

研究人員讓BD-X機器人通過強化學習的方式掌握了多種控制策略，分別針對上述3種類型的動作。

根據機器人的CAD模型，迪士尼的研究人員構建出了這一機器人的準確物理形態、執行器和它與環境的互動，並通過英偉達的機器人訓練平臺Isaac Gym模擬出這一機器人的剛體動力學特徵。研究人員還通過定製的執行器模型進一步模擬了這一機器人的完整動力學特徵。

▲BD-X模擬訓練系統（圖源：迪士尼）

BD-X機器人的動作是根據動畫內容學習的。迪士尼的研究人員提取了動畫中人物的特定動作指標，如軀幹的全局位置、關節的位置和矢量等信息，這些信息將用來訓練這一BD-X機器人模仿動畫中的動作。

在Isaac Gym的模擬訓練中，機器人會收到強化學習系統的獎勵和懲罰。這一系統會考慮動作與動畫人物的相似度、動作的規範程度（如有無關節扭曲、動作是否流暢）以及機器人是否生存（“死亡”被定義爲頭和軀幹與地面接觸，或頭和軀幹碰撞），並給出相應的獎懲。

訓練過程中，系統還會模擬出隨機的擾動、牽引力還有不同的地貌，這提升了機器人的魯棒性（Robustness，指抗干擾性或穩定性）。

三、並無主動感知和行動能力，通過複雜控制器實現運動

迪士尼的研究人員稱，在發佈這篇論文時，BD-X機器人已經有過累計10小時的公開展示運行時間，在這10小時裡這一機器人表現完美，一次都沒有摔倒。許多觀衆都被這一機器人可愛的外表吸引，而未注意到這一機器人的操縱者。

實際上，BD-X機器人並無任何主動的行爲和感知能力，其動作都是通過專業人員操縱一個複雜的控制器實現的。在運行期間，操作員可以使用直觀的遙控互動界面控制這一機器人。這一操縱設備較爲複雜，有2個搖桿、2塊路徑板，正反面總計有十幾個按鍵。

▲BD-X通過控制器實現靈動的動作（圖源：迪士尼）

在虛擬訓練結束後，神經控制策略的權重被凍結，策略網絡被部署到機器人的機載計算機Jetson上。部署後的控制策略和低層次控制器直接與機器人的硬件交互，還能融入慣性測量單元和執行器的測量數據。

機器人內置的動畫引擎能自動將操作員輸入的指令，與機器人內置的策略控制命令、展示功能信號（天線、眼睛、頭燈的控制信號）和聲音信號結合起來，爲控制策略生成最終指令。

▲操作員在英偉達GTC 2024的後臺調試BD-X機器人（圖源：YouTube）

人工操縱指令和內置策略控制命令的結合能避免機器人出現訓練過程中研究人員希望規避的動作，如摔倒、動作僵硬不流暢等等。

▲BD-X機器人展現出很強的魯棒性，能在多種複雜地面情況下保持穩定（圖源：迪士尼）

展示功能和音頻是機器人的受控元素，在表現角色方面起着關鍵作用，但不會影響系統的動態。它們的行爲通過動畫引擎發出的動畫信號和狀態反饋與機器人的運動同步。

結語：AI讓動畫人物走進現實，“不實用”的機器人也有價值

其實迪士尼是機器人領域的資深玩家，從上世紀60年代以來他們就一直深耕機器人相關研究，並且在迪士尼樂園中嘗試部署他們的研究成果，探索讓動畫人物走進現實世界的各種方式和場景。

▲迪士尼過去在機器人領域的相關研究（圖源：迪士尼）

AI技術的發展讓機器人的一舉一動都更爲逼真自然，而強化學習讓專業動畫師製作的人物動作在現實中落地。雖然BD-X機器人並不像其它雙足機器人那樣能進工廠、上流水線，但我們也樂見娛樂目的的機器人技術進一步發展，讓普通人也能享受到機器人帶來的快樂。

來源：迪士尼

迪士尼是怎麼做雙足機器人的？

相關資訊