騰訊張正友:具身智能必須回答的三個「真問題」

7 月 27 日,騰訊發佈了具身智能開放平臺 Tairos,以模塊化的方式向行業提供大模型、開發工具和數據服務,試圖爲具身智能的研發和應用提供一套通用的支撐體系。在 Tairos 問世之前,騰訊 Robotics X 實驗室已在具身領域探索七年多。從多模態四足機器人 Max 到輪腿機器人 Ollie,從靈巧手 TRX-Hand 到人居環境機器人原型小五,這些自研項目不僅是技術展示,更是其探索感知、規劃、控制、硬件設計等全棧機器人技術的載體。如今,將七年積累沉澱爲一個開放平臺,這一舉動本身便值得深思。在具身智能的技術路線尚無定論,產業模式快速發展的背景下,騰訊的平臺化路徑,既是對行業現階段挑戰的迴應,也預示了其對未來生態的佈局。發佈會後,騰訊首席科學家、Robotics X 實驗室主任、福田實驗室主任張正友博士接受了機器之心的專訪,深入剖析了這一戰略選擇背後的三個核心問題:架構、原理與定力。端到端 vs 分層: 爲什麼說分層架構是當下更務實的路徑機器之心: 當前具身智能技術路徑尚無定論,業界對於「端到端」與「分層架構」的路線選擇爭議頗多。您主張分層架構,能否進一步闡述層與層之間的功能邊界如何劃分,這些邊界是固定不變的,還是會根據任務的複雜度和緊急程度進行動態調整?更重要的,「小腦」在物理交互中獲得寶貴經驗(比如一次失敗),這個知識是如何反饋、反哺給「大腦」,從而實現整個架構的自我學習與進化?張正友: 這是一個非常深刻且直擊要害的問題,它觸及了當前具身智能領域最核心的哲學思辨與工程實踐的交叉點。要回答這個問題,我們必須先理解理想與現實之間的差距。首先,我們來談談爲什麼選擇分層,這本質上是一個效率與現實的權衡。在理想狀態下,一個擁有無窮多高質量數據的端到端模型,或許是通往通用人工智能的終極路徑。理論上,如果分層架構確實是最高效的組織形式,那麼 一個足夠強大的端到端模型在海量數據的訓練下,應該會自發地、內生地演化出類似分層的結構 。這就好比一個全連接的神經網絡,如果某些連接是冗餘的,在充分訓練後,它們的權重會自然趨近於零,從而形成事實上的稀疏連接和功能分區,也就是我們所說的「層」。這個邏輯同樣適用於混合專家模型(MoE)。在理想狀態下,一個巨大的、全連接的模型,爲了追求低能耗和高效率,最終也應該會演化出「專家系統」,也即在處理特定任務時,只有部分網絡被激活。但現實是,我們永遠沒有理想狀態下的無窮數據。用有限的數據去訓練一個參數量動輒萬億且全連接的模型,其難度和成本是天文數字。這也是爲什麼現在主流的大語言模型會採用 MoE 架構。因此,我們選擇 分層,本質上是將人類對智能結構的先驗知識主動注入到模型架構中 。就像我們知道人腦有左右腦分工,有不同腦區負責不同功能一樣,我們預先設定感知、規劃、行動這樣的分層,是一種高效的引導,它能顯著降低模型學習的難度,減少對數據的依賴,提升整體訓練效率。其次,關於你問到的邊界劃分與知識反饋閉環。我們提出的 SLAP³ 架構,包含多模態感知模型(右腦)、規劃大模型(左腦)以及感知行動聯合大模型(小腦),其邊界並非靜態的,在處理不同任務時,各層之間的協作模式和信息流權重是動態變化的。