騰訊揭秘具身智能路線
21世紀經濟報道記者孔海麗、實習生吳佳芸 北京報道
2025年世界人工智能大會(WAIC)期間,搭載騰訊Tairos平臺的宇樹人形機器人G1和騰訊首席科學家張正友有一場互動,當張正友發出“站到我身邊來”的指令時,機器人準確理解方位含義,流暢移動定位。
重要的是,全程沒有人工遙控干預。這一幕,是騰訊Robotics X實驗室最新發布的具身智能開放平臺Tairos的能力縮影。
WAIC期間,耕耘許久的騰訊首次對外公開了在具身智能領域的路線圖。面對沸騰的行業,騰訊選擇了一條獨特路徑——做行業的“鈦螺絲”。
與常見的科技公司高調商業化路徑不同,Tairos平臺的基調與騰訊整體路徑保持一致,如馬化騰所說,在具身智能領域,騰訊希望成爲所有機器人廠商的合作伙伴,而不是取而代之做硬件,“這和我們的整體戰略目標一致”。
“2018年初騰訊Robotics X成立時沒有任何商業化的目的。”張正友坦言:“當時國內甚至找不到成熟的機器人硬件廠家,我們不得不既做硬件又做軟件。”而2023年下半年起,ChatGPT引爆的AI大模型熱潮催生出大量機器人創業公司,產業格局驟變。
然而,距離落地還有很長一段路要走。
張正友說,從基礎模型到真機部署,每一個環節,都藏着不少"坑" 。
具身智能的落地,不僅僅是算法問題、或者模型能力的問題,而是一個複雜、環環相扣的系統工程挑戰,需要打通數據、訓練、調試、部署的全鏈條。
從宏觀的角度來看,機器人對3D世界的認知,以及動態世界的建模,還處於初步階段。具身智能需要更大的泛化能力,才能讓“身”與“智”協同進化,無縫地適應多變的環境。
走訪了六十幾家機器人企業後,團隊發現軟件能力是機器人走向場景落地的共性痛點,業內普遍缺乏好的模型和仿真工具。
騰訊的具身智能開放平臺Tairos“鈦螺絲”想做這件事。
Tairos包括一套雲端服務和三個具身模型,多模態感知模型、規劃大模型和感知行動聯合大模型。
這三個大模型,分別是機器人的“左腦”、“右腦”和“小腦”,負責讓機器人理解目標任務和所處環境,從而執行操作。
規劃大模型支持複雜任務規劃,多模態感知大模型融合視覺、位置等環境信息,而感知-行動聯合大模型實現操作和運動能力。
雲服務層則讓開發者可以通過雲平臺完成仿真、訓練、數據管理等關鍵環節,並通過SDK/API靈活對接硬件。
這個面向機器人本體開發商的平臺,是團隊爲具身智能廠商打造的“工具”,旨在解決基礎模型、場景數據採集、訓練仿真和真機部署四個環節的落地難題。
張正友用Windows的生態成功類比Tairos的願景:“如果平臺不能與不同廠家良好兼容,就不可能發展起來。”爲此,騰訊在發佈前已深度聯合宇樹、越疆、帕西尼等頭部硬件夥伴打磨平臺,確保其真正解決行業痛點。
進入人形機器人“量產元年”,騰訊的具身智能戰略分爲兩部分:投資和前沿探索。今年以來,騰訊已投資智元機器人和宇樹科技至少兩傢俱身智能機器人公司,早前也投資了樂聚和優必選。
而另一邊,對於親自下場做具身智能, Robotics X實驗室選擇先做原型和平臺,再根據市場需求推進產品化,並對機器人本體的具體形態保持開放態度。
“本體是一個值得探索的過程。”張正友指出,做機器人不是爲了仿生,而是爲了在人居環境裡實現更高效、更理想的形態。若以“人形”作爲機器人的標準形態,可能會限制行業的想象力。
對於行業的未來,張正友說,“過熱”是一個好現象,參與的人越來越多,行業發展就會越來越快。當前行業處於探索過程,尤其是對本體形態的探索。在這一過程中,Robotics X實驗室像是一把“螺絲刀”,爲機器人本體廠商打磨基礎,邁向行業爆發iPhone時刻。
WAIC期間,張正友首次公開分享了騰訊Robotics X實驗室在具身智能領域的探索與對行業的判斷,這也是騰訊爲數不多的對外釋放關於具身智能的業務邏輯。以下爲對話實錄,經編輯:
做行業的“鈦螺絲”
21世紀:騰訊說要做硬件廠商的合作伙伴,現階段會把大部分精力和資源放在哪些能力上的提升?
張正友:我們從去年底開始在做這個事情之前,先認真調研了行業,累計到現在差不多跑過六十幾家企業。我們已經走訪了全國的廠家,深圳、上海、北京,整個華東地區,還有西部地區。
我們真正出去的時候,其實發現中國大量的機器人企業,它硬件其實是可以做得很好的。但具身智能在投入這一塊其實是非常大的。我們初期會去選取一些高配合度的種子企業,然後深度地聯合去做一些case。
今年上半年的想法就是說我們先去找一些企業去打磨產品,這其實也是過往騰訊做產品的思路,就是不能一下子鋪太多的,一定是像1.0版本,要去找幾個企業深入落地。一部分產品標準化了之後,就可以慢慢地開始鋪量。
21世紀:騰訊什麼方面的能力、優勢可以幫助到他們?
張正友:具身智能以及今天發佈的三個模型,規劃、多模態感知和感知行動大模型,每一個模塊他們都可以去用。然後還有仿真平臺,他們可以上傳他們自己的機器人,在仿真平臺裡面嘗試一下。
我們的模型既可以在真實機器人上面運作,也可以在仿真環境裡面用。在仿真環境裡,如果遇到完成不了的任務,它會直接送到後面強化學習去改進它的規劃大模型。因爲我們不可能把世界上所有的可能的任務都想清楚的。最後我們希望用平臺的每個人、每個廠家可以把訓練好的、針對他們本體的模型拿去,部署到真機上去。
21世紀:所以現階段的重點還是在模塊化能力上的提升?
張正友:模型能力還有仿真環境,這裡面其實難的地方挺多的。
比方說在操作裡面,力感知和觸覺感知是非常重要的,像觸覺傳感器沒有標準化,那在仿真裡面如何讓觸覺很真實的仿真出來?像人的觸覺,空間分辨率在1毫米左右,在仿真環境裡面現在還達不到這麼好的分辨率。
每個模塊無論是感知規劃,大腦小腦,感知行動聯合大模型,仿真、數據採集,每個環節都有很多需要提升的地方。
21世紀:對整個行業來說,還有哪些是在機器人落地方面比較難、急需補足的地方?
張正友:從技術角度看落地的話,對3D的世界認知,動態世界包括物體、材料各方面的建模,就是世界模型,還是處於初步的階段。
然後規劃,像大語言模型它也能做一些規劃,但它的規劃因爲是通過文本來理解世界,所以沒那麼深。大語言模型會把世界上所有的各種各樣的知識都放進去,但是針對現實世界,有很多東西是用文字描述不出來的。
比方說動物它沒有語言,但是它還能還是能夠在3D世界裡面很好地活下來,不需要語言。就是說規劃方面,沒有3D世界的理解,可能很多情況下都做不好。
再講到感知行動大模型,像觸覺感知,這些目前還是很缺乏的。多模態感知裡面,圖像和視頻,或者是語音或者文本這些都是很標準化的。但是觸覺傳感器,我們從實驗室成立以後就覺得觸覺非常重要,經過7年研究,現在還沒有達到真正能夠標準化的程度。當然還有其他公司已經參與到觸覺傳感器的研發,所以很多都需要大家一起努力,整個行業一起努力。
產品化與商業化探索
21世紀:今年具身智能那麼火,落地的可能性變大很多,你們對商業化的態度會不會有所改變?
張正友:騰訊RoboticsX實驗室2018年初成立的時候沒任何商業化的目的,因爲那時候情況很不一樣,那時候你看看能不能找到一個能夠做機器人的硬件廠家?一個都沒有,所以我們那時候就必須要自己從頭既做硬件又做軟件,各方面的全部都要做。
從2023年下半年開始,整個機器人行業就有很大的變化,一個是ChatGPT引起AI大模型的關注,很多機器人企業就出來了,很多創業公司。我們那時候就是啥都要做,他們有些比較關注機器狗或者是人形機器人,還有一些觸覺傳感器、靈巧手,有很多機器人本體。
形勢已經變化了,從騰訊角度來看,我們需要跟這些機器人廠家一起去打磨我們的技術。另外,前沿探索還是很重要,我們還會繼續前沿探索,但有些能力是希望能夠跟機器人本體廠家一起,和應用廠家一起去往前來提升的。
與其說商業化,其實我們現在的方向是一個產品化。我們做了很長時間的前沿探索,積累了大量經驗,和一些成熟的技術成果,現在更多希望能把這些變成一個產品。之前更多是供內部來科研使用,未來更多想把這些科研成果變成產品,供給市場上的機器人廠商和第三方的廠家,讓他們去形成他們自己打包成一個更完整的產品。
要區分產品化和商業化。我是做研究的科學家,商業化聽起來就是要去賺錢,但是我們是不賺錢的。Tairos特地強調我們自己不是以賺錢爲目的的,我們希望把我們變成一個比較穩定的產品來賦能機器人的行業。
21世紀:現在很多公司希望做商業量產,騰訊沒有選擇這樣做,是怎樣考慮的?
張正友:騰訊公司的角度,比如要不要做一個機器狗?從我的角度是不支持去做的,不值得去做的,我自己也不會做,因爲還有更大的目標在支撐着我們。
比如養老,能不能把機器人具身智能技術和本體裡面某些核心技術,比如說觸覺傳感器、定製皮膚這些能力能不能繼續往前推進?離這個還很遠,我加入騰訊成立機器人實驗室,那時候規劃的是十年時間,現在七年已經過去了,三年以後就差不多。不管怎麼樣,要達到那個效果,我纔可能希望養老各方面都能做起來。假如我一開始停留在Max腿輪一體化機器狗上面,那後面就沒精力去做其他東西了。
21世紀:騰訊在研發上如何平衡長期的前沿探索和中短期應用場景關係?
張正友:前沿探索有很多不確定性,假如是通過什麼時候一定要交付什麼產品,往往會做成hardcode(“寫死”)的東西了。舉個不好的例子,比如現在所有東西都要跑馬拉松,馬拉松有的時候可能有些技術到了,那就硬做一些東西,或者一些遙控,那就做得不好了。這個地方爲什麼一定要足夠多的自由度,做前沿探索必須要往前推進。
21世紀:機器人到底到了什麼階段?會不會整個行業有點過於樂觀?
張正友:行業過熱這看怎麼定義,因爲大家看到這個前景很吸引人,我更多講的是投資角度。有些公衆對於機器人服務人、融入到人類社會、融入到生產和生活中有很大的熱情。
這個熱情我覺得對於我們來說是一件好事,也是對我們提出了更高要求,也給我們提供了很多試驗場。參與人越來越多,行業發展會越來越快。
如果大家不知道這件事情,不會有一天跟我說你們機器人能不能幹這個、幹那個,其實我們也缺少很多這種挑戰。至少對於我們從業者來說是一件好事情。
21世紀:騰訊在具身智能這波浪潮裡面的節奏是怎樣的?
張正友:從某種角度來講我們做得很早,我們是探索性前沿研究的,本來就應該早。現在有些能力我們覺得能夠支撐到行業發展,所以把這些能力開放出來,所以這個不晚。我們還需要繼續做前沿研究,因爲現在開放出來的技術還是剛纔講的,現在具身智能只是在初步階段,還有很長的路需要走。假如說是iPhone做了多少年還在往前推進,這個很難估計,我估計三五年,我2018年講的十年規劃。