宇樹科技王興興:機器人數據關注度有點太高了,最大問題在模型
21世紀經濟報道記者 鄧浩
“在未來2到5年,最重要的一件事還是端到端的具身智能AI模型。”宇樹科技CEO王興興在2025世界機器人大會上談及對機器人產業未來的看法時如是表示。
過去一段時間,機器人業界和投資界對數據問題的關注度非常高,有OpenAI珠玉在前,大力可以出奇跡,只要真實數據足夠多,就可以訓練出真正聰明的具身智能。某種程度上,這也是近期各地機器人數採中心雨後春筍般紛紛冒出來的重要原因。
不過,王興興對此有不同看法,在前述大會上,一口氣提出不少“反共識”。
首先,王興興認爲,機器人硬件性能雖然還不夠好,但目前是夠用的,“目前最大的挑戰還是具身智能的AI還是完全不夠用。這也是限制人形機器大規模應用的一個最大點。”
在他看來,當前這個時點有點像ChatGPT出來之前的1到3年,用他的話來說就是“目前整個業界大家已經發現了類似的方向以及技術路線,但是沒人把它做出來”。
其次,目前具身智能沒有達到理想效果,到底是模型的問題還是數據的問題?王興興的答案很直接,“目前全球範圍內,大家對機器人數據這個問題關注度有點太高了。”
在他看來,現在最大的問題是反而是模型的問題,並不是數據問題。因爲目前就具身智能和機器人而言,模型架構都不夠好,也不夠統一。導致大家對模型反而關注的有點少,對數據的問題關注很多。
最後,對於不少玩家押注的VLA+RL路線,王興興也表達了不同看法。
“我個人感覺,包括我們公司目前嘗試下來,VLA+RL還是不夠的,這個模型架構還是得再升級和優化。”王興興認爲,“用視頻生成模型去做訓練,可能比VLA模型收斂的概率還更大。”
以下爲21世紀經濟報道記者整理的王興興演講全文:
大家好,非常榮幸在此做一個分享。我是宇數科技創始人王興興。我們公司2016年成立,到現在有九年時間,也比較長了。我們最早是做高性能四足機器人,最近幾年也做高性能的人形機器人。目前產品的佈局還是相對比較多的,各型號都會比較多一些。
簡單介紹一下,最早是在2013年到2015年左右,我在讀書期間做的XDog這款機器。基本上開創了全球範圍內這種低成本、高性能四足機器人技術方案的先河。簡單說,就是在我當時做這個技術方案之前,大部分的業界(包括很多學校)大家做的這種機器人,都是採用了工業電機和工業伺服驅動器,成本非常高。而且尺寸也非常大,非常不好用。
2013年我想到這個方案的時候,甚至想過要不要輟學去創業。因爲大家也知道,輟學創業還是非常時尚的一個概念。我當時想了想,在那個時候,其實是不現實的一件事情。因爲只是有個想法,沒有把東西做出來,也沒有別的一些資源。
在2013年到2015、2016年,是把這個機器人給做出來了。而且這個機器人,大家可能想象不到,當時的整個研發投入大概只有1到2萬元人民幣。在2015年的時候,我還用這臺機器人去參加了一個上海的比賽,獲得了總分的二等獎,賺了8萬元獎金。所以這款機器也算是我賺的第一桶金。在我們我公司2016年成立的時候,最早這部分錢就這是這麼來的。
這也是比較有代表性的一個機器,包括現在很多人形機器人用的很多技術方案,跟這個技術方案也非常類似。另外,我們公司的四足機器人主機主要是有三款。一款是比較小的,像GO2,這款機器人在2023年發佈的時候,就集成了大語言模型,功能非常健全。標配了3D激光雷達、語言模型,還有各種小的功能。目前這款機器也是過去幾年(包括今年),應該全球範圍內,四足機器人機器出貨量最多的一款機器狗。
此外,我們的B2這款機器人,主要是工業應用的。因爲我們還是希望機器人真正去幹活,包括工業場景等各種場景。所以這款機器人,持續擴展能力和續航能力,到現在爲止都非常強勁。
對於我們人形機器人,我在很多場合也說過,我們公司早些年,我一直是堅決反對做人形機器人的。爲什麼呢?因爲當時在2009年,我在讀大一的時候,做的第一款機器人就是一個小的雙足人形機器人,花了兩百多元人民幣。
當時我就發現,那個時候你要去做人形機器人,他的商業價值或者技術是非常難做的。所以,我們公司成立很多年,一直是反對做人形機器人。
但是後來在2021年到2022年,全球人工智能發展非常迅速。尤其以ChatGPT那個時刻爲代表的,就是整個AI的技術進步非常顯著。
並且像馬斯克爲代表的尖端企業(等產業界),對這個領域關注度非常高,帶動了全球範圍內的大衆,對人形機器人關注非常高。
說得再直接一點,大家可能想象不到,在2022年的時候,我們公司完全沒有開始做人形機器人。但是有很多客戶直接找我們下訂單。就是我們啥都沒有,但是有客戶願意直接給我們錢,付定金下訂單給我們。所以這直接導致我們在2023年初就開始做人形機器人。
(H1)這款機器人就是我們2023年初花了半年多時間做的第一款人力機器人。因爲這款機器人是我們公司做的第一代,所以外觀上可能相對粗陋一點。但它的動力性能到現在爲止都非常強勁。上春晚的也是這款機器人。而且下個禮拜,我們在北京有個機器人比賽,我們這款機器人也會上場,大家可以關注一下。
去年我們發佈了第二款機器人,就是G1這款機器人。這款機器人到現在,也非常具有代表性,它代表些什麼東西呢?從去年我們這款機器人發佈以後到今年,大家可以發現很多其他企業的新興的人形機器人,都跟我們這款機器人整個架構非常類似。
這款機器人的動力性能,包括靈活度非常好。去年發佈的時候,這款機器人低配價格大概是9.9萬元人民幣,非常有競爭力的。所以,這款機器人在去年,包括今年,應該差不多是全球人形機器領域出貨量最多的。
如果大家平時刷抖音,刷一些視頻號,大家可以看到,很多我們的客戶自發這些平臺上放直播,基本上每天都有。
我們前一兩週剛發佈的一款R1這款新的人形機器人。最大的特點,相對來說性價比更高些,當然也會更小一點,大概1.2米,但它的最低配價格做到3.99萬元人民幣。
另外一個比較有特點的是,在它的外觀,我們給客戶留了很大的外觀定製空間,大家可以在上面改裝或塗裝自己喜歡的造型。
因爲大家也知道,大家還是希望給自己的機器人做一些各種的打扮,衣服,各種的一些塗裝,大家還是非常喜歡的。在我們展位上也有,大家有興趣的話可以去看一下。到目前這個量產還沒有搞定,發貨可能還是要比較晚一些。
另外,我們前段時間也發佈了新一款的四足機器人。最大特點是自重和負載能力是非常強的。自重大概只有35千克。對一個成年男性來說,完全可以把它搬起來,還是非常方便的。但它的負載能力又非常強,持續負載能力可以達到差不多25到30千克左右,空載續航可以達到6個多小時,簡單來說,這個空載續航大概可以達到(行進)20千米。
我們去年底對輪足做了一些更新。大家可能會好奇,爲什麼我們的輪組會相對來說有了更多的靈活性?其實原因非常簡單,就是我們過去的一兩年,我們在人形機器人上開發了很多些複雜的動作。我們把這些複雜動作的算法直接用到了我們機器狗上面。
這樣的話我們機器狗就帶了很大的一些靈活性。
並且這款機器人本身是工業級的,就是可以防塵防水。相對來說工業級場景會比較合適。
我們的工業級產品,在過去幾年,已經在很多的工業領域,比如電網、工廠已經有24小時運行。它有自動充電,可以自動巡邏,自動識別一些圖像、氣體等。
而且這款機型其實是相對有點大,這也是爲什麼我們又發佈一款相對小一點的機器狗。
這款機器人如果帶上輪子的話,它的自重達到了將近七八十千克,其實稍微有點重,也有點大的。但是在這麼大的情況下,它的靈活性還是非常不錯的。
負載能力也非常強,能達到可以四五十千克的持續負載能力。基本上一般性的話,載個人其實都沒問題。當然有點危險性,不太推薦大家這麼玩。
很多人以爲我們公司一直把機器人當做一些表演、打格鬥之類的(產品)。其實我們公司還是一直是非常重視讓機器人幹活這件事情。我們核心目標還是說讓機器人去幹活。包括四足機器人和人形機器人。
我們也做了很多的數據採集,數據開源等,我們的公開倉庫,每隔一兩個月都會公開一些算法,公開一些開源數據,大家可以在上面玩。
在過去很多年,我們機器人的核心零部件都是自己開發的。包括關於電機、減速器、部分的傳感器等,在視頻裡面,是我們開發的第二代3D激光雷達。這款3D激光雷達最大的特點就是相對來說它的視場角非常大,達到了90幾度乘以360度的視場角。而且它的成本非常便宜,單個的公開零售價大概只要1000元人民幣左右,也是標配在最低配的機器狗上。基本上達到2到3個釐米的精度,在室內和室外的都可以用。
所以對於一些低速的,比如清潔機器人或者物流機器人,如果爲了降低機器人的成本,非常推薦用這款機器。比如對一個小的物流機器人,成本甚至可以降到小几千元,是非常有競爭力的。
最近半年多時間,在全球範圍內,包括我們公司在內機器人的AI技術進步非常快的。
在今年1月份的視頻中,大家可以看到(機器人)跑步還是相對僵硬一點。但是在最近幾個月我們已經開放給OTA給我們的客戶,跑步動作也會更加絲滑,而且我們的跑步是可以進行復雜地形跑步。別的一些廠家可能只能在平地上跑一下,但是我們的機器人可以上下坡,石塊路都可以運行。而且這個功能已經開放給所有客戶。所以大家可以關注到,包括在全球很多客戶用我們機器人蔘加各種活動。
今年春晚上,我們機器人跳舞,是成爲了目前中國的一個科技以及傳統文化的符號。我覺得這是非常不容易的一件事情。
因爲如果單純的只是一個表演的節目,以表演結束一兩天以後,甚至很多情況下大家都忘記了。但現在來說,機器人跟傳統文化這個扭秧歌的這個表演,已經成爲了中國的一個某種意義上一個科技文化符號。這我覺得是非常有代表性的一件事情。我覺得沒準過個十幾、二十年再看,當時的也是非常經典的。
這個項目是跟張藝謀導演合作的。大家可能想象不到,轉手絹和拋手絹的idea就是張藝謀導演提出的,然後我們幫他技術實現了一下。
最大的挑戰並不是說單臺機器人跳舞。單臺機器人跳舞的話,我們其實去年上半年就已經實現了。這個項目最大的挑戰,是用16臺機器人全自動變隊形跳舞。它的頭上有三個激光雷達,他對整個場景的自動的變隊形、走位、跳舞都是全自動進行的。
就簡單來說,每次表演的時候,音樂一響,整個流程就全部進行。我們甚至中間沒辦法中斷這個表演,所以這個點還是非常有挑戰,以及當然最終效果也非常超過大家的預期,也超過我自己的預期。
大家非常喜歡這個節目,包括甚至有很多人去cosplay就這個節目。
大家可能發現,我們機器人現在跳舞絲滑很多。爲什麼大春晚上跳舞相對有點僵硬呢?其實原因非常簡單,因爲這個技術我們是二月份才做出來的。
而且大家可能也會好奇,爲什麼春晚上我們機器人會用黑色那款老的機器人,而不用更新的機器人?其實原因也比較簡單,就是這款機身有點小,大概只有1.3米多一點。在表演的時候,大家是希望稍微大一點的機器人,這樣的話效果會比較好一些。
跳舞和功夫其實不算我們目前最新的技術,算老一代的技術。這個技術最大的特點就是它可以學習理論上可以學習任何動作。但這個技術有個不好的點,就是它的動作序列都是固定的,就是在表演之前要先去採集一個序列的動作,去做AI訓練後再放到機器人上用。但有個很大的問題是什麼呢?就是每次採集好以後,整個動作都是固定的,沒辦法去調整他的動作,甚至有時候都沒辦法去中斷這個動作。 某種意義上是一個我們老一代的技術。
剛纔強調,我們公司其實是一直非常重視機器人,包括靈巧手,包括上班、去幹活這件事。而且可能說出來大家不相信,我們公司的團隊裡面大部分做AI的人,都在做讓機器人幹活這件事情。
但是爲什麼宣傳這部分做的比較少呢?其實原因比較簡單,就是我們公司希望幹活的AI不是單功能性的AI,比如讓一個機器人去整理衣服或者去燒個菜。我們其實並不想做這件事情。我們真正想做的幹活的AI,是個通用型的AI。希望它各種功能都能做,包括端茶倒水、工廠幹活、表演性等等。而這對於AI模型挑戰非常大,到現在爲止做的都不是特別理想,所以我們對這塊的宣傳相對少一些。
剛纔說的格鬥上用的技術,反而是我們最新一代的技術。這個視頻是我們四月份第一次把這個技術做出來的時候做的一個預告。裡面動作大家跟我們展會的還不太一樣。什麼地方不太一樣呢?就是這個四月份做出來的時候,它的動作速度有點慢。包括出拳動作、踢腿動作都有點慢。
這對於整個格鬥效果來說不太理想。所以後來我們在五月份真正跟央視合作做全球直播的時候,又把出拳速度在內的各種動作至少加強了一倍左右。
機器人每次做一個格鬥動作或做一個連續格鬥動作的時候,可以認爲是一個動作序列。有10到20個動作序列,要滿足隨機自由組合。因爲格鬥的時候,動作的隨機性是比較大的。動作列的排列組合方式非常多。所以不僅要滿足整個動作的隨機組合,而且隨機組合要相對比較絲滑。
還有一個最關鍵的點,就是要做更大的一個抗衝擊能力。因爲打比賽或格鬥的時候,外部的衝擊和擾動是非常大的,這跟單純的舞蹈表演或者武術表演非常不一樣。如果大家有興趣,可以關注一下我們機器人的腿部,它的腿部有很多凹坑,而且大家知道這個腿是鋁合金的,在鋁合金上面都有很多凹坑,所以機器人的打擊力度還是非常大的,也比較有意思。
另外分享一下目前我個人對國內和全球機器人行業(的看法)。
今年上半年,最大的特點,我個人感覺,由於整個行業非常火爆,以及政策的相關支持,平均(來講),整機廠商、零部件廠商,每家企業有將近50%到100%的增長,增長還是非常嚇人的。
這個在整個行業來說都是非常少見的一件事情,就是從需求端拉動了整個行業的發展。
海外也毋庸置疑。比如特斯拉,他們今年要量產幾千臺人形機器人。而且今年大概率他們會發布第三代的特斯拉人形機器人。大家也可以多關注一下這件事情。
目前全球範圍內,大家在這塊的熱情,尤其海外的大公司,包括英偉達、蘋果、Meta、OpenAI大家都非常持續在推動這個領域的發展。
另外的話我分享幾個想法,未必準確。
第一點就是對於機器人本體來說,很多人可能會有個誤區。爲什麼可能機器人目前沒有大規模應用,或者目前的機器人的功能還不夠。可能有人會懷疑是不是目前的硬件不夠好?或者成本比較高?其實目前的硬件是夠用的,某種意義上完全是夠用的。目前人形機器的硬件,靈巧手、整機,某種意義上完全是夠用的,當然不夠好啊。需要持續把它做的更好,更大的問題是要把他量產。
目前最大的挑戰還是具身智能的AI還是完全不夠用。這也是限制人形機器大規模應用的一個最大點。簡單說,就是目前的感覺有點像ChatGPT出來之前的1到3年左右的時間,目前整個業界大家已經發現了類似的方向以及技術路線,但是沒人把它做出來。
大家也知道ChatGPT出來前面的幾年,做語音AI的已經做了十幾、二十年了。但是大家一直覺得它很傻瓜,根本完全沒法用。像ChatGPT出來以後,大家達到了一個比一般人性能還更好的一個階段。(機器人)目前還沒有到這個臨界點。
對於機器人AI這個臨界點,我覺得會達到什麼程度呢?比如某一天,我們帶一個人形機器人到這個會場,這個機器人之前也沒見過這個會場,如果我隨便跟它說一句話,“幫忙把這瓶水帶給某個觀衆”。它可以比較順暢的自己走過去,把這個事情幹了。或者說把這個房間幫忙整理一下”。機器人完全沒有見過這個房間,能自己做這件事情的時候,我覺得就差不多達到了機器人的ChatGPT時刻。
如果快的話,可能未來的一兩年或者兩三年還是很有可能實現的。最慢的話,我估計3到5年也是有很大概率可以實現,大家可以關注一下。
目前具身智能沒有達到(理想)效果,到底是模型的問題還是數據的問題?
我反而感覺,目前全球範圍內,大家對機器人數據這個問題關注度有點太高了。
就是現在最大的問題是反而是模型的問題,並不是數據問題。
目前來說在具身智能和機器人來說,模型架構都不夠好,也不夠統一。所以模型的問題其實是現在大家反而關注的有點少,對數據的問題關注很多。
因爲在大語言模型領域,大家覺得我有足夠多的數據,尤其有足夠多好的數據的時候,就能把模型訓練的越來好。
但是在具身智能,在機器人領域,大家可以發現,很多情況下數據有了,但這個數據用不起來。所以很多情況下大家對模型的關注目前是相對有點少,反而對數據關注有點太高了。
(對於模型來說),大家也知道目前相對比較火的就是VLA模型(記者注:視覺—語言—行動模型)。VLA模型是一個相對比較傻瓜式的架構。我個人對VLA模型還是抱一個比較懷疑的態度。
對於VLA模型,目前與真實世界交互的時候,採集的數據是不太夠用的。所以有個簡單的想法,就是在VLA模型上面加一個RL(記者注:強化學習)的訓練,這是大家一個非常自然的想法。但是我個人感覺,包括我們公司目前嘗試下來,VLA+RL還是不夠的,這個模型架構還是得再升級和優化。
這裡也簡單分享一下我們過去做的一些事情。大家可以關注到,前幾天谷歌發佈了他們全新一代的視頻生成模型,或者某種意義上是一個視頻驅動的世界模型。
去年OpenAI發佈他們的視頻生成模型的時候,大家會有個很自然的想法,比如讓它生產一個機器人整理房間的視頻,如果能順利完成的話,那能不能讓這個視頻生成模型直接驅動機器人去做這件事,想法非常直接簡單。對吧?所以我們去年的時候就去做了這個事情。
我們用一個預訓練的視頻生成模型,重新又去訓練了一下,讓它先去生成一個視頻的機器人動作,再控制機器人去做。這個技術是能實現的,谷歌的視頻生成世界模型也是想實現這個效果。
我覺得這個路線,可能比VLA模型收斂的概率還更大,但我不敢打包票,可能還是會有很多問題。其中一個很大的問題是,視頻生成模型太注重視頻生成的質量了,導致對GPU的消耗有點大。但是對機器人幹活來說,某種意義上並不需要很高精度的視頻生成質量,只要驅動機器人去幹活就行了。
剛纔我已經提出了一點個人想法,但實際上還是不太夠用。目前機器人跳跳舞,打格鬥,其實效果不錯了,對吧?但實際上現在面臨一個很大的問題,就是機器人的scaling law,就是縮放定律還是做的非常不好。
舉個最簡單例子,如果訓練一個機器人的訓練動作,比如有一個新的舞蹈,或想讓它幹一個活。每次有新的動作,都要重新訓練,還是從頭開始訓練,這是非常不好的一個事情。
我們是希望,每次做新訓練的時候,是在老的訓練基礎上去做。理論上做RL訓練的時候,每次訓練的時候,訓練速度越來越快,學習新技能的效果越來越好。
但是全行業內,目前整個機器人在RL這裡scaling law,沒有人做出來,沒有人做好,我覺得這是非常值得做的一個方向。
因爲scaling law在語言模型已經是充分驗證過的事情。但是在機器人的運動控制上面,還剛剛開始。在座的有些同學,可以關注一下這個領域之類,其實可以發表一些比較好的論文。
個人感覺,在未來2到5年,最重要的一件事還是端到端的具身智能AI模型。大家可以多關注,多推動。模型本身是非常最重要的。另外就是更低成本的,更高壽命的硬件,這個是毋庸置疑的。
大家知道,對於汽車行業來說,已經一百多年了,哪怕到今天,如果你對一家企業要做一個很好的一輛汽車出來,它的工程量還是非常大的。
對機器人行業,比如說每年有幾百萬、幾千萬甚至幾億的人形機器人。如果要生產製造出來,工程量挑戰還是非常嚇人的一件事情。
關於低成本的大規模算力,我分享一個概念,其實在人形機器人或者在移動機器人本體上,其實沒辦法直接部署很大規模的算力。爲什麼呢?因爲它的尺寸只有這麼大,它的電池只有這麼大,它部署的算力的功耗是有限制的。
我個人感覺在人形機器人上,最多隻能部署峰值功耗大概只有100瓦的算力。最好平時工作的時候算力只有小几十瓦。簡單說,就只有大概幾個手機的算力水平。因爲它的尺寸比較小,不能部署大規模算力。
但是對於未來對大規模的算力需求,肯定是毋庸置疑的一件事情。而且我覺得可能是個分佈式的算力,爲什麼呢?
因爲機器人在幹活的時候,它的通訊延遲是希望比較低的。如果在北京幹活的機器人,的數據中心或者算力中心在上海或者在內蒙,延遲實在是太大了。
所以我個人感覺,未來在工廠裡大規模應的時候,比如一個工廠裡面有100個機器人,那工廠裡面可以有部署一個集羣的分佈式服務器,所有的機器人就直接連接工廠裡的局部服務器就好了,這樣整個服務器的安全性、通信延遲是可以接受的。
或者換一個話題,比如一個小區每家每戶有一個機器人的時候,我覺得在這個小區或者這個區裡面,肯定是有分佈式的一個集羣算力中心的。
這樣的話,延遲和安全性是有保證的。並且如果有一個新的客戶想買一個人形機器人的時候,不需要給這部分算力花錢,成本也會更低很多。
我覺得分佈式算力是未來在機器人領域非常重要一個領域,需要比目前的算力分佈還更廣一些。
最後,大家知道過去在AI領域,包括機器人領域,都是一個全球共創的過程。中美在內的全球很多的企業都做了很多貢獻,在AI領域沒有人能保證,也沒有一家大公司能保證,有足夠的人、有足夠的資源,永遠能確保其在AI領域是最領先的。過去OpenAI、deepseek已經證明了AI的創新永遠伴隨着一些隨機性,伴隨着更多聰明的年輕人。很多情況下,都是每家公司或者每家高校都做了很多貢獻,這是需要全球共創出來的。謝謝大家。