熱爆了!中國機器人企業近100萬家、融資超240億,但仍有三大具身智能“非共識”爭論
優必選Walker機器人展示
中國機器人行業真的熱爆了。
“人,實在是太多了。”這是今年世界機器人大會上,幾乎每個人見面的第一句開場白。30多度高溫下,很多大人帶着孩子去展區看,這證明着中國對於機器人賽道,尤其是人形機器人和具身智能賽道關注度顯著增加。
首先,機器人企業規模增長較快。筆者從企查查方面瞭解到,截至今年8月12日,中國現存機器人相關企業有95.8萬家,接近100萬家。其中,2024年註冊量爲19.32萬家,同比增長4.59%;而2025年前7個月,機器人相關企業的註冊量已達15.28萬家,同比增長43.81%,大幅超過去年全年新增企業增速。
從地域分佈來看,華東地區機器人相關企業佔全國的39.64%。產業鏈方面,中國人形機器人整機平臺超過160家,佔據全球50%以上;核心零部件供應鏈企業逾600家。
其次,融資端火熱。今年1-7月,具身智能和機器人領域投資事件數超過200起,融資總額已超過240億元,遠超過2024年全年總和。預計2025年全年,中國人形機器人市場規模將超過82億元,佔全球的50%以上。
最後,市場前景廣闊,中國正逐步成爲全球人形機器人市場焦點。據花旗預測,到2050年,全球人形機器人市場規模將增長至7萬億美元(約合人民幣50萬億元),屆時世界上將有近6.5億臺人形機器人,其中有50%以上產品將來自中國市場。
然而,與大模型賽道類似,具身智能和人形機器人處於行業發展的早期階段,仍存在很多“非共識”爭論。
8月9日,宇樹科技創始人、CEO王興興在演講中表示,目前機器人本體硬件技術層面是完全夠用的,更大的問題在於量產、工程化層面問題。而軟件層面,機器人的最大挑戰還是具身智能、AI完全不夠用,具身智能模型架構不夠好,也不夠統一,這是限制當前人形機器人大規模應用的最大一個問題。
王興興還指出,具身智能模型的數據的關注度太高,但模型本身關注度更少。而且,只是RL(強化學習)+VLA模型還是不夠的,世界模型是他眼中有望更快收斂的技術路徑。
對此,2025世界機器人大會期間,筆者與多家人形機器人和具身智能公司創始人交流,尋求行業一些真實的現狀和看法。
一、具身智能的未來到底是RL+VLA,還是世界模型?
簡單來說,VLA(Vision-Language-Action,視覺-語言-動作模型)是一種多模態人工智能框架,旨在通過融合視覺感知、語言理解和動作控制,實現從環境觀察到行爲決策的端到端閉環系統。VLA屬於具身智能(Embodied AI)的延伸,主要應用於自動駕駛和機器人領域。而利用RL(強化學習)技術,希望未來VLA通過多模態融合與端到端學習,推動智能系統在複雜物理環境中的自主決策能力,但當前行業還很難實現性能較強的機器人端到端VLA模型。
王興興認爲,對於人形機器人的商業化來說,成本和硬件其實並不是關鍵性的問題,無論是10萬還是100萬,還是有很多場景能用起來的。而最大的問題目前其實還是整個具身智能模型不夠泛用性,實用性還是有更大的提升,這是當下最棘手的問題了。
王興興指出,基於VLA模型的機器人現在跳舞、打拳效果很不錯。可問題在於,如果要訓練機器人跳全新的舞蹈,每次有新的動作都要從頭開始訓練。VLA模型是一個相對比較傻瓜式的架構,僅RL(強化學習)+VLA模型還是不夠的,整個行業裡還沒有人做得很好,強化學習的Scaling Law還沒有出現,這是非常值得研究的方向。
王興興稱,目前模型架構不統一,大家進展沒有那麼快,宇樹曾用視頻生成模型作爲“世界模型”,來驅動並對齊機械臂的項目,這個嘗試取得了一定效果,但視頻生成模型訓練規模極大,考慮到公司算力和投入,難以進行大規模訓練。而且這類模型的泛用性還不能完全滿足預期,因此後來基本沒有繼續使用。
他指出,最近谷歌DeepMind發佈視頻生成/世界模型Genie3,其物理對齊效果非常好,並且他們公開嘗試把視頻生成模型作爲世界模型,直接用於機械臂和通用智能。這讓他認爲這個方向非常值得重新探索。
“目前,對齊工作仍非常複雜且具有挑戰性。這個方向無論是對機器人應用,還是純視頻生成技術本身,都是非常主流且值得投入的。即便不用於機器人,視頻生成技術也會持續被大公司加大投入、不斷優化。”宇樹認爲,世界模型路線發展起來可能比VLA模型更快,收斂概率更大,但可能還有很多問題,其中一個很大的問題就是,視頻生成模型太關注質量,對GPU的消耗有點大。但是對機器人幹活來說,某種意義上並不需要很高精度的視頻生成質量,只要能驅動機器人幹活就行了。
星動紀元創始人、清華大學交叉信息研究院助理教授陳建宇對筆者表示,VLA被認爲是一個更廣泛的概念,只要機器人用到視覺感知、語言、行爲動作,我們都認爲是一個VLA模型。因此,從整個意義上來說,世界模型是VLA技術的一個路徑。
“我們認爲,下一個範式的VLA,更傾向於說更廣義上的VLA模型,不侷限於某一個VLA模型架構,只要是端到端的模型,它能夠跟人進行語言交互、視覺感知,可以在物理世界裡面幹活,它就是一個VLA的模型。只不過,世界模型會在現有狹義VLA模型範式上進一步通過技術(包括RL強化學習等),改進它的精細化操作、泛化、認知能力等。”陳建宇稱。
對於爲何難以實現端到端VLA,陳建宇表示,主要有兩點:一是世界模型需要融入到生成式模型當中,實現對未來的預測、認知和生成式行爲;二是RL,即VLA的強化學習、運動控制模型,提升機器人的通用泛化能力,這將成爲通用範式。
穹徹智能聯合創始人、上海交通大學人工智能學院副院長盧策吾
穹徹智能聯合創始人、上海交通大學人工智能學院副院長盧策吾對筆者表示,VLA本質是模仿學習,類似概率模型,有很大的不確定性,做起來會面臨很大限制,需要加各種各樣的技術,包括強化學習、世界模型等。
在盧策吾看來,追求機器人的泛化性就是消除世界存在的巨大不確定性,而要想提升泛化性,還需要在數據收集方式、可以提高魯棒性的模型,以及世界模型等方面發力。
“我不是很喜歡說哪種路線一定是對的,哪種是不對的。一個好的具身智能企業應該做到所有路線都非常強,知道好處壞處,然後用科學的方法進行很好地融合,但也有自己的特點。”盧策吾表示,未來至於是否叫VLA,其實無所謂了。
國家地方共建人形機器人創新中心首席科學家江磊表示,他與阿里、華爲等企業交流之後體會到:“我們是找不到一個很好的身體”。
江磊認爲,今天行業確實還用不上全參數模型,機器人的大腦、小腦、肢體需要深度協同;王興興質疑VLA並嘗試用視頻生成驅動機器人任務,他承認“感知-認知-決策-執行的閉環尚未閉合”,呼籲重構VLA模型,尋求新的解決範式,而強化學習跟模仿學習都需要進入Scaling law法則,讓機器人足夠泛化和聰明。
江磊以OPEN VLA爲例,這是一個基於Llama2語言模型基礎上的7B 參數的開源VLA,參數規模並不算大。即使是目前被認爲最強的通用機器人控制VLA模型π0,也無法有效運用全參數的大語言模型(LLM),同時對數據提出更高要求。 “爲什麼人形機器人用不上全參數模型?”江磊的解決思路是,業界需要積極探索雲端與終端(端側)的算力協同分配,構建完整的“雲網一端”的部署架構。
會後交流時,江磊對筆者表示,VLA有點像過去運動視覺的大模型版,需要不斷推動產生一個動作,但完全沒有泛化性,而是通過運動層次的軌跡跟蹤解決問題,因此,下一步,我們要用強化學習解決力控問題,比如手要幹活、帶水、摩擦力不夠的時候,機器人怎麼去更好地抓取,然後有反饋。除了強化學習,還要做模仿學習,實現大腦、小腦、肢體的協同,這是現在我們要面對的挑戰。
值得一提的是,就在8月11日,星海圖發佈了首個VLA模型——星海圖G0,以及星海圖開放世界數據集。包含了500個小時的機器人與物理世界交互的數據,包括了50個不同場景、150個真實世界的任務。把數據採集機器人部署到了真實的開放世界中進行數據採集,包括一系列家庭生活服務的場景,採集員通過遙操作的方式控制機器人,讓機器人去完成複雜的、長程的、日常的任務。
星海圖首席科學家趙行表示,隨着計算的提升,AI 才實現了真正的進展,而星海圖公司目標是訓練VLA模型。
趙行稱,團隊發現,跨本體預訓練的效果遠不如單本體預訓練的效果。這就意味着,機器人模型的智能模型,其能力與本體有着密切的聯繫,所以,我們需要對我們想要使用的智能本體以上的數據進行收集,這也說明了,事實上,具身智能是一個從模型到數據,再到機器人本體的整個鏈條,想要做好,不是一家公司就能做到的。
星海圖聯合創始人許華哲認爲,團隊現階段採用的是一個分層系統,上層是負責高階任務拆解的VLM,下層是負責執行具體動作的VLA。VLM將一個抽象指令(如“鋪牀”)拆解成具體的子任務(如“拉左邊被角”),然後交由VLA來理解和執行。這種雙系統的優勢在於效率更高,並且對複雜場景的推理能力更強。但分層與端到端最終是異曲同工的。行業的終極形態應該是一個統一的端到端模型,但其內部會自然形成功能上的分化,我們現在的分層系統,是通往最終統一模型的必經之路。
當然,這裡面也有非VLA和非世界模型的。衆擎機器人創始人趙同陽在演講中表示,具身智能的核心在於操作能力。缺乏這一能力,機器人將不具備實際生產力價值。
而智元不僅佈局VLA和開源數據集路線,還佈局世界模型。智元合夥人、智元機器人研究院執行院長、具身業務部總裁姚卯青表示,行業首個真正面向真實世界雙臂機器人的世界模型開源平臺“Genie Envisioner”(以下簡稱 GE),融合了預測、控制、評測三大核心能力,爲機器人從“看見”到“行動”提供了端到端、一體化的解決方案。
“人類與機器人一樣。如果你能夠做到在腦海裡,在世界模型裡面去做一個精準的推演,那它離真正能夠上手,中間的距離就能被大大縮短。我們依託於這個世界模型,也是讓一部分機器人先想象起來,不是讓它在夢中去數電子羊,而是真正以動作生成的方式去預見未來,預見它將被執行動作之後的環境變化。”姚卯青強調,具身智能其實應該是一個機器人+AI,而不是AI+機器人,更多還是要結合硬件和本體,模型基本是圍繞着本體設計才能進化和迭代。
江磊強調,目前技術還未完全收斂,各種路線都存在屬於正常現象。你會發現,人形機器人這一塊,有很多種選擇,但是大部分的廠商都把它開源了,這對人形機器人來說很重要,等它成熟了,我們就可以坐下來,商量一下下一步該怎麼做,讓技術不斷地更新。
二、更關注數據,還是更關注模型?
王興興表示,人們過於關注具身智能的數據,但對模型本身的關注度較少。在他看來,數據並非具身智能的唯一瓶頸。
“在具身機器人領域,反而大家可以發現,很多情況下你有了數據,但這個數據用不起來,你採了數據幹嘛用。所以很多情況下,大家對模型的關注目前是相對有點少,反而對數據關注有點太高了。”王興興稱,目前來說具身智能機器人模型架構都不夠好,也不夠統一。
在王興興看來,到現在爲止,大模型或具身智能還是不太夠用。具身智能機器人的ChatGPT時刻,最快在1-3年實現,最慢也在未來3-5年間能夠落地。
星動紀元創始人、清華大學交叉信息研究院助理教授陳建宇
對於數據和模型目前孰重孰輕,陳建宇表示,相比數據瓶頸,現階段大家應該更關注模型。
“未來迭代模型需要的數據絕對數量肯定越來越大,但我強調的是數據利用效率,在同樣的情況下,只需要更少的數據,讓數據利用效率更高,但數據量仍需要很大,因爲現在數據量還是不夠。”陳建宇稱,大家關注數據,其實更上層是模型,如果只關注一個的話,應該先關注模型。
陳建宇強調,在一些真實工業場景中,目前智能機器人已經達到人類70%的效率,明年能達到90%左右。未來是軟件和硬件的打磨階段和過程,也是發揮端到端模型的優勢——能實時反饋、實時控制。“假以時日,我相信(機器人)能達到人類的水平。”
自變量機器人創始人兼CEO王潛表示,數據依然是當前具身智能模型發展的重要瓶頸之一,應當關注。
王潛指出,要達到ChatGPT水平,關鍵首先是Scaling Law可以持續發揮作用,這也是大家已經確定的,然後需要足夠多的數據、足夠大的具身模型,同時模型架構和訓練方法等方面還需要持續向前演進。預計需要3-5年時間週期,機器人模型纔會達到類似ChatGPT的水平。
自變量機器人創始人兼CEO王潛
“機器人模型與語言模型不同,應用場景複雜,會有一個比較平滑的過渡過程,它不會像自動駕駛技術發展一樣有一個突變的過程,因此也不會有因此帶來的大的商業上的波折。”王潛指出,目前數據收集的質量控制是非常困難的事情,整體採集管理和收集上來的數據是否有用,是一個有待驗證的問題。
王潛進一步稱,公司的大模型技術路線是統一端到端的架構,第一是追求性能,只有端到端的模型,才能在整體感知、決策、控制鏈條上,完成統一的處理,突破現有機器人系統性能的上限;第二是擁抱Scaling law;第三,只有端到端其實才能通向真正的通用性。
江磊強調,世界上最大的機器人數據集來自中國,再往下所有的模型從業者數量中國最多。“我們很有信心,在製造業優勢跟數據優勢的情況下,能夠把原創技術的具身智能模型打造出來,這是我們一個重大歷史機遇。”
三、應該重視真機數據,還是仿真/合成數據?
目前,超過90%的具身智能和人形機器人企業,都偏向於真機數據訓練出機器人“大腦”以及交互系統,只有銀河通用、跨維智能、光輪智能等部分企業還堅持合成數據(Sim2Real,從仿真到現實)這條路線。
北京大學助理教授、銀河通用創始人及首席技術官王鶴
北京大學助理教授、銀河通用創始人及首席技術官、智源學者王鶴表示,合成數據是推動具身智能快速落地的關鍵。“目前,真實世界數據僅佔我們訓練數據的1%,其餘99%均爲合成數據。”
王鶴表示,銀河通用將自研機器人模型、大量物體與材質資產輸入合成管線,經英偉達引擎完成仿真驗證與物理渲染,生成全球首個百億級抓取操作大數據集,以及全球首個百億級柔性物體操作大數據集。這些數據使銀河通用的模型在真實環境中具備極高的魯棒性與泛化能力。
王鶴強調,長期看,真實數據固然重要,但在具身智能發展的初期階段,合成數據是推動產業發展的關鍵數據資產,真實數據則用於補充和完成“最後一公里”的訓練。
跨維智能方面對筆者表示,相對於用英偉達引擎,跨維智能屬於從頭開始自研合成數據和VLA模型。以自研 DexVerse具身智能引擎爲底座,構建了從仿真訓練到現實部署的端到端閉環體系。通過“海量數據生成+高效仿真”技術,機器人載體W1 Pro可在虛擬環境中完成多場景任務訓練,直接實現真機部署與應用切換,徹底顛覆傳統機器人依賴真實數據採集的低效模式。未來,跨維智能將持續通過物理引擎、大模型、傳感器三位一體架構,構建更加可泛化的智能基座,賦能W1 Pro深入家庭、商業等多元化場景。
但趙行卻認爲,真機數據是最重要的,是打破具身智能天花板能力的關鍵技術,而且要進入真實的世界裡去採集數據。“我不希望我們的機器人像賽車場裡的賽車一樣不停地繞圈,而希望我們的車走到真實的道路上、公開的道路上去面對、應對真實的交通和駕駛場景,我們也希望機器人到真實的家庭裡去看一看、走一走、做一做、幹一幹,最後把數據收集回來,訓練我們的具身基礎模型。”
盧策吾對筆者表示,對於合成數據、真機數據比例問題,這不應該是人類去決定的,而應該是一套有效的機制決定。比如,穹徹大腦對於仿真和真實系統,最後以結果導向,而非人類拍板決定。
“我們發現,非持續性動作如以抓爲中心,仿真做得其實挺好的,然而,一旦到了擦桌子、刮鬍子這些複雜操作的時候,仿真和真實效果Gap很大,它更加依賴於真實數據,那麼究竟是多少?這東西是由模型自動計算和判斷出來的。”盧策吾稱。
總結來看,仿真數據對於一些簡單動作就可以了,但長期看,真機數據依然很重要,而且需要大量的數據採集訓練纔可以最終實現機器人疊衣服、擦桌子、遞送咖啡等交互動作,實現更聰明的大腦,以及下身更靈活的運動控制等。
非共識本身即共識
除了上述三個問題,目前還有很多“非共識”話題,其中之一就是,人形機器人到底應該是跳舞、打拳、踢足球等遊玩觀賞,還是要“進廠打工”或是逐步進入家庭,爲社會產生更大價值。
加速進化創始人、CEO程昊表示,機器人世界盃 (RoboCup)的願景是,(機器人)2050年踢贏人類世界盃冠軍。而加速進化本身的願景是“人形機器人能像個人計算機一樣簡單可靠實用”。
無論是踢贏世界盃,還是看着機器人踢球,似乎都很難說,機器人對於家庭和社會產生更大的價值。
王興興表示,對於宇樹科技來說,終極目標是讓人形機器人進廠幹活,包括在家務場景中能夠端茶倒水或洗衣做飯。不過,目前讓機器人去家裡幹活還不太現實。在終極目標還未實現之前,他們希望以跳舞或參加格鬥比賽這類偏娛樂的方式展示人形機器人的運動能力。
盧策吾指出,踢足球和大腦操作交互之間的技術重合度並不大。人形機器人現在要從表演式,慢慢進入“幹活”狀態,這個是大家的共識。
另外,人形機器人當中,到底是軟件定義硬件,還是硬件定義未來;數據飛輪的規模達到多大,1萬小時是門檻還是幻想等,這些話題目前依然處於“非共識”討論階段。
但是,非共識本身即共識。國內具身智能模型、數據、算力的發展仍處於早期階段,技術路線還未完全收斂。如今,行業的唯一共識在於,人形機器人最終還是要從工業、商業,走進泛化性需求高的家庭環境當中。
王興興在會上預測,人形機器人行業已經走到“ChatGPT時刻”的前夜,最快1-2年就能迎來這一時刻。而未來2-5年智能機器人技術的重心,是統一、端到端智能機器人大模型,更低成本、更高壽命的硬件,超大批量地製造,以及低成本、大規模算力。
王鶴表示,人形機器人每三年產值乘10,未來十年,人形機器人市場規模會超過1000億級。“所以在未來10年,我們將看到的是一個能夠超越當前所有工業機器人的人形機器人市場。再往後10年,可能是超越汽車手機這個市場量的萬億市場,所以不能低估它,但也沒有大家想得那麼快。”
然而,行業普遍認爲,接下來國內人形機器人和具身智能賽道將發生“淘汰賽”。有分析稱,未來大浪淘沙的量產階段,可能80%的人形機器人公司無法“跨越”,可能會死掉。(本文首發於鈦媒體App,作者|林志佳,編輯|蓋虹達)