人形機器人的海水與火焰|九合王嘯對話自變量機器人王潛

今年的具身智能賽道進入到了共識與分化並存的時刻。

硬幣的一面是頻頻獲得融資的具身智能初創公司,另一面是對具身智能商業化的大討論。從不同的時間維度看待具身智能,會做出截然相反的選擇。

目前,具身智能特別是人形機器人的軟硬件路線還沒有收斂,但經過多年的探索期,已來到模型和本體之間的技術交叉點。如果當下沒有大規模的研發投入,未來就不可能有具身智能公司的成熟。

九合很早開始在機器人領域佈局,2019年投資移動協作工業機器人,2023佈局具身智能公司。近期,九合創投創始人王嘯和被投企業自變量機器人創始人王潛,共同參與了騰訊科技的“具身之路”直播,從核心卡點、技術路徑、應用落地等多個角度,討論大模型給具身智能帶來的本質變化。自變量機器人本週宣佈連續完成了兩輪數億元融資,由美團獨家投資A輪。

核心觀點:

目前人形機器人的出貨量低,是因爲它們還不能完成真正有價值的任務,更多停留在“演示品”階段。機器人若要具備“實用性”,核心在於自主操作能力和思考能力,以及二者的結合。一旦其智能實現突破,出貨量將大幅提升。

中國在工業基礎、工程師資源方面具備優勢,有潛力成爲機器人產業的主要出貨國。長期看,機器人可能會成爲繼手機、汽車之後,與人關係最緊密的第三大硬件品類。下一步需要的是“耐心”,產業鏈成熟需要多個關鍵節點的協同努力。

機器人“走路”更偏向硬件問題,而“操作”和“思考”則更多是AI問題,如今大模型帶來了全新方法論,能夠突破長久以來機器人無法自主操作的問題,當下最需要的是直接能控制機器人、實現物理交互的模型系統。

人形機器人的兩種技術路線中,專家模型更適用於垂類任務,統一模型則具有更高的潛力。如果依靠系統化的方式進行列舉和枚舉,一旦涉及的情況變多,規則之間就會相互干涉,導致難以運作。選擇通用模型這條困難但正確的道路,更有可能實現真正的突破。

以下是本期直播的精彩回顧。

來源:騰訊科技《AI未來指北》

作者:小燕 陌通

01

科幻照進現實:“人形”是否是最優解?

如何看待人形機器人在科幻與現實之間的差距?未來的發展趨勢又會是什麼樣?

王嘯:人形機器人不僅可以實現仿人步態,在面部表情等多個技術方向上也正逐步接近現實。比如美劇《西部世界》中雖然有很多科幻元素,但部分設想正逐漸成爲現實——外觀逼真、具備思考與操作能力,能夠執行多樣化任務。

我認爲這些已不再是遙遠的幻想,而是在快速推進的現實。未來五到十年,我們或許將看到外觀幾可亂真、具備情感陪伴與家務處理能力的人形機器人。隨着大模型的發展,機器人的綜合能力也在不斷提升,我們所投資的企業正朝着這個方向努力。

王潛:人形機器人當前的發展方向主要集中在兩個方面:一是外觀更像人類,包括走路姿態、皮膚、面部等;二是提升其操作和思考能力更接近人類水平,更加有用。

目前我們更關注後者。自變量已能完成像拉拉鍊、整理柔性物體、疊衣服等複雜操作,集合Google、PI目前的模型表現,具身智能與2019年年初GPT-2發佈時的自然語言所處的階段相當。當前正處於類似於從GPT-2過渡到GPT-3的階段,儘管硬件、傳感器和模型仍有限制,但技術突破的潛力十分明確。

在運動能力方面,如步態控制和平衡性,機器人已達甚至超越人類水平。至於皮膚、表情等外觀方面,技術本身並沒有理論性障礙,只需通過工程積累逐步推進。

操作能力方面,我們也在提升機器人對複雜任務的思考能力。自變量構建的多模態“思維鏈”已能支持機器人進行長序列的複雜推理。

我相信未來五年,機器人將在能力上取得驚人進展。正如2019年無人預料到2022年底會出現像ChatGPT那樣的產品,我們對機器人的發展也充滿信心。具身智能的真正落地將出現在可預見的時間內,甚至可能超出目前大衆的想象。

人形是否會成爲未來的標準?它是技術發展的必然結果嗎?

王潛:關於類人形機器人,我認爲雙足行走和仿人外形是技術上可行的,但是否是最優路徑仍值得探討。

自變量正在做的嘗試之一是讓所有人將自己的技能手藝變成微調模型,讓機器人像下載APP一樣獲取特定技能。這種方式能突破人類傳統技能無法複製、難以流通的問題。從這個角度看,人工智能、機器人的終極目標不僅是模仿達到人類水平,更是實質意義上超越人類水平。

雖然人形機器人在情感價值層面具有不可替代的作用,因爲人類天然對外形像人產生情感鏈接,但從長期看,可能會出現效率更高、功能更強的非人形形態。就像人類並未通過模仿鳥類飛行,而是發明了飛機,機器人未來的形態也不一定侷限於仿人路徑。

王嘯:我們在投資時主要關注機器人能解決哪些問題,適用於哪些場景。機器人是一個多樣化概念,例如工廠中的機械臂和叉車也屬於機器人範疇。人形機器人只是其中一種形態,也包括雙足、輪足等多種形式。是否採用人形取決於具體問題和場景需求,而非單純追求模仿人類。

02

應用落地的挑戰:從展覽樣機到家用助手

如何打破當前這種“只能展示,難以應用”的困境?如何推動人形機器人實現更廣泛的應用?

王嘯:目前在工廠中大量使用的機器人,雖然並非人形,但已相當普遍,例如機械臂、流水線自動化設備等。在商業閉環場景中,如酒店、餐廳、清潔等領域,服務型機器人也已被廣泛應用。如果將“機器人”概念適度泛化,可以說它們已經在生產生活中實現了一定的滲透。

但從現在到未來,要實現“具備人類思考與操作能力”的人形機器人,仍有較長的路要走。核心挑戰並不完全在硬件上,而是“智能性”。能像人類一樣理解任務、完成複雜動作纔算是“機器人”。目前雖然走路等技術已大幅突破,但思考、操作仍未完全實現。

這也是爲何現在人形機器人的出貨量比較低。因爲它們還不能完成真正有價值的任務,更多停留在“演示品”階段。一旦其智能能力實現突破,出貨量會大幅提升。

當前的大語言模型可用於理解指令、傳遞知識,但不能直接解決機器人在物理世界中的操作問題。我們需要的是一個端到端的系統,將語言理解與動作執行結合起來,這纔是機器人真正的“突破點”。

這要求團隊同時具備硬件、大模型、數據與系統工程能力,正是目前機器人研發最難的部分。一旦在這個關鍵節點實現突破,機器人產業將迎來爆發。真正的核心在於“智能系統的通用性”,就如同安卓系統之於手機。

王潛:我也認爲,儘管波士頓動力、ASIMO等公司在“走路”這一方向研究了很多年,取得了很大進展,但在“手部操作”與“思考”層面,仍存在很多不足。過去常見的fancy的機器人操作演示(demo)大多基於預設軌跡。每一筆都是在不停重複預設好的軌跡,並不是機器人自主完成的。甚至一些機器人能完成精細的操作,比人類實現得更好,但也依賴於背後的人手遙控。

事實上,直到2018至2020年之間,機器人才真正意義上第一次在“自主抓取”任務上實現了相對完整的突破。之前市場做了幾十年機器人硬件,比人手的執行能力要強很多,但唯獨機器人不能自主操作。

總結來說,機器人“走路”更偏向硬件問題,而“操作”和“思考”則更多是AI問題,如今大模型帶來了全新方法論,能夠突破長久以來機器人無法自主操作的問題,但無法直接應用語言模型,語言模型可以解決規劃、推理、長序列認知,並不能直接與物理世界交互,因此仍需直接能控制機器人、實現物理交互的模型系統,無論是端到端模型,還是其他實現形式。

當然,機器人還具有情緒價值、展示價值。但若要具備“實用性”,核心仍在於自主操作能力和思考能力,以及二者結合。

產業目標是走向C端,資本在其中的佈局策略是怎樣的?

王嘯:從整體來看,人形機器人產業鏈相當長,涵蓋了芯片、關節、控制系統,以及像自變量機器人這樣的“大腦”模塊,還需要不同場景的深度配合。資本只有在形成共識並集中投入一個方向時,產業纔有機會快速成熟。

隨着大模型的發展,機器人逐漸具備思考能力和操作能力,通用性顯著增強。同時,硬件層面,如雙足步行與靈巧操作手的逐步成熟,也提供了基礎。

中國在工業基礎、工程師資源方面具備優勢,我認爲中國有潛力成爲機器人產業的主要出貨國。長期來看,這會成爲繼手機、汽車之後,與人關係最緊密的第三大硬件品類。

商業化真正落地還需5年甚至更長的時間,才能形成性價比高、消費者可接受、功能實用的產品形態。因此,社會和資本都應給予行業足夠的耐心。

產業鏈成熟需要多個關鍵節點共同突破,這不是任何一家公司能獨立完成的任務,而是多個主體在多方向上的協同努力。

產業化的制約因素有哪些?目前產業鏈中還缺少哪些關鍵環節?

王潛:首先,價格是一個極度關鍵的問題,它涉及產品的投入產出比及PMF(產品與市場匹配)點,而PMF點的設計是商業化中最重要的環節。

人們對於一件物品的期待與其價格有非常強的關聯性,例如,消費者購買一臺幾百元、幾千元的掃地機器人,並不期望其執行復雜任務,只需把地掃乾淨即可,這就是一個清晰的PMF點。

如果我們希望機器人能完成所有人類能做的事情,甚至超越人類的某些能力,那麼就要願意爲其支付更高的價格。問題在於,我們是否能在兩者之間找到一個合適的商業化落點,讓產品既具備實用性滿足大家需求,又能被大規模接受。這是產業化的重要課題。

另一個制約因素是產業成熟度。例如,靈巧手儘管已經做了很多年,但目前仍處於行業早期,目前市場上自由度高、可靠性強的靈巧手價格仍偏高,這也是受到產量和前期研發投入等的制約。但從長期看,其成本一定會降到一個合理區間。

此外,目前行業在關鍵技術上尚未達成共識,例如靈巧手的技術路線、如觸覺反饋等還沒有收斂,關鍵子系統仍處在技術探索階段,因此更需要時間和耐心。

未來隨着產業自然成熟的發展、AI能力的持續提升,我們有望找到符合市場需求的PMF點,從而實現出貨量的提升和成本的大幅下降。

03

智能核心與硬件支持:技術路徑的多元探索

有的技術路線傾向將所有功能通過大模型端到端實現,有的路線更支持系統工程化,通過多個小模型或傳統算法組合實現複雜功能。怎麼看待這兩種不同的技術路徑?

王潛:目前技術路線存在實質的分歧。一類路徑是構建多個專家模型,形成功能集或“技能庫”;另一類則是自變量正在做的——在一個統一的模型中實現所有功能,即通用模型,通才模型。我認爲專家模型更適用於垂類任務;但如果要實現通用能力,需要通過一個完全統一模型。這正是當前推進大語言模型和多模態模型的根本原因。

專家模型的能力存在天花板,而統一模型具備更高的潛力突破現有邊界。當然選擇哪種路徑也取決於最終應用方向。過去幾十年,大量的系統工程策略確實取得了一些成果,但與人們的期望仍存在巨大差距。因此,我認爲應把更多精力投向通用模型方向——這是更有可能突破技術上限的方向。

王嘯:我們希望機器人具備泛化能力,能夠處理各種不常見的問題。如果依靠系統化的方式進行列舉和枚舉,一旦涉及的情況變多,規則之間就會產生相互干涉,導致難以運作。雖然在有限的情境下可以實現部分功能,但系統規模擴大時就會難以維持。因此,我認爲這種技術路線短期或許可以嘗試,但長期來看並不可行。

我傾向於採用大模型進行端到端解決方案。因爲只要人爲介入設計,就可能存在漏洞,任何額外的算法調整都可能帶來新的問題。

統一模型的技術難點在於模型的構建、數據處理和算法優化,同時還要考慮與現實場景的適配。這些挑戰極爲嚴峻,但也正因如此,只有選擇這條困難但正確的道路,纔有可能實現真正的突破。方向已經明確,關鍵在於數據規模、算法優化以及時間節點,仍處於探索階段。

目前不斷出現新的模型架構,例如Figure的Helix,請從技術角度談談它的特點。

王潛:自變量的模型架構與π0整體方向相似,均爲端到端、完全統一模型。雖然過去較長一段時間內,端到端路線並不被認可。但由於機器人手部操作有其特殊性,許多操作任務如果不採用端到端模式,根本無法完成。只要操作難度超出簡單抓取的範疇,傳統分層模型就很難勝任。目前“完全端到端、一體化、通用模型”是具身智能的一個大的發展方向。自變量研究團隊也正走在這條路上。

同時,自變量的模型也與π0存在一些區別,比如在high-level的思考、規劃、推理方面,PI通常採用另外的獨立模型實現。由於π0的架構本身較少涉及以上幾個方面,雖然有現成的VLM模型作爲基礎的backbone,但在進行動作的訓練之後,其語言與視覺能力會有所退化,因此需要額外的模型承擔高層架構。

自變量的模型則包含了完整的能力體系:思考、推理、以及low-level的動作控制等全部集成,訓練的自研模型WALL-A是目前世界上最大參數規模的具身VLA模型,在任務難度、高級別的語義泛化、動作泛化、模態對齊等方面的表現實質上超越π0。

我們的做法在本質上更優,因爲隨着任務複雜度提升,非端到端模型都會面臨一個根本性問題——模塊之間如何結合。一旦前序處理中出現錯誤,後續環節將受到嚴重影響。機器人操作這一問題的本質驅使自變量選擇端到端大模型的路徑,

如今這一技術已經逐步發展至相對成熟的水平。無論是使用仿真還是端到端方法,實際上都源於操作任務本身的特點,我們很早就確定了端到端的技術路線,認爲儘可能減少人爲干預是一個長期趨勢,其實人類自身也難以明確解釋自己的認知過程。

如今大模型方法的興起,是方法論上的一次重大創新和本質變化。無論是π0 模型還是自變量的模型,我認爲都走在正確的道路上。即使未來出現新的技術突破,也仍會在當前(端到端的)框架之下,不太可能迴歸過去的分層架構,或回到“專家模型”(一個或幾個任務做一個模型)的舊範式。

從算力角度來看,是否有必要開發專門針對機器人的硬件?這一方向在產業上是否具有重要意義?

王嘯:機器人的核心是計算,並且需要支持人工智能的運作。過去的CPU和GPU廠商依然是機器人的計算能力核心供應商,但也會有一些新的小型廠商進入這一領域並進行專屬開發。我們已經開始佈局並投資機器人領域的芯片,整體來說這一領域的發展仍在初期階段。

王潛:從我們目前的角度來看,車載芯片非常好地滿足了機器人端側推理的算力需求,儘管這些芯片最初是爲自動駕駛設計的,但自動駕駛在算力方面與具身智能的需求有部分重疊。

其間也有一些差異。與自動駕駛芯片相比,機器人芯片在物理層面上要求不那麼嚴格。例如,機器人所需芯片不需要像自動駕駛芯片那樣承受極端的高溫或低溫,因此成本相對較低。但從計算角度來看,現有的GPU和端側推理芯片已經能夠很好地滿足具身智能的需求。

未來,自動駕駛模型可能不需要像人形機器人那樣龐大的算力,但隨着機器人算力需求的增加,具身智能將需要更強大的芯片來支持。

04

人形機器人的未來:AGI時代下的差異化發展

請兩位談一談DeepSeek對我們的影響,怎麼看待這個變化?

王潛:DeepSeek對大環境產生了深遠的影響。之前很多人認爲原創性工作更多出現在美國,DeepSeek極大程度上地改變了人們的這一成見,尤其是在海外,大家開始意識到中國在AI領域的強大實力。

它不僅改變了人們對中國的看法,也推動了全社會對這一問題的認知。因此,對於我們這類從0到1進行前沿探索的中國公司來說,DeepSeek無疑提供了良好示範。

在具體的技術層面,DeepSeek的成果爲我們提供了有價值的參考,但DeepSeek主要關注的是語言模型和推理模型,而自變量專注於具身智能模型,兩者在問題性質上的差異很大。

許多人可能會認爲,既然都是大模型,可能會非常相似,但其實各個領域的特性會導致技術路線及具體選擇產生極大區別。比如自動駕駛與機器人在很多方面並不相同。機器人操作所面臨的問題幾乎都是自動駕駛不會遇到的;而自動駕駛面臨的安全性等,是具身智能領域不會遇到的,所以兩者的技術路線也完全不同,幾乎沒有複用的可能性。

我們和DeepSeek相比也類似,如DeepSeek-R1更多地關注長程推理和長思維鏈,自變量也會做思維鏈,但更多是多模態的思維鏈,比如預測某個動作的狀態,或者動作質量的高低等,且不需要特別長的思維。DeepSeek的長思維鏈和強化學習更多適配它的領域,但對自變量來說,這些並沒有直接的技術影響。

當然,DeepSeek也在推進多模態模型,這對於我們來說是一個參考,包括其中一些強化學習算法,但總體來說,DeepSeek所做的與具身智能分屬AI的兩個大方向。

王嘯:兩三年前,我曾說過,中國的模型不會比美國差,憑藉中國工程師的數學能力和勤奮程度,我們的模型完全可以做到不遜色於美國。DeepSeek證明中國能夠創造出與美國不相上下,甚至更優的模型,讓我們更加自信。

DeepSeek像是開源的安卓系統,降低了應用開發的成本和門檻。開發者不再需要依賴收費API,而是可以直接使用開源模型,這使得應用開發變得更加低成本和靈活。

如果自變量機器人能夠成功推出機器人領域的大模型,整個行業有可能會迎來一次爆發,就像應用層的爆發一樣。通過降低成本,機器人行業的應用層將迎來真正的拐點。