對話智源研究院院長王仲遠:具身智能“小組賽”還未結束,遠沒有到“淘汰賽”

編者按:在這個智能體與物理世界深度融合、邊界不斷拓展的領域,機遇與挑戰相互交織,技術迭代如閃電般迅速。《科創板日報》始終保持敏銳的洞察力,持續追蹤並深入報道浪潮中的先行者,記錄下他們或曲折、或驚豔的探索與蛻變歷程。

《科創板日報》6月22日訊(記者 李明明)被譽爲“科技春晚”的智源大會,折射出每年的科技產業熱點。今年的第七屆智源大會上,宇樹科技CEO王興興成爲最受矚目的嘉賓,顯示出了具身智能的高熱度。

智源研究院院長王仲遠在大會上表示,人工智能正經歷從以語言理解和推理爲核心的“數字智能”,邁入與現實環境互動的“具身智能”階段。也因此,智源研究院宣佈從“悟道”(是由智源研究院主導研發的超大規模智能模型系統)時代邁入“具身智能”探索階段。

相應的,智源研究院推出“悟界”系列大模型。包括原生多模態世界模型Emu3、跨本體具身大小腦協作框架RoboOS 2.0與具身大腦RoboBrain 2.0等。

近日,就具身智能發展路線、多模態大模型落地應用等方面,《科創板日報》記者對王仲遠進行了專訪,他表示,具身大模型的發展仍處於非常早期的階段,可類比大模型在 GPT-3 之前的技術探索期。當前行業仍處於“小組賽”階段,遠未到“淘汰賽”。

王仲遠判斷,目前,主流大模型多集中於C端的文本生成與語言對話等“數字智能”領域。然而,智源正致力於將AI拓展至更具挑戰性和潛力的“現實世界”,涵蓋機器人、操作系統以及世界模型的構建。

2025年人形機器人剛學會跑

《科創板日報》:類比 AI 大模型,智源新推出的跨本體具身大小腦協作框架正處於具身智能領域發展的哪個階段?

王仲遠:具身大模型的發展仍處於非常早期的階段,可類比大模型在 GPT-3 之前的技術探索期。

當前具身智能面臨與早期 AI 大模型類似的挑戰。比如,技術路線尚未形成共識:學界與產業界對核心技術路徑存在分歧,例如,仿真數據、強化學習、大小腦融合架構等方向仍在探索中,尚未形成統一方法論;又如產業落地尚需突破:儘管智源推出具身智能跨本體大小腦協作框架等成果,但離大規模商用仍有較長距離,需解決“感知-決策-行動”協同、多模態數據融合等基礎問題。

在此階段,如智源這類科研機構的價值在於通過開源框架、跨學科合作等方式推動技術路線探索,爲產業界提供可驗證的技術原型,而具體技術路徑的成熟與產業落地仍需多方長期共同努力。

《科創板日報》:現在業內對於機器人是否做人形也有爭論,請你談談關於走具身智能的路線。

王仲遠:人形機器人從長期來看是一個很好的發展方向。整個社會是爲人類構型打造的基礎設施,雙足機器人會更好地融入社會,但並不代表其他的構型就沒有用武之地。

最早與行業專家交流人形機器人時,我聽到一個很重要的說法是人形機器人提供的“情緒價值”,再往後深入做具身大腦時,發現人形機器人更有利於通過已有的各種數據進行學習。

從做模型的角度來講,如果做四足或者輪式,這些數據遠比從互聯網上獲取的海量數據難度大。

不同構型的機器人未來會共存,但是人形機器人一定是非常重要的發展方向,只不過它的成熟週期比其他的構型要慢。

2024年,人形機器人剛剛會走,2025年,剛剛會跑,能否走得穩、跑得穩,還在努力過程中。

具身智能“小組賽”還未結束,遠沒有到“淘汰賽”

《科創板日報》:如何破解具身智能數據稀缺問題?

王仲遠:具身智能目前存在循環悖論,具身能力不足限制了真機數據的採集,數據稀缺導致模型能力弱、落地難,無法進一步提升能力。

破解問題的方法有很多,不同的參與方有不同的解法。比如,令硬件成本越來越低,如果能夠做到幾千塊錢一臺機器人,大家買的可能性比一百萬一臺機器人的可能性大很多。

真實世界的數據很重要,但是是否足以訓練出來一個有價值的模型,這在學術界是有爭議的,仿真數據是其中一條路徑。

智源走的是大模型的路線,更多依靠的是互聯網數據幫助機器人學習智能。例如,此前我觀察一個小女孩是怎麼學習的,她刷了很多短視頻,就學會了拆糖果、撕包裝紙,把5顆藍莓串在一根牙籤上,這是沒有任何大人教給她的。她通過視頻學習到可能的技能,再通過實踐即強化學習去嘗試,可能失敗了幾次繼續嘗試,最後成功完成了任務,這就是強化學習的本質。

所以,學習海量已有的數據,再通過強化學習和少量真實世界的數據不斷訓練它的能力,不斷突破具身智能的發展上限,這和大模型發展路線不謀而合,基礎能力到一定程度後通過強化學習進一步激發它的智能。

《科創板日報》:具身智能能否複製智能駕駛的發展模式,實現數據採集與模型訓練經驗的無縫遷移?

王仲遠:具身智能與智能駕駛雖有共性,但差異不容忽視,直接複製智能駕駛路徑於具身智能不可行。核心差異體現在用戶需求、數據採集基礎和操作空間複雜度。智能駕駛車輛即便未完全智能化,仍可作爲代步工具被廣泛購買,用戶日常使用中自然積累海量數據,爲模型訓練提供支撐。而具身智能機器人若缺乏實用功能,難以被消費者接受,當前高價與低實用性導致其難以通過大規模商用採集數據,數據積累路徑受阻。智能駕駛的操作空間相對有限,場景邊界較清晰;具身智能需處理物理世界多樣化任務,操作空間維度呈指數級增長,對感知、決策與行動的協同要求更高,技術複雜度遠超智能駕駛。

在具身智能發展過程中,智源探索獨特發展路徑。一是數字智能物理化,通過大模型技術將數字世界的智能能力延伸至物理世界,推動機器人從“單一功能”向“通用智能”進化;二是低成本功能化,聚焦垂直場景,降低單臺機器人成本並強化特定能力,通過規模化落地積累數據,逐步拓展應用邊界,讓小型機器人走進千家萬戶。大型人形機器人技術複雜度高,商業化週期長;小型專用機器人若能在細分場景實現極致性價比,可能率先滲透家庭與產業場景,爲具身智能長期發展奠定基礎。

《科創板日報》:目前許多智能駕駛車企正在進軍具身智能領域,比如小鵬和理想,這些車企會在未來的具身智能競爭格局裡佔據什麼樣的位置?

王仲遠:車企佈局具身智能具備獨特優勢,但最終競爭格局尚未明朗。當前行業仍處於“小組賽”階段,遠未到“淘汰賽”。車企的核心優勢體現在兩方面:一是製造體系與產業鏈整合能力(如特斯拉依託工廠自動化需求與製造優勢切入機器人領域);二是落地場景資源,其積累的交通、出行場景數據可賦能物流、服務機器人等初期應用。但需注意,具身智能技術複雜度遠超智能駕駛,需融合感知、決策、行動等多維度能力,車企現有技術積累未必直接適用。

此外,行業目前仍處於多方參與的技術路徑探索期,大模型機構、硬件廠商等不同領域玩家的技術路線仍在碰撞,最終突破方向尚未明確。

《科創板日報》:未來3年具身智能最可能在哪個領域產生突破性的規模化應用?

王仲遠:最可能在相對封閉的工業場景落地,如工廠環境。不僅能規避當前具身智能不成熟的階段,比如對人類可能的誤傷等安全隱患,而且工廠環境有很多相對固定且枯燥的任務,不適合人類進行。因此,在這樣相對封閉的場景會是具身智能最快落地的場景。

當然,今天車企的自動化程度已經相當高了,反而又有其他一些工業場景的自動化程度遠沒有那麼高,這些是具身智能落地的機會。

多模態大模型尚未實現廣泛普及與通用化

《科創板日報》:此前谷歌大會發布視頻模型,行業認爲這標誌着多模態進入視頻模型商業化階段,你對此觀點是否認可?當前多模態行業,尤其是技術層面存在哪些挑戰?

王仲遠:目前,多模態技術發展方向尚未完全統一。在文本生成圖像、文本生成視頻領域,基於Diffusion和Transformer的技術路線相對明確;而在多模態理解模型方面,多數採用“大語言模型+Clip”的架構,將語言模態映射至多模態處理。當下主流的視頻生成模型,也大多沿用此類技術路徑。

儘管模型性能持續提升,生成效果不斷優化,商業化前景初現,但該領域仍存在諸多不確定性。以國內大模型發展爲例,早在去年便有預測指出,2024年底國產大模型有望追趕GPT-4水平。如今DeepSeek的技術突破印證了這一趨勢,即便沒有DeepSeek,其他國產模型同樣具備實現技術突破的潛力。

在技術路線相對明晰的背景下,產業界具備顯著優勢。豐富的數據資源、專業的工程團隊及充足的算力支持,均有助於企業訓練出更貼合實際應用、更具商業化價值的模型。

《科創板日報》:當前多模態大模型是否已進入全面落地應用階段?

王仲遠:多模態大模型已在部分特定場景實現落地應用,但尚未實現廣泛普及與通用化。

在實際應用場景中,多模態交互需求普遍存在。以英語教學爲例,需整合聲音、圖像及場景理解等多維度信息。然而,當前多模態大模型的性能與語言模型相比仍存在較大差距,導致實際應用效果難以達到預期。儘管產業界通過局部優化、功能補充等方式改善用戶體驗,但要實現根本性突破,仍需依賴更強大的基礎模型。一旦多模態模型達到更高可用水平,將爲產業發展注入新動能。

此外,當下主流大模型多集中於C端的文本生成與語言對話等“數字智能”領域。然而,智源正致力於將AI拓展至更具挑戰性和潛力的“現實世界”,涵蓋機器人、操作系統以及世界模型的構建。

《科創板日報》:近期國外多家廠商集中發佈Agent產品,爲何在這一時間節點出現該現象?哪些技術的成熟推動了這一趨勢?此次技術演進在應用落地層面能達到何種程度?其實際效果是否如應用廠商宣傳般強大?

王仲遠:基礎模型需達到或接近GPT-4的能力水平,才能滿足實際應用需求,即不僅要具備良好的語言理解能力,還需擁有一定的邏輯推理能力。近年來,推理模型技術的進步顯著提升了大模型的推理性能,推動大模型從“可用”邁向“好用”,進而加速產業應用發展。

Agent作爲重要的產業落地形態,能夠基於基礎模型開發出滿足用戶實際需求的解決方案。對於創業公司而言,投入產出比(ROI)是關鍵考量因素。因此,在模型開發中需兼顧性能與效率,在保證能力的前提下,儘量縮小模型規模,提升推理速度。儘管當前仍存在技術瓶頸,但隨着研究深入,這些問題有望逐步得到解決 。