智源研究院院長王仲遠:多模態大模型尚未實現高度普適化

2025北京智源大會6月6日開幕,智源研究院院長王仲遠就多模態大模型、具身智能等熱點問題接受媒體採訪。他表示,多模態大模型已在特定場景啓動落地,但尚未實現高度普適化。智源多模態大模型是爲了推動AI從數字世界走向物理世界,未來除了視頻、文字、語音、腦信號數據等,多模態大模型還將加入3D信號、時空信號等數據進行融合。

從繁雜的模態數據中篩選最有效信息亟待突破

王仲遠表示,互聯網文本數據基本已經被使用完畢,大語言模型性能提升已相對緩慢。現實世界中存在大量多模態數據,比如流程圖、CT數據和各行業的傳感器數據等,可以突破大語言模型的瓶頸。

開幕式上,智源研究院推出“悟界”系列大模型,其中,Emu3作爲原生多模態統一架構,讓大模型具備理解和推理世界的能力。

如何理解原生多模態大模型的“原生”概念?王仲遠說,當前多模態大模型的學習路徑,尤其是多模態理解模型,通常是先將語言模型訓練到很強的程度,隨後再學習其他模態信息,如同先達到博士學位水平,再去接觸其他知識。在此過程中,模型的能力可能會出現下降,從“博士”水平降至“大學”甚至“高中”水平。

但人類的學習路徑不是這樣的,小朋友從出生就開始聽到世界的聲音,跟各種物品、圖像交互學習,父母通過聲音教他。所謂的“原生”正是如此,是指在模型訓練初始階段,就將文字、圖像、聲音乃至腦信號等各種模態數據都納入其中進行訓練。隨着模態種類不斷增加,如何從繁雜的模態數據中篩選出最有效的信息,成爲亟待突破的技術難題。目前,不僅智源研究院,行業內衆多機構都在積極探索原生多模態技術。

此外,也有專家學者猜測,國際上近期發佈的產品背後或許已運用原生多模態技術,不過這些產品對技術細節的披露愈發稀少。從行業專家及學術層面來看,原生多模態是值得深入探索的技術路線,它與企業多模態技術路線存在差異。企業多模態技術是先強化語言模型,再添加多模態,更便於實現產業落地。

在產業界,多模態大模型依然在做圖像生成、視頻生成,這些在設計、廣告、電商領域有很好的落地,可以極大提升生產效率。王仲遠介紹,多模態大模型已在特定場景啓動落地,但尚未實現高度普適化。在實際場景中,多模態需求不可迴避。例如,英語教學需融合聲音、圖像與場景理解,但當前多模態大模型能力仍顯著弱於語言模型,導致產品效果不及預期。儘管產業界嘗試通過“打補丁”的方式優化體驗,但根本性突破仍依賴更強大的基礎模型。

未來多模態模型將加入3D信號、時空信號等

“智源多模態大模型是爲了推動AI從數字世界走向物理世界。”王仲遠說,具身領域的數據有更多模態,現在的模態包括視頻、文字、語音、腦信號數據等,未來還可能加入3D信號、時空信號等數據。

“我們做的原生多模態世界模型的統一架構,不僅理解靜態的多模態數據,還要理解空間、時間。”他舉例說,現在很多多模態模型看到桌子上的咖啡杯,會描述“咖啡杯在桌上,咖啡杯是白色的,上面有一些文字”,但人類對空間上的認知會覺得“咖啡杯在桌子的邊緣,很危險”。現在絕大部分多模態大模型不具備這樣的判斷能力。

有了空間的理解後,機器人操作時就應該從桌子邊緣往裡拿杯子,而不是從裡往外拿杯子。“咖啡杯有可能掉下去甚至弄髒地板,這就是時空智能預測,是我們要探索的多模態世界模型的能力。”

具身智能“小組賽”還未結束,遠沒有到“淘汰賽”

談及具身智能,王仲遠表示,在具身智能發展過程中,智源希望能探索出獨特的發展路徑:首先是數字智能物理化。通過大模型技術將數字世界的推理、規劃等智能能力延伸至物理世界,推動機器人從“單一功能”向“通用智能”進化。

其次是低成本功能化。聚焦垂直場景,降低單臺機器人成本並強化特定能力,如家庭清潔、工業分揀,通過規模化落地積累數據,逐步拓展應用邊界,讓很多小型機器人也能走進千家萬戶。因爲大型人形機器人技術複雜度高,商業化週期更長,而小型專用機器人若能在細分場景實現極致性價比,可能率先滲透家庭與產業場景,爲具身智能的長期發展奠定基礎。

目前,許多智能駕駛車企正在進軍具身智能領域。對此,他認爲,車企的核心優勢體現在製造能力與產業鏈整合、落地場景資源兩個方面。智能駕駛車企積累的交通、出行等場景數據,可能爲具身智能提供初期應用場景,比如物流、服務機器人等。

但具身智能的技術複雜度遠超智能駕駛,需融合感知、決策、行動等多維度能力,對算法、硬件協同要求更高,車企現有技術積累未必直接適用。另外,具身智能尚處發展早期。“小組賽”階段,大模型機構、硬件廠商、科研團隊等多方參與,不同領域玩家的技術路徑仍在碰撞中,遠沒有到“淘汰賽”階段,最終誰能形成突破尚未可知。“不過,越來越多參與方共建具身智能產業,本身是件好事,每一方都會帶來不同的視角和理念。具身智能最終是交叉學科,不同思想的碰撞一定有利於產業發展。”

未來三年,具身智能最可能在哪個領域產生突破性的規模化應用?王仲遠認爲,首先是在相對封閉的特定場景裡落地,比如工廠,這不僅能規避當前具身智能不成熟階段的安全隱患,同時也能替代人類進行相對重複且枯燥的任務。

新京報記者 張璐

編輯 劉夢婕 校對 付春愔