商湯科技發佈萬字長文:多模態是通往AGI必經之路

本文信息:作者爲商湯科技聯合創始人、執行董事、首席科學家林達華,題目爲《邁向多模態通用智能:商湯的思考》。以下爲正文:

AI 是一場長跑。從大語言模型(LLM)的興起到真正意義的通用人工智能(AGI),還有很多開放性的問題有待解決。我們認爲,多模態是從 LLM 到 AGI 的必經之路。

圍繞多模態,從智能演進、學習範式、數據和模型架構都面臨諸多挑戰,也有很大的創新空間;在組織和戰略層面也有很多值得思考的問題。在本文中,我先整體回顧一下商湯的多模態之路,然後就其中的關鍵問題談一下我們的思考。

1、商湯多模態之路概覽

商湯是從計算機視覺技術出發,在人工智能變革浪潮中發展起來的企業。在發展之初,商湯基於深度學習在視覺領域的運用,在人臉識別、畫質處理、智能駕駛等多個應用方向突破了工業紅線,推動了 AI 技術在行業的落地應用。

早在2019年,商湯就基於自身的技術判斷,開始在視覺模型上進行尺度定律的探索,在業內率先推出百億參數的視覺大模型,在視覺識別上突破了多項性能紀錄。這一前瞻性的技術觀察,也是推動商湯較早就進行大規模 AI 算力投入的重要原因。

2022年底,OpenAI 推出 ChatGPT,掀起了全球範圍的大模型浪潮,AI 進入了2.0時代。對於商湯來說,這是一次重要的機遇。我們當時開始思考,當視覺模型和語言模型在尺度定律上相會,會給我們帶來什麼?

在2023年3月,商湯和上海人工智能實驗室合作研發,推出了我國首個多模態通用大模型“書生2.5” 並開源。這個30億參數的大模型刷新了包括 ImageNet 和 COCO 在內的多個視覺任務的紀錄,並且初步展示了通用圖文問答能力。在6個月之後,OpenAI 才正式推出了支持圖像輸入的 GPT-4V。

在此之後,商湯保持着語言模型和圖文模型的雙軌迭代,但是逐漸看到了這種分立模式的侷限 —— 語言和視覺模態的融合較淺,難以形成高水平的跨模態理解能力。於是在2024年5月開始,我們投入了幾千 P 的算力,進行了大量比較實驗,突破了原生融合訓練的技術路徑。在2024年底,以單一模型奪得 SuperCLUE 語言綜合評測和 OpenCompass 多模態綜合評測的榜首。從2025年4月發佈的日日新6.0開始,原來分立的兩條模型線匯聚到了一個融合模型系列。

其後,商湯的大模型技術沿着多模態這一主軸走向縱深,推出了日日新6.5多模態模型,在國內率先實現圖文交錯思維,並且在多模態融合強化學習上取得新的進展。與此同時,商湯的開悟世界模型和悟能具身智能平臺,讓多模態 AI 從數字空間走入真實的物理世界。

在商湯多模態之路的背後,是商湯研究團隊就很多關鍵技術問題的思考、判斷和反思。

2、爲什麼多模態是通向 AGI 的必經之路?

主要觀點

· 智能的核心是與外界進行自主交互的能力,多模態是通向通用人工智能(AGI)的必經之路。

· 語言是描述世界的工具,但不是世界本身。單靠語言模型並不能構建真正意義的 AGI。

· 大模型浪潮源於 LLM,原因在於海量語料的積累,但是這不是通用智能的終局。

· 在應用場景中實現完整的價值,離不開對不同模態信息的有效處理、對多種模態信息的融合分析和判斷。

多模態是通向通用人工智能(AGI)的必經之路。 這是商湯選擇以多模態爲技術主軸背後的核心技術判斷。

爲什麼多模態在智能之路上如此重要?要回答這個問題,我們先回到智能的本質。

人工智能的核心目標是通過計算來構建智能。智能(Intelligence)是一個複雜的多維度概念。雖然智能尚沒有統一的定義,但其核心就是與外界(包括世界或者其他人)進行自主交互的能力。這是一種綜合能力,可以被歸納爲多種能力維度,包括感知、推理、決策、學習等。

語言(Language)的本質是一種符號化的交流工具 —— 人們通過語言傳遞信息。從這個意義上說,語言只是人類智能演進過程中的一種產物,但不是智能的本源;語言是描述世界的工具,但不是世界本身。單靠語言模型並不能構建真正意義的 AGI。

爲什麼這一波大模型浪潮首先源自於語言模型的突破?原因在於海量語料的積累。 在人類數千年的歷史中積累了海量的語料,這些語料在信息時代被廣泛地數字化,從而成爲最容易規模化獲取的數據形態。通過巨大算力對這些語料進行壓縮,大語言模型被打造出來。這是朝着 AGI 邁出的重要一步,但不是終局。隨着現存的文本語料被快速耗盡,人工智能下一階段的突破必然要超越語言,回到智能的本源 —— 和世界的交互。

世界的信息以多元形態存在 —— 除了書中的文本,還有視覺的影像、聽覺的音頻、電磁波的脈動等。人工智能若要具備通用性,必須能像人類通過感官接收信息那樣,將這些原始模態轉化爲可計算的內部表徵。這種表徵不是孤立的,模態之間存在深刻的內在關聯,這是理解世界的基礎,也是智能體和世界交互的基本出發點。因此,多模態信息感知與處理的能力是 AGI 的核心要求,也是從語言模型邁向 AGI 的必由之路。

從理論走入現實,技術的價值在於應用。只有當技術深入每一個應用場景,爲用戶解決實際的問題、帶來更好的體驗,技術就有了源源不竭的生命力。

在過去十年中,商湯服務了城市治理、工業製造、手機、汽車、互聯網、教育、醫療、金融、遙感等多個行業,涵蓋了生活、娛樂到工作和生產的方方面面。在衆多應用場景中,圖像、圖表、視頻等模態數據是記錄和傳遞信息的重要載體和媒介。在閱讀報告的時候,需要看懂圖表;在醫療場景中,診斷往往需要結合病歷和醫療影像的信息;在教學場景中,多媒體的結合是常見的手段;在城市治理和工業場景中,視頻更是不可或缺的信息載體。

在這些場景中,提供完整的價值離不開對不同模態信息的有效處理、對多種模態信息的融合分析和判斷。只是在過去的 AI 1.0時代和今天,構建場景能力的方式發生了變遷。在過去,每個 AI 模型智能提供一個環節的能力,最終由一個複雜的業務系統串聯起來;在今天,多模態的智能體可以自主而靈活地運用各種能力,提供端到端的整體價值。因此,從商業應用的角度,多模態也是我們的必然選擇。

3、商湯沿着什麼路徑去構建多模態智能?

主要觀點

· 從根本上說,人工智能的發展是數據驅動的,其每一次躍遷都源自於數據邊界的打破。

· 智能的演進會經歷幾次破壁:Transformer 實現了長序列建模;語言和視覺的會合實現了多模態理解;邏輯思維和形象思維的結合實現真正的多模態推理;最終,智能體將突破數字空間與物理空間的邊界,實現和真實世界的交互。

智能的演進是一個漸進的過程。它有很多個階段,在每個階段都有不同的特點。

人類智能進化到今天的高度,經歷了一個非常漫長的歷史時期,在“物競天擇”的生存競爭中逐漸傳承下來。人類在最早期就掌握了和大自然交互的能力,學會了運用火和工具,而語言、文化和科學是在社會生活中逐漸發展出來的。而人工智能的發展則經歷了一條很不一樣,甚至是反向的路徑。其根本在於人工智能內在本質的差異:從根本上說,人工智能的發展是數據驅動的,其能力邊界是被數據所定義的。人工智能的每一次躍遷,都源自於數據邊界的打破。

第一次破壁:Transformer 實現了長語言序列建模

語言模型作爲一個學術領域已經存在多年。早期的語言模型是通過 N-gram 或者循環神經網絡(RNN)等方式對自然語言中的語句進行建模。由於這些模型的建模距離很短(從幾個到十幾個 token 不等),因此它們只能捕捉到語言中的淺層模式(比如語法等),而難以對更高層次的知識和邏輯進行建模。

Transformer 爲長達幾千 tokens 甚至更長的語言序列建模提供了有力的工具。Transformer 模型所能看到的不再是短語級別的語言片段,而是長篇的段落、文章甚至是書籍。這是數據邊界的一次重要的拓展,讓高階的語言建模成爲可能,大語言模型由此而誕生。

第二次破壁:語言和視覺的會合,形成多模態理解能力

在大模型出來之前,計算機視覺和自然語言處理是兩個區別很大,交流很少的學科領域;它們各自處在較低的建模水平。計算機視覺通過給圖像或其局部區域賦予標籤,從而形成初級的語義理解;而自然語言處理則更多關注於語法和局部語義的解析。在這個層面上,兩個領域的關聯度是比較弱的。

大語言模型的出現,讓高階語言建模成爲現實,同時也爲高階的圖像理解提供了可能。 一幅圖像所能關聯的語義不再受限於幾個類別標籤,而是一個完整的故事。

多模態大模型正是在這樣的技術契機中發展起來的。當我們把圖像、視頻等模態數據和更完整的語言描述關聯在一起,在訓練中以監督或者非監督的方式讓模型去建模其內在聯繫,模型就具備了對這些模態數據進行高階理解的能力。這是構建多模態智能基礎性的一步。

第三次破壁:突破邏輯思維和形象思維的邊界,實現多模態推理

從 OpenAI o1/o3到 DeepSeek R1等的一系列進展中,我們看到語言模型通過思維鏈訓練以及在此基礎上的強化學習,可以在數學、編程等領域形成很強的推理能力,甚至可以達到奧賽金牌的水平。人類語言本身就蘊含了很強的邏輯性,所以以語言方式表達思維過程(思維鏈)是一種自然且有效的方法。但是,基於語言的邏輯思維並不是完整的思考能力。

在人類的思考中,形象思維扮演着同樣重要的角色。所謂“一圖勝千言”,當我們去設計一棟建築、構思一款產品的交互界面、或者嘗試理解一個複雜網絡的結構和關鍵節點,一幅圖往往比大段文字更能引發我們的有效思考。因此,全面的思維能力離不開邏輯思維和形象思維的有機結合 —— 很多時候,帶有視覺形象的直覺對於形成有效的思維方向會起到關鍵作用。

主流的多模態模型通過視覺編碼器與語言模型的前後結合,實現了對多模態混合輸入的支持。但是,後續的思考推理過程還是主要依賴純語言的推理。我們內部研究中觀察到,這些模型過於依賴語言先驗,對於圖形和空間結構的推理能力還很薄弱。比如,很多主流的多模態模型看見一個有“有六個手指頭的手掌”這種反先驗的照片時,還會說出“五個手指”的回答。出現這種情況的一個重要原因是,在這些模型的工作機制中,圖像僅僅是爲視爲可被描述的輸入,而不是思考過程中的重要元素。打破這一侷限的關鍵在於允許讓思考過程被圖形化表達,形成直觀表象,從而引發新的思考。

第四次破壁:突破與物理空間的邊界,實現多模態與真實世界中的交互

具備完整的多模態知識和思維能力的模型是通向 AGI 的一個重要里程碑,但是還不是終點,因爲它還不能在物理空間中行動,對物理世界產生影響。最終到達 AGI 的彼岸,需要從數字空間走向物理空間。這需要對三維時空的理解、對物理規律的把握、以及對自身行動的敏捷控制 —— 這不僅是一個“大腦”,而是“大腦-小腦-感官-四肢”敏捷高效的協同。從技術角度來看,這是一個軟硬件協同的開放課題,需要多個方面的突破才能逐步達成目標。

實現這一階段突破的關鍵挑戰仍舊是數據。不同於自然語言或者圖像視頻,它們在互聯網上有海量存量;物理世界交互的數據天然是非常稀缺的。通過真機採集或者“遙操作”採集所得到的數據,無論是體量和多樣性都比較有限,難以滿足構建通用智能的需要。但是,如果這個問題得到有效解決,我們就能給人工智能開闢一片新的天地,並且回到智能的本源 —— 與世界的自主交互。

從技術角度,世界模型是解決這一核心問題的一種重要的可能途徑。世界模型可以建立在基於海量數據訓練的多模態模型的基礎之上,獲得對這個世界的先驗認知,然後通過交互過程持續修正,實現和真實世界更好的對齊。一個有足夠真實度的世界模型可以作爲一種“模擬器”,用於對空間智能體的訓練,從而在很大程度上緩解上述的數據挑戰。當然,世界模型本身也是一個極具挑戰性的課題,需要整個領域共同的努力來推動它的進展。

商湯沿着智能的階段演進的認知展開技術研發的佈局,一步步推動對智能邊界的探索。我們早在2023年初就推出了我國最早的多模態模型,走出了多模態智能探索的重要一步。在2024年突破了原生多模態融合訓練技術,在國內最早把語言模型和圖文多模態模型融合爲一個模型。最近,我們在多模態推理上取得重要進展,實現了圖文交錯的思維鏈,在此基礎上訓練的日日新6.5具備了真正的多模態思考能力,綜合推理性能顯著提升。與此同時,我們展開了開悟世界模型的探索,打通數字空間和物理空間連接的通道。

4、爲什麼選擇做原生多模態?

主要觀點

· 多模態模型訓練有兩種方式:適應訓練和原生訓練。

· 適應訓練難以深入掌握語言和視覺之間的內在關聯,只是讓模型僵硬地遵循後訓練的範例模式。

· 商湯通過大量對比實驗發現,原生融合訓練的模型可以更好建模跨模態的關聯,實現模態深度融合,以一個融合模型在純文本和圖文的評測上奪冠。

· 視覺和語言模態的融合應該在預訓練的中段開始進行。

· 多模態訓練數據中,天然的圖文交錯數據,雖然量大但是圖文的關聯弱;提升性能主要是通過規模化構造的圖文對數據。

主流的多模態模型的整體架構是類似的,由視覺編碼器(Visual encoder)、輸入投影器(Projector)和骨幹網絡(Backbone)連接而成。視覺編碼器把輸入的圖像編碼爲一個 token 序列,然後經由輸入投影器對齊到骨幹網絡的輸入空間,而語言 token 一起由骨幹網絡進行計算處理。這裡的每個模塊都帶有各自需要被訓練的權重。

多模態模型的兩種訓練方式

多模態模型的訓練有兩種典型的方式:

1. 適應訓練:給定一個已經訓練好的大語言模型和經過預訓練的視覺編碼器,在後訓練階段,通過對視覺編碼器和投影器的微調,實現視覺和語言表徵的對齊。這是國內多模態大模型常用的方式,它的好處是能夠以較低的成本快速獲得多模態能力。

2. 原生訓練:在預訓練階段就融合多種模態的數據進行訓練,因此,模型從“原生”開始就具備了多模態能力,而不是“後補”的。以 Google 和 OpenAI 爲代表的頂尖機構從採用這種方式。

商湯自己的路徑選擇

商湯在早期的多模態模型訓練時也是採用了前者,但是我們很快就觀察到這種方式存在比較大的侷限性。這種只經過適應訓練的多模態模型,並沒有深入掌握語言和視覺模態之間的內在關聯,更多隻是在僵硬地遵循後訓練中那些範例的模式,從圖像中提取信息送給語言模塊進行後續分析和輸出。而且,由於模型基座本身對多模態理解是有限的,採用強化學習也很難激發出很強的多模態能力。

我們開始思考,是否應該走上原生多模態的道路。這不是一個容易的決定,因爲原生訓練所需的資源是顯著超過適應訓練的。除此之外,我們還面臨着兩個重要問題:

1. 有了原生多模態模型後,還是否需要保留一個單獨的語言模型?

2. 語言和其它模態的融合應該在什麼時候進行?預訓練還是後訓練?

這些問題的答案將決定商湯的長期技術路徑。在2024年5月,也就是日日新5.0發佈之後,我們成立了一個高優先級的內部專項,投入了幾千 P 算力,通過大量對比實驗嘗試回答上面的問題。幾個月後,我們從大量實驗結果中得到了關於上述問題的明確結論:

1. 在合適數據配比的條件下,融合訓練的模型比單純的語言模型和專注圖文問答的模型,在各自的任務上都表現得更加出色;而且,融合模型在處理帶文本的圖片、截圖、專業圖表等場景下顯著超越當時的圖文問答模型。

2. 語言和視覺模態的融合應該在預訓練中段開始進行。我們觀察到,只在後訓練比如 SFT 階段進行融合訓練,融合度是比較低的,模型對於跨模態關聯的掌握是面向具體任務,泛化性比較弱;但是,過早進行融合訓練也沒有明顯的增益 —— 模型早期無論是視覺編碼器還是語言模型本身的基本能力還沒有建立起來,因此也很難對跨模態關聯進行有效建模。

基於上述觀察,我們確定了融合模型的技術路徑:在預訓練中段開始進行多模態融合訓練,最終形成一個統一的原生多模態模型,不再生產單獨的語言模型。

爲了落實這一路徑,我們內部還進行研發組織的重構,保障各個條線的數據和研發進展都匯聚到這個融合模型上。我們在2024年第三季度完成了融合訓練的數據配方和訓練超參的驗證,在第四季度完成了第一版千億參數級別的融合多模態模型訓練。

這個模型在國內兩個權威的第三方評測平臺 OpenCompass(司南)和 SuperCLUE 上面都位居國內模型之首,其中在語言任務上和當時剛發佈的 DeepSeek V3是並列的,在內部業務評測中也有驚喜的表現。我們相信這個模型代表了當時國內多模態模型最好的水平,也堅定了我們對於融合模型這一路徑的信心。

從日日新6.0開始,也包括在今年世界人工智能大會(WAIC)上面發佈的日日新6.5,都只有多模態模型,而沒有單獨的語言模型。這和國內其它大模型廠商語言模型(LLM)和圖文模型(VLM)分立的佈局有很大的區別。

原生訓練的數據挑戰

原生多模態模型的訓練能否成功,關鍵在於數據構成。

我們的原生多模態訓練數據,從模態組成的角度包含類型:自然語言、代碼、圖文交錯文檔、圖文對、以及視頻和圖像序列數據。不同類型的數據用於不同的目的:比如語言數據可以幫助模型掌握語言能力並且獲得世界知識;代碼數據主要面向編程能力,這不僅可以用於代碼助手,對於構建智能體也是非常重要的。

對於多模態理解,關鍵在於建模不同模態數據和語言的關聯。圍繞這一目標,有兩種數據形態:圖文交錯,比如配圖的文章和新聞,還有就是學術界傳統常見的圖文對數據。這兩種數據有很不一樣的特點。圖文交錯數據在互聯網、文獻書籍中廣泛存在,天然就有海量的儲量;而天然存在的圖文對相較之下是非常少的,很大程度需要人工標註或者合成。

在我們研發多模態模型的早期,就大量採用圖文交錯數據來形成數據規模,然而發現,大部分天然的圖文交錯數據的圖文關聯是很弱的,對於整體性能的影響正面但有限;而圖文對雖然少,但是圖文關聯度強,對於跨模態建模是很有幫助的。從2024年開始,我們就投入很大力量研究大規模構造多元化的圖文對數據的不同方法,包括從文本出發,選擇或者合成相關的圖像,或者從圖像出發,產生更多的問題。這些方法的探索很有成效:目前,圖文對數據在跨模態數據中的佔比已經超過70%,對於我們多模態模型性能提升起到關鍵作用。

5、多模態推理的挑戰在哪裡?

主要觀點

· 大模型推理的核心途徑是“思維鏈”。由於人工構造成本高、難以規模化,思維鏈主要通過算法自動構造。

· 強化學習也是以思維鏈爲載體訓練模型的推理能力,它和 SFT 的根本差別在於從“強行模仿”轉變爲“自發探索”,讓模型在 “生成-驗證-學習” 的算法閉環中持續改進自身思維。

· 推理模型的主要難點是在算法之外,主要有三重挑戰:源問題的多樣性、自動化驗證的有效性、思維鏈探索的效率。

· 人的思考過程其實是真正意義的跨模態的,是邏輯思維和形象思維的結合。從技術角度,形象思維能給邏輯思維帶來互補的思維路徑,拓寬思路。

· 邏輯思維和形象思維的結合,主要是通過圖文交錯思維鏈實現的。

· 圖文交錯思維鏈的技術本質是一個“內省式”的智能體 —— 調用工具修改自己的思維過程。

· 圖文交錯思維鏈需要通過強化學習放大其作用,具體技術上實現要關注三個問題:動作空間的定義、混合獎勵信號的設計、以及 Agentic RL 系統的優化。

隨着模型能力的提升,多模態模型正在被應用在更復雜的場景中,比如文檔分析、醫療診斷、城市管理和科學發現。在這些場景中,我們需要模型匯聚多種形態的信息,進行多步的推理才能得到有意義的結論,這就要求模型具備多模態推理的能力。

推理模型的核心挑戰

大模型進行推理的核心途徑就是"思維鏈"(Chain-of-Thought)。爲什麼需要思維鏈呢?因爲,複雜問題的答案很多時候不是那麼顯然的,很難通過 next token 的概率分佈直接輸出,因此需要一個逐步推演的路徑導出結論。

思維鏈數據的構造是這裡面的核心挑戰。思維鏈數據是非常稀缺的,大部分要依賴人工編寫或者算法構造。人工編寫的成本非常高,而且很難規模化。算法構造主要是“批量生成 + 驗證篩選”的模式,就是從給定的源問題出發,讓模型或者智能體生成多條思維鏈,之後基於自動化驗證篩選出好的思維鏈用於訓練。

大模型早期,思維鏈主要是通過監督學習(SFT)訓練到模型的,這種範式對於預先構造的思維鏈有很強的依賴,而且模型的泛化性也比較脆弱。強化學習的引入提供了新的範式:我們不再需要預先構造思維鏈,只需要提供問題和驗證器;學習算法會讓模型自行探索不同的思維路徑,分別計算它們的獎勵(Reward),選擇好的路徑對模型進行更新。相比於監督微調(SFT),強化學習的根本差別在於從”強行模仿“轉變爲”自發探索“,讓模型在 “生成-驗證-學習” 的算法閉環中持續改進自身的思維。強化學習這種以內生爲主的算法特點,使得它所形成的思維鏈更貼近模型基座的原生模式,也有更好的泛化性。

需要指出的是,無論是思維鏈的預先構造還是強化學習,我們都面臨着學習算法之外的三重技術挑戰:

1. 源問題的多樣性:如何獲得足夠多樣化且具有挑戰性的源問題;

2. 自動化驗證的有效性:如何對生成的思維鏈進行有效的自動化驗證;

3. 思維鏈搜索的效率:如何提升生成好的思維鏈的概率和效率。

事實上,在推理模型的訓練實踐中,強化學習的選型,比如 PPO 還是 GRPO,對於最終性能的影響並沒有那麼顯著。這幾個技術問題纔是推理模型訓練的核心挑戰。這幾個問題的應對直接影響模型的推理能力,這是模型研發組織需要重點關注的。

多模態推理和文本推理的異同

到了2025年,主要的多模態模型已經具備了一定的推理能力。值得注意的是,主流多模態模型的推理思維鏈還是純文本的。實質上,它們做的是通過多模態理解的能力把輸入的圖像轉換爲文本描述,然後利用語言推理模型進行後續的推理。這只是多模態理解與純文本推理的嫁接,並沒有在推理過程中發揮其它模態的作用。這和人類思考有很大差別:人的思考過程其實是真正意義的跨模態的,是邏輯思維和形象思維的結合。

形象思維是以直覺形象支撐的思維過程。所謂“一圖勝千言”,在很多時候,直觀形象相比邏輯思維可以幫助我們更快地抓住事物的關鍵和本質,從而引發新的思考。這也是人們通過幾何圖形、信息圖表、工業圖紙等形象方式表達複雜信息的原因。

從技術角度,爲什麼形象思維能帶來推理能力的提升?我們可以從這樣的角度進行思考:某種意義上,大模型其實是一個龐大的思維網絡,所謂思維鏈,可以理解爲在這個網絡中漫步所經過的路徑。相較於邏輯思維,形象思維有一些很不一樣的特點,比如跳躍性、整體性、直覺性等。有了形象思維,相當於在這個思維網絡中增加了一批新的連接和捷徑,從而形成更強的直覺思維和發散思維。這對於整體思考能力的提升是有意義的。

如何實現邏輯思維和形象思維的結合?我們認爲:可以借鑑思維鏈的做法,但是要在思維鏈中加入圖形化的元素,把部分思考過程轉化爲圖形化表達,從而引發新的思考路徑。這種思維鏈是以圖文交錯的形態存在的,在需要的地方插入圖形化的信息表達。我們在日日新6.5的研發中嘗試引入了圖文交錯思維鏈,已經在實驗中觀察到它們對於多模態推理能力的正面作用。

圖文交錯思維的技術挑戰

到了實操層面,圖形化表達如何實現呢?這裡有兩種思路,一種是內生的混合模態思維鏈,就是思維鍊形成的過程中會自發產生視覺元素;另一種是在思考過程中根據需要調用工具進行圖像編輯,比如放大局部區域或者添加輔助元素(輔助線、標註點等)。

在這兩種實現路徑的選擇上,我們考慮兩個問題:目標和效率。首先,需要明確的是,我們在這裡的目標,是以視覺要素引導思維,但是並不需要追求電影級的高清畫質;而且爲了保證思考時間在一個可接受的範圍,每一箇中間圖像的生成不能有太高的延時。而當前的圖像生成技術,無論是指令遵循的可靠性或者生成效率尚不能很好地滿足要求。

基於這樣的觀察,我們選擇了兩步走的路徑:第一步,先通過調用工具進行圖像編輯的方式,構建圖文交錯思維鏈,這種方式可以高效且精準地實現構圖目標。這個方法的本質其實是構建一個“對內”(introspective)的智能體。 通常意義的智能體是調用工具和外部世界進行交互;這裡的智能體也是調用工具,但是它不是爲了和外界交互,而是和自身的思維過程交互。智能體不僅能對外,也能對內,這是我們看待智能體的新的維度。第一步的進展,可以讓我們對於圖文交錯思維的工作原理以及數據構建方法論建立更加深入的理解。我們內部正在推進第二步的探索,就是基於多模態理解生成統一的機制實現內生的圖文混合思考。我們相信這將爲多模態推理打開新的空間。

從具體的技術構建來看,相比於純文本思維鏈,圖文交錯思維鏈的構造更加挑戰。構造者不僅要把思考過程寫下來,還得製作出作爲思考節點的圖片,因此,很難以純人工的方法進行大規模構造。

我們克服這個困難的途徑是:人工構造種子 + 強化學習進行規模化提升。具體而言,研究員根據對思維過程的理解先構造出一批種子數據,通過監督微調(SFT)訓練到模型當中,使模型初步具備圖文交錯思考的能力,之後通過多輪強化學習顯著提升模型的多模態推理能力。我們發現,強化學習的效果非常顯著。在一個內部多模思維的評測中,SFT 冷啓動只帶來了有限提升(52.5 → 54.2),但是經過多輪強化學習後,提升到了76.3。

要走通這個技術路徑,我們需要解決三個技術問題:

1. 動作空間(action space)的定義。 我們首先需要定義這個“內省式”智能體能對思維鏈中的圖像做哪些操作。這些操作需要在 SFT 階段讓模型都經歷過,這樣才能在後續的強化學習中激發它用這些操作進行更多的圖文交錯思維探索。我們當前的動作空間還是包括了局部放大、加掩膜(mask)、加輔助線、加標註點等。雖然這個空間還比較有限,但是這些操作都非常實用,能解決很多問題,而且動作空間是可以在後續研究中不斷拓展的。

2. 混合獎勵信號(reward)的設計。 我們在訓練的時候融合了多種任務,包括傳統的視覺感知、OCR、圖文問答、數學、代碼、表格分析、GUI 操作,以及更具有開放性的寫作、高階任務等。我們爲不同的任務設計了不同的 Reward,對於有客觀標準的任務,我們採用了基於規則的驗證器(Verifier),對於開放任務訓練了 Reward model。不同的任務在訓練過程中是混合的,並且隨着訓練的推進,我們會加大困難任務的比例,以促進模型能力的循序提升。

3. Agentic RL 系統的優化。這裡的強化學習實質上是在訓練一個 Agent,因此需要 Agentic RL 能力的支持。爲了提升訓練效率,我們做了很多系統和算法的聯合優化。這裡和純文本條件下的 RL 有一個重要的區別,就是需要在學習的過程中需要給沙盒傳入很多圖像。因爲模型本身的計算是在 GPU 上進行,而沙盒中進行的圖像操作是在 CPU 上進行,而且圖像的字節數比文本要多,是會帶來不可忽略的通信成本的,因而需要進行系統性的優化。

經過多輪強化學習後,整體的推理性能大幅提升。其中,數理、代碼、GUI 操作、圖表分析、高階任務等維度的提升尤爲顯著。這個觀察顯示了,在多模態思維的設定下,強化學習對於激發思考的有效性依然有明顯作用。

這種以思維鏈爲載體,強化學習爲主要途徑的新範式對於在特定領域的推理提升,效果是非常顯著的。但在真實應用中,這種路線也面臨一些挑戰,包括:更高的幻覺率、思考過程過於發散和冗長、以及適用性受限(很多真實任務不容易對結果的正確性進行明確驗證)。這些困難的解決仍舊是開放的問題,比如更有效的過程監督結合、更優的獎勵設計、以及更可泛化的獎勵模型等等都是目前技術領域在積極探索的路徑。

6、商湯的訓練數據是如何生產出來的?

主要觀點

· 訓練數據發展有三個趨勢:規模成倍增長、數據加工程度加深、專業高階數據價值凸顯。

· 商湯的數據生產體系關注三個核心目標:多樣性、質量、生產效率。

· 要進一步提升大模型智能,專業高階數據非常重要,但是獲取難度高,以產品服務的方式獲取是一條值得探索的路徑。

· 隨着強化學習逐漸成熟,思維鏈的生成和篩選會更多在強化學習的過程中進行,訓練者只需要提供題目和驗證器。這將從根本上緩解思維鏈構建難的問題。但是可泛化的驗證器構造會有較大的技術挑戰。

對於大模型來說,訓練數據的意義是根本性的。數據定義了模型的能力邊界,而模型架構影響學習效率以及性能高度。

訓練數據發展的三個趨勢

縱觀過去兩年大模型的發展,訓練數據有三個方面的重要趨勢:

1. 預訓練數據的規模成倍增長:從 GPT-3的500B tokens 到最近 Qwen-3的36T tokens,三年間增長近百倍;

2. 數據加工的程度越來越深:從最初的簡單清洗和去重,發展到利用多智能體進行數據清洗和過濾,到今天,用大模型對數據大規模重寫成爲了被廣泛採用的方法。數據加工所需要的計算成本已經達到和預訓練同一量級。我們相信未來對訓練數據進行離線處理所需的算力還將快速增長。

3. 專業高階數據的價值日趨凸顯:隨着模型智能水平的提升,互聯網或者書籍上獲得的常規數據已經很難再推動智能的進一步升級,圍繞專業問題和高難度問題的思維密集型數據是突破的關鍵。

商湯的數據生產體系

商湯從最早的時候開始就深刻認識到數據的重要意義,持續深耕多模態訓練數據的建設,形成了一套複雜的多模態數據生產體系,包含採集、清洗、質檢、合成和模型驗證等環節。我們對訓練數據的建設圍繞三個核心目標:多樣性(Diversity)、質量(Quality)和生產效率(Efficiency)。

· 多樣性(Diversity) :訓練數據需要覆蓋不同的學科、領域和專業層次,也需要有不同的來源和風格。對於多模態模型的訓練來說,不同模態數據的均衡配比也是很重要的。

· 質量(Quality) :對於大模型訓練而言,數據的質量是生命線。日日新大模型系列從1.0發展到6.0,每一次能力升級,數據質量的提升都起到重要作用;當我們發現模型的表現有問題時,追根溯源,往往發現是源自數據質量的瑕疵。經過近兩年的發展,業界對數據質量要求的內涵也在不斷豐富,現在我們不僅要求數據是乾淨的,而且對於其中的信息密度、思維密度也提出了要求。

爲了保證數據的質量水平,我們主要是通過模型檢驗數據,標準很簡單,每一批數據投入真正的生產訓練之前,我們都會在我們最新版的模型和業內最好的開源模型進行續訓,如果性能有增益,就說明這一批數據是有正面價值的。

· 生產效率(Efficiency) :大模型訓練需要海量的高質量數據,而且模型迭代節奏很快。這就需要我們的數據生產系統的效率要跟得上訓練的節奏,不能拖後腿。數據生產的流程管線日趨複雜,當越來越多的處理邏輯被集成到生產過程,不可避免帶來效率上的負擔,因此需要持續進行優化。當前,我們的數據生產系統滿載處理的時候可以每天生產5T tokens,足以充分保障迭代需求。

高階專業數據的獲取

正如前文所述,隨着大模型智能水平的提升,專業高階數據(比如數學解題的思維鏈、醫療診斷背後的判斷過程、一份代碼背後的構架思考)日趨重要。這些數據是引導模型從“知其然”(表層模式)到“知其所以然”(深層邏輯)進化的關鍵。

高階數據天然非常稀缺,在早期主要依靠請大學生或者專業人士進行標註,不僅費用高昂,而且效率很低。據報道,OpenAI 正在以100美元時薪甚至更高的價格來聘請領域專家進行高階數據標註。商湯的交互模型有很強的擬人和推動劇情的能力,其背後也離不開很多編劇編寫的高水平對話數據。

面對挑戰,商湯也在積極探索更加高效的路徑:

· 以人工編寫的數據作爲種子,通過自動化管線進行增廣。經過長時間努力,商湯的研究團隊已經搭建了面向不同類型的專業高階數據的規模化合成管線,通過多智能體協作進行思維鏈的合成和驗證。比如,在合成多模態思維鏈的時候,我們的管線會先產生某個主題,然後尋求相關概念的圖像進行重組合成新的圖像,然後遵循某種思維路徑合成思維鏈路,最終由智能體進行正確性和質量的驗證。

· 按照預設路徑的方法合成的思維鏈主要的問題是多樣性不足。爲了解決這一問題,一方面可以擴大種子數據的多樣性;另一方面,在高難度題目的牽引下,通過“路徑搜索”,也就是生成多種路徑並進行驗證篩選,來找到更加複雜的思維鏈。

· 在產品服務中自然獲取數據也是被業界積極嘗試的途徑。這背後的想法就是通過向專業用戶提供好用的工具,在幫助他們工作的同時也能捕捉其從問題出發獲得結果的過程。這個途徑更貼近場景、也更容易規模化獲取,但是很需要產品服務層面的巧思。

從技術發展的總體趨勢看來,隨着強化學習逐漸成熟,思維鏈的生成和篩選會更多在強化學習的過程中進行,訓練者只需要提供題目和驗證器。這將從根本上緩解思維鏈構建難的問題。我們在研究圖文交錯思維的時候,就是採用了這一思路:只是人工構建少數的種子,主要的訓練過程是通過強化學習完成(參見上一節)。但需要注意的是,驗證器的構造,尤其是面向開放場景的可泛化驗證器,在技術上也有很多挑戰,是我們需要再後續工作中重點關注的。

7、模型設計有哪些思考?模型尺寸和架構未來如何演進?

主要觀點

· 模型架構設計的核心是效率。

· 日日新6.5的架構優化的重點是通過輕量化的視覺編碼器,實現視覺信息和語言信息應該在更早期就進行融合。

· 模型尺寸的選取趨於務實,更優的性能-成本曲線比單純追求大尺寸更加重要。

· 大模型的應用落地正在加速,多智能體是突破工業紅線的重要範式。

· 主流模型架構效率還非常低(相比於人腦),未來模型架構演進的核心仍將是效率提升,比如通過進一步的稀疏化以及功能分化(e.g. 知識和推理解耦);同時多模態理解生成統一、快慢思考的融合都是值得探索的方向。

模型架構設計的核心是效率。一個好的模型架構,能夠以更低的代價實現從數據到模型能力的轉化。

大模型最初採用的是稠密 Transformer 架構(GPT-3、Llama),它的計算複雜度隨參數量線性增長,隨着上下文長度呈平方增長。因此,隨着參數量增長,上下文變長,它的計算成本就成爲一個焦點問題。圍繞這個問題有很多探索,主要包括:

1. 模型架構的稀疏化:在保持總參數量的條件下,減少每次計算的激活參數,從而降低計算代價。混合參數(MoE)就是這個方向的典型,已經被業界廣泛採用。另外,對模型參數進行剪枝和低比特量化也是降低計算成本的有效途徑。

2. 高效的注意力機制:注意力機制的效率不僅影響算力成本,還直接影響模型的響應延時和用戶體驗,一直收到行業的高度關注。Sparse attention、Linear attention、Paged attention 等不同機制被提出來,從不同角度降低注意力機制的複雜度。PD 分離等系統架構上的優化也是讓 KV Cache 被更高效運用的架構範式。

日日新6.5背後的多模態架構優化

對於多模態模型,架構設計的複雜度多了一個維度,就是視覺編碼器(Visual Encoder)。雖然視覺編碼器的參數量佔比不高(在日日新6.0裡,視覺編碼器參數量只有 MLLM 主幹參數的1%),但是因爲它對於每個圖像都要處理多個 patch,因此在端到端的計算延時上佔比達到30% 。真實應用中,很多時候要處理大分辨率的圖像(比如設計圖、文檔表單等),因此佔比更高。所以,在多模態架構設計中,視覺編碼模塊的優化是重要的議題。

在模型設計中,我們重新思考了視覺編碼器和 MLLM 主幹的功能定位。我們認爲,“眼睛”和“大腦”的設計是有本質區別的,前者主要是捕捉視覺信號,這是一種連續信號,而且是受分辨率影響的;後者主要是在語言和語義層面進行計算,而語言的表示方式是離散的(以 token 爲單元)。這就決定了,視覺感知和語言模型應該有不一樣的模型結構和學習方式。

視覺編碼器應該聚焦在感知功能上,對視覺信號更加敏感,專注於視覺編碼。涉及到語義相關的處理,應該及早和 LLM 主幹進行融合。所以,在日日新6.5裡面,我們推動視覺編碼器輕量化的設計,把視覺編碼器的體積從6B 減到1B,從而實現更敏捷的感知;同時把 MLLM 主幹變深(層數更多)變窄,以適應深度推理的需要。經過這樣的改動,模型可以更快捷地處理高分辨率大圖以及長視頻;再加上對訓練數據的進一步優化,模型在同樣性能表現下的效率提升超過3倍。我們在架構優化上的努力使得性能成本曲線得以顯著優化,實現了比 Gemini 2.5系列更優的效費比。

模型尺寸未來是否會進一步增長

在大模型時代早期,尺度定律在很大程度上驅動着模型能力的競爭和發展,模型規模曾突破萬億。Google 早在2021年就發表了萬億參數的 Switch Transformer,這也是較早嘗試把 MoE 和 Transformer 結合的工作。但是,業界很早就觀察到模型參數量並不是模型能力的唯一要素。DeepMind 在2022年的一篇論文中就基於詳盡的實驗分析指出:模型參數量和訓練數據量應該同步增長("for compute-optimal training, the model size and the number of training tokens should be scaled equally")。

我們可以看到,從2023年至今,開源模型的參數量主要都設在1B ~ 100B 的量級,並且逐漸形成了一種分層格局:百 B 級別的模型主要是性能天花板的競爭;7B ~ 30B 級別的模型被普遍用於垂直業務;1B ~ 3B 的模型主要瞄準端側應用,或者用於業務工作流的轉接環節(文檔解析、Prompt 改寫、意圖分類等)。今年以來,隨着 MoE 的逐漸普及,主力模型的總參數量被提升到幾百 B,但是激活參數基本維持在20B ~ 30B 的水平。至於企業裡面用於服務 C 端產品的閉源模型,據我們瞭解,出於服務成本和效率的考慮,也沒有比上述的尺寸更大。

模型尺寸在過去兩年保持平穩,有兩個關鍵的原因:1)隨着大模型走向商業化,價格競爭激烈,各個企業選擇模型尺寸時趨於務實,而不是盲目追求參數量的超越;2)隨着數據質量和訓練水平提升,中小模型的性能進步顯著,在很多重要指標上已經可以比肩 GPT-4。我們認爲,這樣的趨勢是符合經濟規律和技術規律的,未來模型的發展主要還是圍繞着效率提升這一核心目標,以加速實用化的進程。

多智能體:突破紅線的重要範式

與此同時,有兩個重要趨勢非常值得關注:

1. 模型調用量正以指數式成長。IDC 報告指,從2024年6月到12月半年間,中國大模型服務的日均調用 token 數提升超過10倍,2025年還在加速。在商湯內部,我們也觀察到多個業務的模型調用量呈現跨數量級的增長。

2. 模型的數量也在快速增長。HuggingFace 平臺上的模型數量已經接近200萬個(2025年7月),而這個數字在一年半之前(2023年底)纔在1萬附近。

大模型從“大”到“多”,背後反映的是大模型正在經濟生活中加速滲透,其應用邊界在快速拓寬,人們在日常生活工作中對大模型的依賴也明顯加深。

對於 AI 的商業化來說,我們正在經歷一個歷史性的黃金時期,是值得我們以最大的努力去把握的。爲此,關鍵的不是追求模型規模,而是在一個個的場景中打穿工業紅線,讓技術達到可規模化商用的水平。

要實現突破特定方向的紅線,要兩種可能的路徑:1)打造“超人”:持續提升單個模型或智能體的規模和水平;2)打造“團隊”:讓多個智能體協作達成目標。後者就是業內現在經常討論的多智能體。我們比較這兩種路徑。一個超級模型在很多方向突破紅線,超越人類,這是存在可能性的。但是這裡有兩個問題,這樣的模型研發週期非常長,資源投入巨大;而且,在現有的技術水平下,這個模型會變得特別昂貴 —— GPT 4.5和 Grok 4的價單其實已經初步反映了這個問題。相比而言,多智能體的路徑更爲務實,並且在多個專業領域顯示出巨大的潛力。比如,最近 Google DeepMind 獲得數學國際奧賽金牌的 Deep Think 就是一個多智能體架構的系統。在商湯,小浣熊背後也是一個多智能體架構,它在面對複雜業務場景的時候,顯示出比單一大模型更強的表現。

模型架構的未來演進:提效與融合

模型架構未來演進的核心目標之一仍然是效率的持續提升。 目前大模型的計算能效相比與人腦還有着多個數量級的差距。在這樣的架構效率下,去追求超級智能的代碼將是無比高昂的。從追求 AGI 的長期目標而言,先尋求更高效的路徑(比如接近人腦的效率),然後放大,可能是更理想的策略。

要實現模型效率的進一步提升,有“稀疏化”和“功能分化”兩個重要方向。 稀疏化就是減少每次計算的激活佔比,僅使用必需的神經元,以降低計算能耗。功能分化是指:根據不同功能的 Scale 規律進行相應的設計,並把它們有機組合在一起。比如,很多分析指出,模型的知識容量和總參數相關度比較高,而推理性能更取決與激活參數,那麼知識儲備和推理能力就應該適當解耦,沿着更合理的方式進行配比;就像芯片一樣給於不同的功能單元以不同的空間,或者類似人的大腦那樣形成不同功能的皮層。

除此之外,“融合”也是突破模型現有能力邊界的重要途徑。在過去的工作中,我們已經看到了語言和視覺的融合所帶來的多模態能力的整體提升。展望未來,以下兩個方向的融合也是值得我們關注的:

多模態的理解生成統一。目前,主流的多模態理解模型和多模態生成模型是兩個有顯著差異的方向,前者採用 MLLM 的自迴歸架構,主要用於圖文問答;後者以擴散模型爲核心架構,主要用於圖像視頻生成。它們的研發目標也是不同的,前者主要聚焦在語義邏輯,但是空間理解能力薄弱,後者主要追求高品質的生成效果,但是可控性和結構的真實性一直面臨挑戰。多模態理解生成統一的探索,主要是希望通過把兩者在架構和訓練目標上進行彌合,從而實現優勢互補:更強的空間理解 + 更可控的精準生成。我們認爲,這是一個值得探索的方向,但是不應該停留在簡單的架構縫合,而是要着力於對其內在機理的理解,從而實現真正意義的能力躍升。

常規模型和慢思考的統一。帶有慢思考過程的推理模型相比於普通模型在推理性能上有代差級別的顯著進步,在近幾個月成爲領域競爭的焦點。但是它們在應用中也暴露出一些重要問題,比如冗長且發散的思維鏈、更高的幻覺率、以及可靠性和可控性的挑戰等。我們認爲,目前常規模型和推理模型分立的情況是 AI 進入推理階段早期的一個暫時狀態。一個具有較高智能水平的智能體(比如“人”)應該能根據情況需要,比如問題的挑戰性以及是否有充足的思考時間,來自主選擇不同的思考長度。而且,一個良好的學習範式應該能讓不同條件下的思考能力都得到平衡的提升。

商湯在日日新6.5版本嘗試把常規模型和推理模型融爲一體,觀察到了積極的效果,兩種模式的協同訓練,一方面給常規模式下的推理能力帶來提升,另一方面也在一定程度上緩解了推理模式的幻覺。因此我們可以用一個模型支撐兩種模式(需要前置設定模式)。我們目前在這兩者統一的探索上還處在相對早期,未來還將推進思考模式的深層融合,使得模型可以做得動態自適應切換。

8、從多模態到具身智能,會面臨哪些挑戰?

主要觀點

· 具身智能當前首先需要解決的是交互學習的效率問題。

· 世界模型是解決交互學習效率的關鍵技術途徑,其核心是對真實物理規律和空間結構的有效掌握,因此,通常的視頻生成模型還不是真正意義的世界模型。

· 世界模型的構建需要海量數據支撐。多模態模型爲世界模型提供好的基礎。

當 AI 從數字空間走到物理空間,和真實世界進行交互,我們面臨的挑戰是:物理世界的交互很難進行文字記錄,因此需要從實際交互過程學習。

跟其它學習階段一樣,學習效率是核心挑戰。採用真機交互的效率很低(無論是直接交互還是遙操作),當前只能滿足特定場景的需要,很難像大語言模型那樣依託海量互聯網數據形成通用能力。而通過視頻模擬學習,精細度以及領域鴻溝(domain gap)離可用還有比較遠的距離。因此,在這個階段,首要解決的是交互學習的效率問題。

一個很直接的想法,就是通過一個虛擬系統模擬現實世界的交互,讓智能體在這個系統裡面的每個動作都能獲得合適的接近真實的反饋。這個虛擬系統的核心就是“世界模型”,它基於對空間結構和物理規律的把握會對虛擬的具身智能體的動作做出接近真實的反應。由於世界模型的交互效率遠高於真實環境,以此有望顯著提升交互學習的效率。

世界模型的技術關鍵是對於空間結構和物理規律的精準掌握以及多樣化場景的覆蓋。通常的視頻生成模型只是捕捉了世界的視覺側面,並沒有對真實物理規律和空間結構的有效掌握,因此還不能視爲真正意義的世界模型。

世界模型的構建是需要海量數據支撐的。商湯的開悟世界模型是在我們的多模態模型能力基礎上構建起來 —— 這個多模態模型本身就壓縮了關於這個世界的海量數據。通過智能汽車業務獲得的大量真實場景數據進行加強,世界模型就因而具備了很強的模擬和生成能力,可以根據指定路徑生成不同視角的視頻。這個模型在我們的智能駕駛系統訓練中提供了很有效的交互反饋,從而幫助我們的智能駕駛系統更高效地訓練。

注:關於世界模型和具身智能,由於篇幅關係,這裡只做簡要的闡述。後面我們也考慮在合適時間進行更詳細的分享。

9、商湯如何建設一支有高效且富有創新力的研究力量?

主要觀點

· 創新人才都是技術變革的核心驅動力量。

· 面對激烈競爭,研究團隊需要具備更高的組織度,以實現更高的迭代效率;同時,也需要有充分的技術探索空間,以保持創新的活力。

· 商湯是基於技術規律出發設計研究組織,關注兩個關鍵要素:方向和效率。

· 商湯對研究團隊進行了多方面重構:資源統一調度、專項創新、系統提效、獨立評測。

在人工智能發展的每一個歷史階段,創新人才都是技術變革的核心驅動力量。在大模型時代,這一點也沒有改變。 在最近一段時間,人工智能研究人才的高價薪酬引起了廣泛關注。這背後代表了領域裡面正在形成的共識—— 在研發路徑高度同質化的當下,年輕研究者的創新精神是破局的關鍵。

在商湯科技過去十年的發展中,孕育了一支富有創新精神且有強大戰鬥力的研究團隊。他們在商湯穿越技術週期的每一次變革中扮演着重要角色,憑藉其前瞻的視野和不懈的探索,和產品業務團隊共同定義我們前行的道路,讓公司持續保持競爭力。

在 AI 2.0時代,研究組織也面臨新的挑戰 —— 大模型的訓練高度依賴數據和算力的聚集,而且外部競爭加劇,這要求我們的研究團隊需要具備更高的組織度,以實現更高的迭代效率;同時,也需要有充分的技術探索空間,以保持創新的活力。如何應對這樣的挑戰是每個公司研究組織必需回答的命題。

我們構建研究組織的整體思路是:從技術規律出發設計組織結構。這裡面有兩個關鍵因素:一是方向,保證技術迭代的方向和公司戰略是一致的,這裡評測的導向是關鍵抓手;二是效率,讓迭代的效率足夠高,保證在我們專注的方向中走在業界前列。

在 AI 2.0時代,商湯對研究組織進行了幾個方面的重構:

1. 原來分散在各個事業部的研發團隊進行整合,算力和數據等技術資源也在集團層面整體配置,保障了研究力量可以根據技術迭代的需要進行統一且靈活的配置。在幾次關鍵的攻堅任務中,這種統一架構起到了關鍵作用,使得資源得以有效集中;在過去一年訓練範式變遷的趨勢下,我們也通過這種機制及時加大了對強化學習的投入。

2. 商湯早期的大模型研究團隊架構也是遵循業界主流的預訓練、微調、多模態分工模式,各自會訓練不同的模型。隨着我們突破了原生融合訓練的技術路徑,我們根據新範式調整了研究體系,只保留了一個集成訓練團隊來集中訓練日日新多模態模型,其它團隊各自承擔不同的領域,貫穿預訓練、微調和強化學習來進行端到端研發,進行數據迭代;專項數據經過驗證後彙集到集成訓練。這樣的組織模式,一方面保證了日日新大模型集成了集團各個研究團隊的努力成果,同時也讓各個領域團隊可以有個貫穿前後階段的視野,實現整體的提升。

3. 商湯的大模型數據團隊在過去兩年,也經歷了兩次重要的變化。自2023年始,我們圍繞大模型的數據供給需求,組建了新的數據團隊,它建設了商湯的數據生產基礎設施,爲商湯模型的訓練提供了大量的高質量語料。到了2024年中,隨着合成數據的比重加大,數據生產的算法化程度不斷提升,我們再次重構了數據生產體系,讓算法團隊承擔數據合成的主責,而數據基礎設施團隊主要是維護和升級基礎設施,保障數據規模化生產的效率。

4. 新建了獨立於模型研發團隊的評測團隊。它一方面保持對技術前沿的關注,另一方面和產品業務團隊緊密配合,把應用中面臨的主要問題融入評測體系。評測團隊的核心 KPI 是保證評測結果和用戶體感是一致的,它的報告會獨立遞送給管理層,以保證管理層對於商湯的技術進展有個客觀公允的認知。在這個獨立評測體系的牽引下,模型研發團隊高度關注模型的真實表現,而不僅是榜單成績,這對於商湯的模型保持商業競爭力非常重要。

5. 保持足夠高的迭代效率是在大模型激烈競爭中致勝的關鍵。迭代的效率由兩個要素共同作用:算力效率和人員效率。爲了保證高的迭代效率,商湯組建專責團隊,一方面和大裝置緊密協同,在爲模型訓練推理提供高效的計算支撐的同時,也牽引大裝置的敏捷迭代,讓它真正成爲“最懂大模型的基礎設施”;另一方面,關注全鏈條的迭代效率,以算法化和工程化方式及時沉澱和推廣最佳實踐,推動整體迭代效率的持續提升。在這些團隊的努力下,模型研發的基建不斷完善,模型訓練的自動化程度在不斷提升。

總體而言,商湯的研究團隊在 AI 技術快速演進的時代浪潮下,組織體系也在與時俱進,不斷重塑自我,始終以最佳的隊形應對激烈的競爭;在持續提升研發效率的同時,保持着堅持原創的初心。

10、商湯如何平衡技術突破和商業落地的關係?

主要觀點

· 通向 AGI 的道路是一場長跑,技術理想也需要商業價值的護航才能行穩致遠。

· 商湯沒有把技術和商業視爲爭奪資源的兩側,而是把它們視爲互爲因果的兩個環節,關注它們的正向循環。

· 在研發投入上最核心的問題是最好“科技樹”上的選擇題。

· 研發和商業的正向循環,不只是一句口號,而是貫徹於組織、項目和考覈等各個層面的理念。

· 長期主義帶來的複利,將讓我們在自己的道路上脫穎而出,形成堅實的競爭優勢。

這一波大模型浪潮重塑了全世界對於人工智能的認知。新技術、新產品令人目不暇接,“未來已來”是很多人最直觀的感受。繁華和喧囂的背後,我們始終保持着一個重要的判斷:

通向 AGI 的過程是一場長跑

通向通用人工智能(AGI)的過程是一場長跑,不是一蹴而就的衝刺。 當靜下心來去審視人工智能這兩年多以來的進展,我們會看到有很多基本挑戰尚未能得到解決:

· 大模型在獲得奧賽金牌的同時,在很多業務場景中的表現仍然不夠可靠;

· 大模型工作機理尚未被充分認識,我們還缺乏可靠的方法論保證模型的行爲遵循人類的期待;

· 大模型對於三維空間以及物理規律的掌握還處在較早期的階段;

· 由於專業數據的壁壘,大模型向高價值行業落地還面臨重要挑戰;

· 大模型的工作還是以現有知識和能力的深度重組爲主,如何讓它創造新的知識目前還是開放問題;

· 大模型的計算效率和人腦相比還存在巨大差距(人腦的平均功率只有20瓦,卻能敏捷處理複雜的多模態信號)。

這些問題的解決還需要較長的時間。AlphaGo 是人工智能歷史上一次里程碑式的進步,大模型也是,但是,以目前所取得的進展而言,宣稱“AGI 的到來” 似乎還爲時尚早。

商湯始終堅定地走在追尋 AGI 的道路上,但是技術理想也需要商業價值的護航才能行穩致遠。

技術突破和商業落地的正向循環

在實際工作中,如何才能實現技術突破和商業落地的平衡?這是這個領域每個公司都會面臨的核心問題。在商湯,我們沒有把技術和商業視爲爭奪資源的兩側,而是把它們視爲互爲因果的兩個環節。相比於資源的分配,我們更關注這兩者如何實現有效的正向循環。

基於這樣的認知,我們確立了“基礎設施 - 模型 - 應用”三位一體的總體戰略。一方面,我們在大裝置基礎設施支撐下,致力於打造業界領先的通用多模態大模型,融匯跨模態跨領域的數據,通過持續的技術創新,在感知、理解、推理、交互等能力維度上不斷突破;另一方面,我們在應用上聚焦生產力和交互,在真實場景牽引下,構建端到端的產品技術競爭力。

到了具體研發決策的層面,我們確實面對很多開放性的挑戰,技術上可以投入的事項非常多,但是資源和時間都是有限的。因此,我們在研發投入上最核心的問題是“科技樹”上的選擇題。具體而言,我們在選擇投入做什麼研發的時候,會考慮三個基本問題:1)它是否順應技術發展的總體趨勢(是否走向融合而不是更深的定製);2)它是否可以增強商湯所聚焦方向的競爭力;3)它是否是在我們經過努力可以達成的。對於這些問題的回答是技術和商業判斷凝聚的結果。在商湯,每個研發週期前都會有產研會商的研討會議,共同確定下一階段的投入方向以及目標。我們密切觀察外部的進展,但是我們有我們自己的定位和節奏,不會受外界過多的干擾。

在商湯,研發和商業的正向循環,不只是一句口號,而是貫徹於組織、項目和考覈等各個層面的理念。 值得強調的是,業務對於研究的引導,並不是要讓研究人員去圍繞特定需求做定製,而是從中抽象出關鍵的課題,融入每一個階段的研發規劃,從而爲產品構築長期競爭力。

在三位一體戰略和技術與業務正向循環的驅動下,我們過去一年取得了很多進展。一方面,我們的基礎技術體系形成了更強的創新勢頭,在業內率先取得一系列創新成果:比如原生融合訓練,圖文交錯思維鏈、多模態融合強化學習、無限時長的視頻交互記憶、以及開悟世界模型;另一方面,在技術創新的支撐下,商業化局面正在迅速打開,生產力 AI 的性能持續保持領先,裝機量正在從百萬量級走向千萬量級;交互 AI 廣泛落地各種新型智能硬件和機器人,正在重塑用戶和世界交互的形態。商湯在生成式 AI 板塊業績的持續高速成長充分顯示了這些成果所帶來的商業回報。

面對大廠的競爭,商湯在資源投入的總量上是有一個限度的。但是,我們對於未來的路徑有自主的思考和認知,在戰略上高度聚焦,長期堅持,在技術路徑和產品業務上鼓勵創新,敏捷迭代,逐漸建立起技術-商業的閉環。

這種長期主義帶來的複利,將讓我們在自己的道路上脫穎而出,形成堅實的競爭優勢。