對話階躍姜大昕:首次開源基座模型,回顧創業兩年半
文丨王與桐
編輯丨程曼祺
半年沉寂後,國產大模型之戰重歸火熱。
現在打開 Hugging Face,大模型榜單前十全部由中國模型佔據。月之暗面、阿里通義、階躍星辰、智譜在一個月內接連開源最新基座模型 K2、Qwen3、Step 3 和 GLM-4.5。
其中,剛剛在 7 月 31 日正式上線的 Step 3 是階躍首次開源的主力基座模型。這是一個採用混合專家(MoE)架構、總參數量 3210 億、激活參數量 380 億的多模態推理基座模型。
自創立起,階躍星辰就選擇了 “路徑更重” 的打法——重押多模態,多線並進:迄今,階躍已發佈 26 個模型,在中國大模型創業公司中數量最多,其中 20 個模型與多模態的理解、生成或推理相關。
有人質疑多線作戰分散資源與精力,姜大昕卻認爲必須如此,因爲他和階躍相信多模態生成與理解的統一,才能走向 AGI—— AGI 不僅能描述語言,還要能模擬、推演物理世界中的動作與變化。
已經做到微軟全球副總裁,再開始創業,對姜大昕而言也是 “必須” 的選擇。他不是那種 “命定的創業者”,創業本身不是目的和他的渴求,AGI 纔是。
2023 年初,博士畢業後,一直在微軟工作 16 年的姜大昕曾遞交一份 10 頁的技術文檔,試圖說服微軟自研大模型,但公司選擇了扶持 OpenAI。如果留下,他認爲自己將與 AGI 絕緣。
首次開源基座模型的同時,階躍近期聯合華爲昇騰、沐曦、壁仞科技、燧原科技、天數智芯、無問芯穹、寒武紀、摩爾線程、硅基流動等近十家芯片及基礎設施廠商成立模芯生態創新聯盟。在當前國產 GPU 實際推理體驗普遍不及紙面指標的背景下,Step 3 在國產卡上有較高質量的適配表現。
在 Step 3 發佈前,我們對話了姜大昕,他談論了多模態統一的技術難度、視覺理解與生成的融合路徑、自迴歸與 diffusion 的結合趨勢。
“真正的聰明人會尊重彼此,而不是 PK 誰更厲害”
晚點:您 2023 年創立階躍之前的 16 年一直在微軟工作,從一個看起來很穩定的長期狀態到創業,這個跳躍怎麼發生的?
姜大昕:我以前就常被問,常識和推理什麼時候能實現?我原本的回答是 20 年後,但大模型讓這一切提前了 20 年。
2023 年初,我給微軟管理層寫過一份 10 頁的文檔,想自研大模型,但當時公司的選擇是優先扶持 OpenAI。如果我還留在微軟,就只能看着 AGI 跟我無關了。
晚點:創業是您自己的想法,還是來自周圍朋友的建議?
姜大昕:是我自己的想法。2022 年底我第一次用上 GPT-4,整個人被震到了。我問它 “你多大”,它告訴我今天是幾月幾號,我的訓練是哪天完成的,所以我現在多大。它不僅理解 “多大” 的意思,還能推理、能計算。
過去的 AI,不是答錯就是設定死,比如永遠說 “16 歲”。但這次我真感覺它 “懂” 了。我又問 “Can I walk in the cloud?” 它說不行,還解釋因爲雲是水蒸氣。然後又能識別出 “雲中漫步” 是比喻,這句話還不是抄的,是它自己生成的。那一刻我覺得,它不是個搜索引擎,是另一種智能。
晚點:階躍是怎麼吸引來朱亦博、張祥雨這種技術大牛的?
姜大昕:決定創業之後,我們就要找人,微軟的老同事就建議我跟張祥雨、朱亦博聊聊,看他們是不是有興趣。之前我和張祥雨交集不是很多,但我們都在微軟亞研院工作過,聽說過彼此。我們創業第一天就知道系統很重要,所以就想找朱亦博。我覺得朱亦博肯定不是被我折服,他應該是被張祥雨折服了。
晚點:階躍的核心技術研發團隊相對穩定,怎麼做到的?
姜大昕:算法、數據、系統是人工智能的三要素,我們這三方面都有最頂尖的人:朱亦博管系統,張祥雨管算法,數據是我在微軟做搜索時的同事焦斌星。三方都要頂尖,才能互相吸引,才能留得住。好的技術人才,也能吸引更多一線的人才。
晚點:這麼多聰明人在一起,對管理來說也是不小的挑戰。
姜大昕:我覺得核心是考驗 CEO 的人才審美。一般聰明人 ego 都不小,但真正聰明的人,遇到同樣聰明的人會很尊重彼此。比如祥雨說的話,斌星和亦博都會認真聽,反過來也一樣。大家更像是互補長處、勁往一處使,而不是互相 PK 誰更厲害。
“AGI 一定要有多模態”
晚點:你們有一個外號是 “多模態卷王”,幾乎每個月都發布模型。你們是怎麼保持這樣的節奏的?Step 3 你們準備了多久?
姜大昕:Step 3 我們準備了將近半年的時間,做了很多系統層面優化。階躍多模態的佈局非常完整,有圖像、視頻、音樂、語音等多條線,每條戰線都是經過幾個月或者半年的積累才產生新的迭代。如果同時看所有模態,會覺得我們發佈的節奏很快,每一兩個月就有新成果出來。
晚點:過去,行業裡有一部分從業者認爲,相對多模態,在語言上投入更多精力、算力和資源,對智能的提升更快。但你們從 2024 年初第一次亮相開始,就在講 “多模生成和理解的統一”,這背後是什麼思考?
姜大昕:區別在於大家對 AGI 的理解。如果認爲 AGI 就是圖靈測試,那確實不用多模態。GPT-4.5 號稱通過了圖靈測試,完全用符號語言定義人的智能。
如果認爲 AGI 是來類比人的智能,那一定要有多模態,因爲人的智能除了語言以外,應該是多維度的,還有應用智能、空間智能、視覺智能,這些單單通過語言是學不出來的。
同時,絕大多數應用都希望模型能看、能聽、能說,能很自然地和人類交互,能理解人所處的環境,這都會用到多模態能力。
晚點:階躍迄今發了 26 款模型,其中 20 款跟多模態相關,每個模態裡,又常常分成生成、理解不同的模型。作爲資源有限的創業公司,同時做這麼多模型是個好選擇嗎?
姜大昕:如果要做到理解生成一體化,那就得這些都做。
文本不存在生成和理解分開的問題,文本天生就是理解、生成一體化的模型:你給一篇文章,讓一個模型去做閱讀理解,這是一個典型的理解問題,它用的是 GPT 模型;你給它一個題目,讓它去生成一篇文章,這是一個生成問題,用的還是 GPT 的能力。
但是在視覺中,大家還沒有找到一個辦法能夠一體化,很難說理解和生成誰比誰更重要。在我看來,多模的路徑會和語言一樣,先去做一體化,之後做大規模的預訓練,再做推理。
視覺新趨勢是 GPT-4o,能生成吉卜力風格的圖片,很好玩,並且 GPT-4o 能夠做連續、多輪的編輯。雖然 OpenAI 沒說是怎麼做的,但我覺得是在理解生成一體化上邁進了一大步,否則做不出這個效果。
晚點:同時做多個模型,那資源、精力具體怎麼分配?
姜大昕:這對於創業公司的資源要求確實高,所以能做出這件事的公司一定不多。
我們的做法是,某段時間可能覺得某個方向比較有希望,就多放點資源,稍微衝一衝;衝到一定程度了,就看下一個。一段時間內,有領跑和陪跑。
晚點:在視覺上,實現一體化的技術路線有哪些?OpenAI 透露,GPT-4o 的文生圖能力用到了自迴歸的方法。
姜大昕:理解生成一體化,目前有兩派做法,一派是強行離散,另一派分佈模擬。
強行離散,最直接的做法就是仿照語言,強行把高維的東西映射成離散的 token,完全照語言這條路走下去。語言是一個相對來說還比較低維的離散空間,一萬多或者幾萬的維度;而視覺是高維的連續空間,非要用一個低維的離散空間(表達),那一定會有信息損失。所以目前看到的所有離散化的效果,都沒有那麼好。
先不說視頻,先說圖片,圖片是 1024×1024,比語言的維度要高很多,並且是連續的。如果我們再考慮視頻,更是複雜。
所以語言用自迴歸就可以實現了,視覺做不到,視覺的分佈太複雜。
第二種基本上就是用 diffusion 這種方法。而且一般一次分佈太複雜,沒有辦法用簡單的一次分佈去模擬它,所以大家一般用連續多次,只不過採樣的方法越來越高級。因爲 diffusion 很難去照顧到前面很長的 context,它不是一步一步來的,而是 “啪” 一下全部出去。
現在大家又回過頭來討論,這兩種做法能否結合?能不能把自迴歸和 diffusion 結合起來?這種思路近幾個月很熱。
晚點:生成、理解一體化的好處是什麼?
姜大昕:生成控制理解,理解監督生成。
比如,一個視頻里老師在黑板寫字,Sora 可以模擬手是怎麼動的,粉筆和黑板是怎樣接觸的,但是老師寫了一半停下來了,後面會寫什麼?這個部分是要理解去控制的。
反過來,我怎麼知道模型是否真的理解了。Feynman 說,“What I cannot create,I do not understand”。即除非我能生成、我能創作,否則我很難說我是真正理解。
晚點:這和語言模型的邏輯其實是一致的。
姜大昕:對,語言模型就是這樣的。語言模型不停的做 predict next token,使其能夠很好地理解,所以 GPT 的理解能力比 Bert(谷歌 2018 年提出的預訓練語言模型) 上升了不止一個數量級。我們一直在尋找視覺領域怎麼能 predict next frame。
視頻的 “frame” 是指圖片。如果是一張圖,就是 predict next patch,一組像素,但是圖片沒有太多的 context,所以很難產生像語言那樣長序列的壓縮效果,這也是爲什麼大家做很多很多圖片的預訓練,發現它並沒有很多智能。
如果真的有本事 predict next frame 做出來一小時的視頻,那很多物理規律會在 predict 過程中建模的。
晚點:從多模理解的生成統一到走向世界模型,會經歷哪些階段?
姜大昕:AGI 最終是世界模型。
模型能夠完全復刻一個世界所需要的步驟,理解、預測、執行分步。
先是模擬,predict next frame,再到探索,把動作加進去,能夠預測接下來的狀態,以及隨之而來的獎勵是什麼。它不是一個具體的數,它是一個分佈。這就是對世界模型最樸素的一個描述。
人實際上就是不停地在做預測,那世界模型也要能預測。我的手去動一個杯子之前,大腦就能模擬出推一下杯子之後可能會水灑了、杯子掉地上,然後我彎腰撿起來,這就是動作導致的 predict next state。
晚點:這個和大家講的 VLA (Vision-Language-Action)模型的關係會是什麼?
姜大昕:現在大家理解的 VLA,是做到了 predict action。但實際上我認爲 VLA 應該是給了視覺之後,有 action 的分佈,每一個 action 它會產生什麼 state,產生什麼 reward ——這才能叫 VLA。
晚點:目前視覺模型還沒做到一體化,你怎麼看這種 “先分開、再融合” 的過程?
姜大昕:現在視覺不是堵在這個點上不能往後走了。理解和生成分開,分別在往前走,但就是還沒合起來。
這兩件事情分開走也沒問題,到某一個節點,也許就水到渠成了。現在就缺一層窗戶紙,看誰能真正找到一個辦法,把它合起來。
我之前也說過,Sora 出來時我們有些失望,因爲 4V 是理解方向的,下一步應該是理解生成一體化,但是 OpenAI 出了一個生成模型。
這對我們來說有兩點啓發:一,這件事情非常難,他們也沒做出來;二,他們現在開始看兩者之間能不能互相增強。比如怎麼找到 Sora 的訓練數據?可能是拿 4V 去打標的。Sora 生成的數據,能不能再幫 4V 去做理解?我覺得 OpenAI 內部可能也做了這樣的事情。生成和理解相輔相成,可以認爲像太極一樣在轉。
晚點:多模理解生成統一,你覺得你們 2025 年會實現嗎?
姜大昕:我是期待有一個大的 jump 出來,能讓大家覺得這件事情簡單。現在大家看到了一點光,以前不敢做,現在 GPT-4o 說可以做。
有時就是這樣的,你不知道什麼時候會突然出一個什麼東西。目前我們看到的三個大的 jump,ChatGPT 算一個,Sora 算一個,o1 算一個,下一個我希望是理解生成一體化。
“將來也許所有的終端都可以變成一個 Agent”
晚點:今年冒泡鴨做了調整,躍問也更名爲階躍 AI。爲什麼會這麼調整?
姜大昕:早期我們基於當時的模型能力進行了一些產品探索。2025 年,隨着多模態和推理能力的成熟,我們產品進行收斂,聚焦 Agent 方向。“躍問” 改名爲 “階躍 AI”,意味着它從 Chat 類的產品到 Agent 能力的轉變。
晚點:你們今年重點是和手機、汽車結合智能終端 Agent ,以及滿足行業需求的垂類 Agent,爲什麼會選這兩個方向?
姜大昕:這背後的邏輯是,硬件很重要。第一,很多終端是用戶感知和體驗的延伸。比如說我們的手機,最近的一些 AI 眼鏡或者是耳機,它可以認爲是人體器官的延伸,它可以蒐集我們所處的環境,能夠幫助模型更好地理解用戶的上下文。比如 PLAUD 就是人耳的延伸,用戶帶着它到處跑,它能隨時隨地收集我們的 context,然後對信息加工,完成用戶讓它完成的任務,這是非常自然的過程。
第二,很多的智能終端設備,能幫你完成任務。比如說你過去沒法通過自然語言操作一個有很多功能的微波爐,但如果它接入多模態模型,就變成一個 Agent,你可以跟它說 “我要蒸個雞蛋”,它就會自動去做。
晚點:這種和硬件結合的 Agent,和大家今年討論的主要在 Web 端、移動端幫你做白領工作,比如 PPT、寫報告的 Agent 產品形態不太一樣?
姜大昕:什麼是 Agent?大家也沒有形成統一的定義,我也看到過有非常冗長的對於 Agent 的定義,方方面面滴水不漏。我自己喜歡簡單的描述,即 “它能夠自主地幫人類完成複雜的任務”。
咬文嚼字一下,什麼是 “自主”?一個自動,一個主動。
“自動” 是能獨立完成多步任務,儘可能少的或者不需要人類去幹預;“主動” 是能夠理解用戶的環境、理解用戶的上下文,從而主動地發起任務。比如開會時,老闆突然說了一點事先沒有準備的話題,Agent 可以默默地把所有的相關材料準備好,並且 summarize。
如果類比到人,可能我們對 Agent 更高級的期許就是 Agent 應該眼裡有活。
晚點:Agent 概念 2023 年之前就有了,爲什麼在 2024 年底至今的階段越來越受到關注?
姜大昕:要做到 “自動”,就要有相對比較長的鏈條,支撐自動完成且不出錯,需要比較強的推理能力。所以模型推理能力要達到一定的門檻,才能做這件事情。
“主動” 是理解用戶的環境、理解上下文,就少不了多模態。
那 Agent 爲什麼會在今年火爆?2024 年下半年 GPT-4 出來,多模態融合有相對比較大的進步;從 9 月份開始,OpenAI o1-Preview 出來,一直到 DeepSeek R1 出來,模型推理能力得到了非常大的提高。兩個進展出現之後,Agent 完成度和用戶滿意度會達到一個新的點。這是爲什麼大家突然覺得 Agent 可做。
晚點:回到你們對 Agent 的設想,手機、汽車、機器人,未來所有終端都會需要 AI Agent 的能力嗎?它們共享同一個 Agent 嗎?這是一個怎樣的未來?
姜大昕:Agentize every hardware,這是我自己造的詞,就是把沒有生命的、不知道怎麼跟人類交流的終端設備變成一個 Agent,變成你的夥伴。硬件本身是很長尾的,除了手機,很多家電、可穿戴設備,這些都可以變成 Agent。
我的另一個判斷是,未來還有做生態的機會,需要有一個跨設備的平臺讓人操控各類硬件。
垂類 Agent 我們是生態打法,選擇和頭部合作伙伴深度合作。比如金融領域,我們和界面財聯社成立財躍星辰,專門來做金融領域相關佈局。
晚點:你們智能終端的 Agent,更多是 2B2C(服務對接消費者的企業)模式,已經跟 OPPO、TCL、智元機器人、吉利汽車等方面合作,可以講講這麼做的邏輯嗎?
姜大昕:我們希望跟合作伙伴一起打造產品級的收入。車和手機,是現在出貨量比較大的終端,IoT 和具身是未來可能出貨量比較大的終端。我們希望和終端合作,做個性化的 AI 助手。
晚點:跟硬件廠商合作,你們現在的商業模式是什麼?收取一次性的開發、部署費用,還是按銷量獲得 license(專利授權) 費用?還是按模型調用量收費?
姜大昕:我們當前和終端的合作模式比較緊密,有多樣的收費方式,並且是可持續的。
現在還是生態演變的早期,未來整個產品平臺會有非常多演變的機會。license 未來也會探索,甚至有可能用戶訂閱了以後我們分潤。商業模式還有待探討,我們也會根據發展情況隨時調整。
晚點:手機上有很多 App,如果都被 Agent 化了,AI Agent 變成流量入口了,手機廠商樂意嗎?
姜大昕:我目前沒有答案。手機廠商、模型廠商、APP 之間生態到底怎麼合作?它們的互動方式是什麼樣的?我覺得還是需要一些時間來探索的。
晚點:手機廠商可能會怎麼想這個問題?
姜大昕:一方面手機廠商很興奮,覺得這是改變生態的機會;但另一方面他們也很剋制,因爲需要考慮改變帶來的影響。中間有個博弈的過程。
“我們 I 人天然就喜歡在二樓 watch over the balcony”
晚點:你的一天一般會怎麼度過?
姜大昕:我一般來公司比較早,8 點到 10 點半基本沒人打擾我,我會自己靜下心來看一些需要 deep think 的東西。比如論文,因爲我發覺論文不看,會影響自己的判斷。也會看一些公衆號,包括《晚點》。
等大家都來公司了,我會跟他們開會,問問進展。
晚點:你會用 AI 來幫你看論文嗎?
姜大昕:會,可以隨時隨地問。我自己也會寫一點小的 AI 工具玩一玩,比如幫我把播客扒下來轉文字,因爲我看的速度比聽的速度快很多。
我以前更多是 from books 和 paper,創業之後,現在我越來越多 from others,因爲我發現時間很少,很多事也不用那麼 deep:光我一個人 deep 也沒用;我再 deep 也 deep 不過張祥雨和朱亦博,甚至是很多一線的同學。
但我要知道得比較寬,所以我就把他們一個個喊來,給我各種各樣的 input。如果當下我沒搞懂,我可能第二天早晨花點時間 deep 一下。
晚點:你在微軟時也帶 400 多人團隊,和你現在創業帶團隊的區別是什麼?
姜大昕:大部分挺像的。跟原來不一樣的是要做很多抉擇。教員說過:“一把手只幹三件事,定方向、搭班子、帶隊伍。” 以前搭班子和帶隊伍經常做,但不需要我太多做決策,CEO 就是每天都要做決策。
晚點:做決策意味着什麼?有人說工作可以是有限責任,但是創業一開始就是無限責任。
姜大昕:我理解的做決策就是你要做什麼,不做什麼,尤其是你不做什麼。因爲太多東西你想做,你也說我們做得很多,其實那已經是我們決定了很多不做的。
晚點:有哪些是你在創業之初沒有想到,後來發現還挺難的事?
姜大昕:現在做 CEO,需要去宣傳。這是我原先不太想做,現在也不太想做的,並且我覺得我做得不是特別好。
我讀 Ph.D 時,我老闆跟我講,你怎樣才能畢業?就是你要學會 presentation,這包括兩個,一個是你要能寫 paper,第二個是你要能做 talk。
技術 talk 相對比較好講,它有一個套路。你第一件事情要說爲什麼這件事情很重要,別人纔有興趣往下聽;第二件事去說這件事情很難,還要講一個小故事,我一開始是怎麼做的,但後來發現不對,我的 insight 是什麼;最後一件事,你要說不僅我自己好,還要帶動大家一起好,所以你一定要聽我的 talk。
我是一個 well-trained 的 Ph.D,但我發現 CEO 的 presentation 和 Ph.D 的 presentation 不一樣。相同點是要講一個故事;但是 Ph.D 講的是技術的故事,CEO 要講的是商業的故事,這是不一樣的。
晚點:告訴大家爲什麼這件事很重要,倒是很像商業的 talk。
姜大昕:這兩者之間有點是通的。但是我是 I 人,現在還在適應,怎麼把商業 talk 講得更好。
晚點:這可能是 I 人要成長的地方。那 I 人做 CEO 有什麼優勢?
姜大昕:I 人的優勢是,會去 listen,會去 observe,我覺得這對一個 CEO 來說還是蠻重要的。當然也要去展示,但是在 output 之前要先有 input。
我在微軟經過一次培訓,一個觀點我印象很深,他說一個管理者的角色是 watch over the balcony。在歐洲,很多人是要在一樓的舞池裡跳舞,作爲 CEO、管理層在下面跳,一定很風光,但你看不到舞池裡誰跳得不對。你可以是全場跳得最好的人,但不要陶醉於此。
晚點:E 人更容易下場跳舞,I 人則能看到舞池裡誰跳得不對。
姜大昕:我們 I 人天然就喜歡在二樓 watch over the balcony。
題圖來源:階躍星辰