大模型下半場,階躍憑什麼領跑多模態之戰
作者丨王悅
編輯丨陳彩嫺
DeepSeek “掀桌”三個月後,國內大模型的競爭格局大致可劃分爲三大陣營:
一是以大廠爲代表的資源派,他們手握充足資本,能在基礎模型和落地應用上持續燒錢;二是以 DeepSeek 爲代表的技術派,專注於基座模型的突破和投入,在推理、數理或多模態等單點技術上見長;三是以階躍星辰、智譜爲代表的國家隊,獲得地方政府的大力支持,能夠潛心做技術積累以追求全面發展。
雖然 DeepSeek 有着明顯優勢,但三股力量都在基礎模型上發力同時又各有長處。而其中,多模態被視爲 AGI 進程中的關鍵躍遷點,逐漸成爲大模型下一階段競爭的分水嶺。現階段多模態能力突出的獨角獸公司屈指可數,有着“多模態卷王”稱號的階躍星辰作爲一個重要玩家得到了很多關注。
成立兩年的時間以來,階躍星辰累計發佈了22款自研基座模型,覆蓋文字、語音、圖像、視頻、音樂、推理等全系列,其中 16 款都是多模態模型,佔比超 7 成。
外界有一種質疑,階躍平均每個月都發布一款新模型是卷王在衝 KPI,但剖析階躍的研發條線來看就會發現,答案是否定的。多模態的每個條線都是經過了幾個月或者半年的積累才迭代出一個新的產品,這種情況下如果同時看所有模態條線,自然就形成了一兩個月就出一個新成果的局面。
和其他家不同的是,階躍從一開始就堅定地走理解生成一體化的路線,這也預判了當下 AI 發展從多模態融合到多模態理解生成一體化的趨勢,並且提前做出動作。縱觀國內大模型公司,像階躍這樣重視模態的全覆蓋、並且堅持原生多模理念的公司並不多。
階躍星辰創始人、CEO 姜大昕告訴 AI 科技評論,當下 AI 行業的技術趨勢處於非常陡峭的發展區間,追求智能的上限仍然是一件很重要的事,階躍會繼續在基礎大模型上投入,不錯過這個機會。
1、多模態是下階段基模競爭的技術決勝點
和多位階躍星辰的核心成員交流過後,AI 科技評論發現,他們對多模態的堅信、重視和緊迫程度要高於其他的大模型公司。姜大昕認爲,AGI 的終局不僅包括語言符號,還包括視覺、空間、運動智能等,因此在多模態領域的任何一個方向出現短板,都會延緩實現 AGI 的進程。
自Sora 實現視頻生成效果的突破之後,行業內視覺模型整體發展的絕對水平都較爲有限,雖然各家在不同方面各有長處,然而均在 Sora 的大框架中,未曾迎來下一個發生質變的奇點時刻。
類比 NLP 的進化過程會發現,自然語言處理經歷了從不能規模化預訓練,到 Transformer 這一 Scalable 的文本理解生成一體化架構,再到GPT-3 實現大規模文本訓練和指令跟隨的過程。而在視覺領域,這一進程甚至尚未能實現第一步——視覺理解生成一體化架構。
姜大昕也坦言,知道 Sora 的 DiT 技術路線沒有按照預期中走生成理解一體化路線時,第一反應有些期待落空。但回頭一想也有道理,因爲從多模態融合做到生成理解一體化,中間需要走的路着實很難。
多模態的複雜程度相較於語言來講要高得多。於文字而言,至多有十幾萬個 token,並且呈低維離散分佈的狀態,因此易於進行表達從而實現 next token prediction。於多模態而言,僅是一張1024×1024 的圖片就可以達到 100 萬維,且每個維度都是高維的連續空間,難以實現很好的表徵,從而無法實現 next frame prediction。
如果跟隨自然語言的發展路徑,第一步要做的就是具備一個可以 scalable 的理解生成一體化的架構,之後才能實現 predict next frame 、完成指令跟隨,迎來真正的“多模態大模型”。
而多模態大模型之所以關鍵,是因爲人、機器與世界交互的形式是多模態的,Agent、具身智能等一切進一步的人工智能實現形式都需要以多模態能力爲基礎。以智能體爲例,其實時的周圍感知就相當於長視頻,最終的目標是理解世界、預測行爲。
在理解生成一體化、統一表徵問題的基礎上,多模態大模型即可以利用海量視頻數據做視覺預訓練,再泛化到理解生成的各個視覺任務中。隨後在視覺領域引入強化學習和推理能力,再增加時空推理、3D模型、自然語言的能力,從而建模物理世界的交互,訓練能預測行爲的 VLA 模型,至此世界模型的雛形就清晰可見。“如果能實現世界模型,我眼中的 AGI 就幾乎實現了。”姜大昕告訴 AI 科技評論。
要突破視頻生成模型侷限性,光靠在現有技術水平下繼續迭代是難以解決的,必須在學習範式上有所改變,理解和生成的一體化是其中繞不開的問題。而階躍星辰從一開始,就確定了理解生成一體化的路線,採用原生多模的方式,在多模態融合技術上跑通了一條路。
當下,視覺領域的 GPT-4 時刻還遠遠未到來,但清晰可見的是多模態能力將成爲 AI 大模型下一階段基礎模型競爭的技術決勝點。階躍星辰仍然按照模擬世界——探索世界——歸納世界的節奏進行技術積累,繼續提升基礎大模型的“智能上限”和多模態能力。
2、階躍星辰的多模態競爭力解剖
行業內對階躍星辰的評價,一是低調,二是技術“數一數二”的強悍。反觀階躍星辰的技術發展路線,一直都能在火爆現象浮出水面之前,就踩在趨勢的前沿上。
半年多的時間以來,大模型技術上有兩個趨勢,一是強化學習的重要性越來越凸顯,從 o1 preview 將推理模型從趨勢變成範式,到 DeepSeek 摒棄監督微調,都說明了推理能力正在打開更大空間;二是從多模融合到多模理解生成一體化。
而在強化學習和多模態這兩個條線,階躍星辰均早有佈局。在推理模型方面,今年1月份發佈的Step R-Mini速度快、能力強,預計未來三個月左右的時間將會推出滿血版推理模型Step R1;在多模態方面,堅持走理解和生成統一路線,搭建了覆蓋圖片、視頻、語音的多模態模型矩陣。
階躍星辰之所以能對技術路線如此堅定清晰,與核心成員是密不可分的。他們親歷了過去十年 AI 發展的歷程,有着深刻的實戰經驗和技術洞察。
創始人、CEO 姜大昕出身於微軟亞洲研究院 NLP 組,近 20 年的研發經驗使他把握住了階躍基礎大模態矩陣的正確的方向;首席科學家張祥雨對多模態模型的技術架構頗有思考,參與著作的《用於圖像識別的深度殘差學習》論文(ResNet)是 21 世紀以來全球被引用次數最多的論文;系統負責人朱亦博也是 AI 系統方向的頂級專家,曾任字節跳動任 AI Infra 負責人,從零開始建設國內最大規模的 AI Infra。
除核心領軍人物之外,人才密度高也是階躍星辰的一大優勢,目前公司研發人員佔比 80% 以上,擁有多位計算機視覺和自然語言處理領域的頂尖研究員。
在過去一年左右的時間裡,階躍星辰持續領跑多模態領域,收割國內外多個權威榜單的第一名。不僅是技術的沉澱,在“超級模型加超級應用”的雙輪驅動策略中,階躍也基於自身的基礎模型矩陣優勢,差異化地尋找合適的應用形態。
而 Agent 所需要的多模態和慢思考能力,是階躍的長處所在。因此,階躍水到渠成地將智能終端 Agent 視爲大模型技術落地的核心突破點,最終形成一個從模型到 Agent,從雲側到端側的生態體系。
當下,汽車、手機、具身智能、IoT 等關鍵應用場景是階躍突破的重點。面向手機終端,階躍星辰與OPPO等手機廠商推出了“一鍵問屏”、“一鍵全能搜”功能;面向具身智能,階躍星辰與智元機器人、原力靈機達成戰略合作,共同探索 AI+具身機器人應用場景。
除了技術和應用,階躍星辰在商業化上也是實踐派。有開發者反饋,階躍多模態模型的用戶付費率最高。其中,頭部茶飲品牌茶百道全國數千家門店已經接入階躍星辰 Step-1V 多模態理解大模型,完成智能巡檢、AIGC 營銷等工作。
3、基模競爭中的關鍵一極
當前國內大模型的競爭已從“百模大戰”進入“精耕細作”階段,應用層的創新繞不過基礎模型的能力邊界,無論是複雜推理、長上下文理解,還是跨領域知識遷移,均依賴底層模型的智能上限。
多模態能力是突破智能上限的關鍵路徑——通過融合文本、圖像、音頻等多維信號,模型對世界的理解更接近人類認知範式,也更靠近 AGI。隨着 AI 技術的進一步發展可以見得,多模態能力已從“可選項”到“必爭項”。要想在下一輪競爭中取得優勢,多模態是一塊必爭之地。
身爲多模態卷王的階躍星辰,憑藉清晰的技術路線和堅定的持續投入,已經積累了多模態方面的差異化優勢。多模態能力的提升也反哺了階躍的基礎大模型矩陣,在未來可見的具身智能、世界模型等前沿方向階躍也會“近水樓臺先得月”,成爲基座大模型競爭中的關鍵一極。
雷峰網