對話姜大昕:AGI實現路徑清晰了,世界模型不遠了

出品|本站科技《AGI對話》欄目

作者|丁廣勝

大模型進化路線持續分野,階躍星辰追求AGI的決心反而更加堅定。

成立於2023年4月的階躍星辰剛剛過完兩歲生日,模型發佈頻率和產業落地探索正在前所未有地加速。

階躍星辰累計發佈了22款自研基座模型,覆蓋文字、語音、圖像、視頻、音樂、推理等全系列。其中,16款是多模態模型,佔比七成。目前仍然保持“月更”狀態。

階躍星辰創始人、CEO姜大昕說,追求智能的上限仍然是當下最重要的一件事。

姜大昕的目標是堅決探索通往AGI,且多模態是實現AGI的必由路徑。他把模型演進路線圖劃分爲三個階段,即模擬世界—探索世界—歸納世界。

首先,模擬世界的訓練範式是模仿學習,核心是學習海量互聯網數據;其次,探索世界是追求“系統二”的能力,實現慢思考;其三,智能的盡頭是歸納世界,機器能夠自主學習、主動發現人類尚未發現的物理規律。

姜大昕還特別強調從多模態融合走向多模態理解生成一體化,因爲“在多模態領域任何一個方向出現短板,都會延緩實現 AGI 的進程。”

在國內大模型公司裡,像這樣重視模態全覆蓋,並且堅持原生多模理念的公司並不多。這被視爲階躍星辰的獨特優勢。

“我們需要 AI 能聽、能看、能說,這樣它才能更好地理解用戶所處的環境,並且和用戶進行更爲自然的交流。目前的大模型公司有能力去全面自研預訓練模型,並構成模型矩陣的,即使是大公司也不多,更不用說是初創公司了,這是階躍星辰的一個特色,也是我們的優勢。”

多模態模型的兩大趨勢

強調多模型理解生成的階躍星辰,是這麼想也是這麼做的,不斷探索模型能力的同時加速落地驗證。

第一是預訓練加上強化學習,激發模型推理的時候產生長思維鏈,極大地提高模型的推理能力。

姜大昕說,推理模型已經從趨勢變成了範式。

階躍星辰在今年1月份發佈了一款推理模型 Step R-Mini,“它的速度很快,推理能力挺強,超出了當時的 o1的 preview 的版本,我們預計在未來的三個月內發佈滿血版的 Step-R1。”

第二個趨勢是多模態理解生成一體化,也就是如何把推理引入到多模態領域。

姜大昕舉一個例子,有一張足球比賽現場的圖片,一般視覺理解是訓練時看到過類似的圖,然後給出結果。而加了推理的視覺模型可以根據圖片中的廣告牌、球衣顏色等更多特徵信息給出更準確的答案。

這樣的探索已經延伸到短劇領域。“現在短劇最卡脖子、最瓶頸的地方不是短劇生產,而是短劇審覈。因爲全部需要人工審覈,效率非常低,用了階躍星辰的模型後審覈效率從原來的90天可以變成一個星期。”

姜大昕還進一步解釋了“多模理解生成一體化”路線的正確性:

爲什麼要做理解和生成?因爲生成的內容需要理解來控制,爲了保證生成的內容有意義,即生成需要理解來控制。反過來,理解需要生成來監督。但他也表示,從整個行業看,這個路線還有卡點和挑戰。

“到現在爲止計算機視覺做了幾十年,不幸的是這個問題(視覺理解生成一體化)仍然沒有被解決。”姜大昕表示,理解生成一體化是整個計算機視覺需要突破的一個堡壘。

AGI的實現路徑清晰了

何時能實現世界模型,姜大昕眼中的 AGI 就實現了,他近期感受最深的一點是,路線越來越清晰了。

他回顧技術發展路線說,2017年transformer 架構對業界最大的意義在於它是一個 scalable(可擴展) 的文本的理解生成一體化的架構。

在那之前, LSTM(長短期記憶網絡)或者RNN循環神經網絡或者其他模型都不能 scalable。正因爲有了這個 scalable 的架構以後,到了2020年 GPT-3來了,GPT-3的意義在於我們第一次把海量的互聯網數據放到了這個 scalable 的架構上,可以讓它用一個模型去處理所有 NLP 的任務。但那個時候它需要一些例子,然後它用一個模型來告訴你要怎麼做。

再往前一步,到了2022年 ChatGPT來了,就是在預訓練模型的基礎上再加上指令跟隨,這是 GPT-3.5做的事情,到了 GPT-4的時候這個能力進一步增強,所以我們經常談到 "GPT-4時刻",指的就是在這個模態上,模型真正能達到跟人的智能差不多的水平。

到目前爲止,語言模型的技術路線基本上收斂了,沒有出現別的分支,不管是 OpenAI 也好、Google 也好、Anthropic 也好,或者國內任何的公司,語言模型都在朝着這條路往下走。

姜大昕相信,視覺也是可以 follow 同樣的路線。

“如果我能夠用海量的視頻去做預訓練,它能 predict next frame (預測下一幀)以後,然後類似語言模型一樣加各種指令,讓它去預測,再往後做推理,如果能做到時空推理、加上3D 、再加上自然語言學習,那就是世界模型了。”

而世界模型,就是姜大昕眼中AGI的模樣。而挑戰正在於此,這件事的原點就是徹底地解決理解生成一體化。

姜大昕斷言,這個問題一旦突破以後,今後的道路會非常順暢,視頻就會和文本一起發展到世界模型。直到抵達AGI。

智能體將從數字走向物理

2025年是Agent 元年,姜大昕總結了兩個之所以爆發的條件,一個是多模態的能力,一個是慢思考的能力,這兩個能力恰好在2024年的時候取得了突破性進展。

階躍星辰的發力方向是智能終端 Agent,並在此投入重兵。

姜大昕認爲,終端是用戶感知和體驗的延伸,而且它能幫你完成任務。這是階躍星辰選擇這個賽道的原因。

目前傾注精力的有四個方向,一個是與OPPO等廠商合作的AI手機賽道。一個是和吉利汽車、千里科技合作的智能汽車賽道。一個是和TCL等廠商合作的IoT設備領域。一個是具身智能領域。

階躍星辰正在具身智能領域投注精力,與智元機器人和原力靈機機器人合作,其中階躍的多模態大模型是機器人的大腦,以感知、理解這個世界。未來目標是實現視覺的泛化、機器人的泛化。

在家庭場景,姜大昕還描繪了這樣一幅場景,在未來,大家不需要了解微波爐的功能,不需要去研究每個功能怎麼使用,把雞蛋放進去,給出指令即可。也不需要知道如何設定,這就是智能終端。家庭場景的想象力大有可爲。

姜大昕用三點來概括階躍星辰的發展藍圖。

第一,堅持基礎大模型研發,追求 AGI 不會改變。第二,階躍差異化的特點就是多模態的能力。第三,在智能終端 Agent 方向上發力,最終形成從模型到 Agent,從雲側到端側的生態體系。

在Agent 元年,姜大昕希望有所堅持,有所選擇。擺在他們眼前的任務,是讓智能體從數字世界走向物理世界。