☰

大模型的2025：躍過技術沉澱期

以ChatGPT爲代表的語言類大模型重塑內容生成方式時，多模態模型還在等待它的“iPhone時刻”。近日召開的2025智源大會上，智源研究院（以下簡稱“智源”）正式發佈了包括原生多模態世界模型Emu3等“悟界”大模型系列，Emu3實現了文本、圖像、視頻的任何組合理解與生成，通過單一模型就可以捕捉世界的規律。

AI發展之快，每年都有新話題，2024年，價格戰是大模型的關鍵詞，2025感到風向變了，大模型應用百花齊放，反而有種大模型發展“變慢了”的體感。事實上，市場上新舊產品同臺競技，呈現出立體、多維度的思考，多模態大模型更是如此。按照當前技術成熟度評估，視頻生成等核心能力仍處於GPT-2到GPT-3的過渡階段，與產業預期存在顯著差距。多模態模型將經歷更長的技術沉澱期，這也意味着更大的想象力空間。

技術路線未收斂

大模型爆發至今，很多時候無外乎是選對了方向，又懂得流量密碼，一個現象級產品就橫空出世了。事實上，這種選擇需要前期足夠多的思考、實踐和勇氣。

嚴格來說，Emu3是智源2024年10月發佈的多模態模型，目前智源已在訓練下一個版本。基於Emu3，智源還官宣了全球首個腦科學多模態通用基礎模型見微Brainμ。

“當前多模態大模型的學習路徑，尤其是多模態理解模型，通常是先將語言模型訓練到很強的程度，再學習其他模態信息。”智源研究院院長王仲遠向北京商報記者解釋，“這就如同先達到博士學位水平，再去接觸其他知識，在這個過程中，模型的能力可能會出現下降，從博士水平降到大學甚至高中水平。”

顯然人類的學習路線不是這樣的，從出生就開始聽聲音、跟物品和圖像交互，反而文字是在幼兒園或小學纔開始接觸的。

Emu3所謂的原生多模態大模型的原生正是如此，“是指在模型訓練初始階段，就將文字、圖像、聲音乃至腦信號等各種模態數據都納入其中進行訓練。隨着模態種類不斷增加，如何從繁雜的模態數據中篩選出最有效的信息，成爲亟待突破的技術難題”，據王仲遠介紹，這與企業選擇的技術路線存在差異。

“技術方案不夠收斂”也是Sand.ai創始人兼CEO曹越提到的多模態模型發展的第一個挑戰。

視頻生成還有提升空間

以曹越在微軟研究院、智源研究院及創立Sand.ai的經歷，他認爲過去有兩個技術進展最令人印象深刻，“一個是ChatGPT，或者說預訓練的規模化，另一個是GPT-O2和DeepSeek R2這種類型的技術，本質上是Test-time scaling（測試時縮放）”。

在他所在的視頻生成領域，“Sora的出現，讓大家意識到視頻生成的質量可以這麼高，但從技術方向看，DiT訓練方案有很大問題，核心問題就是不夠可拓展”，曹越以大語言模型舉例對比，“有點像2018年的BERT。當時核心痛點是，當訓到10B大小時，要再更大時就不會有進步了。BERT一開始有很好的生成效果，但是ChatGPT後來者居上，因爲ChatGPT可以訓1000B。這意味着在技術方案方面還有很大的技術空間，生成效果上也有很大的提升空間”。

智象未來創始人兼CEO梅濤更加直接，“目前視頻生成處於GPT-2到GPT-3的階段”。

梅濤把視頻生成問題總結爲三點，敘事性、穩定性、可控性。“要保證視頻做5分鐘和1小時是完整的故事，IP要有一致性。穩定性現在做得還可以”，談到可控性，他拿自己在北京電影學院上過的一門課“鏡頭的語言”舉例，“導演的要求非常高，第幾秒出現什麼鏡頭、人物出現什麼表情要求非常高，今天的大模型還沒有做到這一點，我們還在等待ChatGPT時刻的到來”。

商業化要兼顧兩件事

其實，不管是大語言模型還是多模態模型，數據的存量和增量、成本等一系列問題，都會限制發展，但在智譜AI CEO張鵬看來，這都是表面現象，“還有一個最瓶頸、最麻煩的地方就是商業應用”。

他進一步說，“傳統的CV（計算機視覺）模型的落地應用比較成熟，大模型在視覺理解能力得到提升，或者泛化能力更強以後，可以迅速替代和填補原來傳統的視覺模型應用領域的空白需求，無非就是成本收益比的問題。只要有市場有需求，基礎研發人員就可以把成本壓下來，形成規模化應用以後，達到商業化應用的臨界點”。

對於視頻生成來說，張鵬認爲，“基於視覺生成，這兩個事情還沒有完全統一起來。這使得我們要同時兼顧兩件事。目前這兩件事在技術角度上，沒有太好的辦法融合到一起，帶來的根本約束更大”。

梅濤創立的智象未來關注怎樣將多模態模型進行應用，幫助客戶和用戶發揮創造力，提升生產力。從2023年到2025年，他對多模態模型應用每年都有新觀察。

“2023年模型就是產品，我們做的是模型的服務，也就是PaaS（平臺即服務），到了2024年可以賣工具，工具就是SaaS（軟件即服務），我們希望做每個人都能使用的工具，後來發現工具的使用門檻比較高，特別是做影視級專業內容的需求。2025年我們再往上升級，客戶不用關心我們是怎麼做的，我們希望直接把結果交給用戶，幫用戶做增長、跟用戶分傭。”梅濤說。

根據中研普華產業研究院的數據，2024年全球多模態AI市場規模達到24億美元，年均複合增長率超過28%。預計到2025年，全球多模態大模型市場規模將達到1280億美元，2023—2025年複合增長率高達62.3%。雖有諸多挑戰，多模態大模型的未來仍是一片星辰大海。

北京商報記者魏蔚

大模型的2025：躍過技術沉澱期

相關資訊