大模型的2025:躍過技術沉澱期
以ChatGPT爲代表的語言類大模型重塑內容生成方式時,多模態模型還在等待它的“iPhone時刻”。近日召開的2025智源大會上,智源研究院(以下簡稱“智源”)正式發佈了包括原生多模態世界模型Emu3等“悟界”大模型系列,Emu3實現了文本、圖像、視頻的任何組合理解與生成,通過單一模型就可以捕捉世界的規律。
AI發展之快,每年都有新話題,2024年,價格戰是大模型的關鍵詞,2025感到風向變了,大模型應用百花齊放,反而有種大模型發展“變慢了”的體感。事實上,市場上新舊產品同臺競技,呈現出立體、多維度的思考,多模態大模型更是如此。按照當前技術成熟度評估,視頻生成等核心能力仍處於GPT-2到GPT-3的過渡階段,與產業預期存在顯著差距。多模態模型將經歷更長的技術沉澱期,這也意味着更大的想象力空間。
技術路線未收斂
大模型爆發至今,很多時候無外乎是選對了方向,又懂得流量密碼,一個現象級產品就橫空出世了。事實上,這種選擇需要前期足夠多的思考、實踐和勇氣。
嚴格來說,Emu3是智源2024年10月發佈的多模態模型,目前智源已在訓練下一個版本。基於Emu3,智源還官宣了全球首個腦科學多模態通用基礎模型見微Brainμ。
“當前多模態大模型的學習路徑,尤其是多模態理解模型,通常是先將語言模型訓練到很強的程度,再學習其他模態信息。”智源研究院院長王仲遠向北京商報記者解釋,“這就如同先達到博士學位水平,再去接觸其他知識,在這個過程中,模型的能力可能會出現下降,從博士水平降到大學甚至高中水平。”
顯然人類的學習路線不是這樣的,從出生就開始聽聲音、跟物品和圖像交互,反而文字是在幼兒園或小學纔開始接觸的。
Emu3所謂的原生多模態大模型的原生正是如此,“是指在模型訓練初始階段,就將文字、圖像、聲音乃至腦信號等各種模態數據都納入其中進行訓練。隨着模態種類不斷增加,如何從繁雜的模態數據中篩選出最有效的信息,成爲亟待突破的技術難題”,據王仲遠介紹,這與企業選擇的技術路線存在差異。
“技術方案不夠收斂”也是Sand.ai創始人兼CEO曹越提到的多模態模型發展的第一個挑戰。
視頻生成還有提升空間
以曹越在微軟研究院、智源研究院及創立Sand.ai的經歷,他認爲過去有兩個技術進展最令人印象深刻,“一個是ChatGPT,或者說預訓練的規模化,另一個是GPT-O2和DeepSeek R2這種類型的技術,本質上是Test-time scaling(測試時縮放)”。
在他所在的視頻生成領域,“Sora的出現,讓大家意識到視頻生成的質量可以這麼高,但從技術方向看,DiT訓練方案有很大問題,核心問題就是不夠可拓展”,曹越以大語言模型舉例對比,“有點像2018年的BERT。當時核心痛點是,當訓到10B大小時,要再更大時就不會有進步了。BERT一開始有很好的生成效果,但是ChatGPT後來者居上,因爲ChatGPT可以訓1000B。這意味着在技術方案方面還有很大的技術空間,生成效果上也有很大的提升空間”。
智象未來創始人兼CEO梅濤更加直接,“目前視頻生成處於GPT-2到GPT-3的階段”。
梅濤把視頻生成問題總結爲三點,敘事性、穩定性、可控性。“要保證視頻做5分鐘和1小時是完整的故事,IP要有一致性。穩定性現在做得還可以”,談到可控性,他拿自己在北京電影學院上過的一門課“鏡頭的語言”舉例,“導演的要求非常高,第幾秒出現什麼鏡頭、人物出現什麼表情要求非常高,今天的大模型還沒有做到這一點,我們還在等待ChatGPT時刻的到來”。
商業化要兼顧兩件事
其實,不管是大語言模型還是多模態模型,數據的存量和增量、成本等一系列問題,都會限制發展,但在智譜AI CEO張鵬看來,這都是表面現象,“還有一個最瓶頸、最麻煩的地方就是商業應用”。
他進一步說,“傳統的CV(計算機視覺)模型的落地應用比較成熟,大模型在視覺理解能力得到提升,或者泛化能力更強以後,可以迅速替代和填補原來傳統的視覺模型應用領域的空白需求,無非就是成本收益比的問題。只要有市場有需求,基礎研發人員就可以把成本壓下來,形成規模化應用以後,達到商業化應用的臨界點”。
對於視頻生成來說,張鵬認爲,“基於視覺生成,這兩個事情還沒有完全統一起來。這使得我們要同時兼顧兩件事。目前這兩件事在技術角度上,沒有太好的辦法融合到一起,帶來的根本約束更大”。
梅濤創立的智象未來關注怎樣將多模態模型進行應用,幫助客戶和用戶發揮創造力,提升生產力。從2023年到2025年,他對多模態模型應用每年都有新觀察。
“2023年模型就是產品,我們做的是模型的服務,也就是PaaS(平臺即服務),到了2024年可以賣工具,工具就是SaaS(軟件即服務),我們希望做每個人都能使用的工具,後來發現工具的使用門檻比較高,特別是做影視級專業內容的需求。2025年我們再往上升級,客戶不用關心我們是怎麼做的,我們希望直接把結果交給用戶,幫用戶做增長、跟用戶分傭。”梅濤說。
根據中研普華產業研究院的數據,2024年全球多模態AI市場規模達到24億美元,年均複合增長率超過28%。預計到2025年,全球多模態大模型市場規模將達到1280億美元,2023—2025年複合增長率高達62.3%。雖有諸多挑戰,多模態大模型的未來仍是一片星辰大海。
北京商報記者 魏蔚