阿里通義千問再放大招 多模態大模型迭代 加速改寫AGI時間表
來源:21世紀經濟報道
阿里通義千問更新,再爲多模態大模型賽道添了一把火。
8月19日,通義團隊推出Qwen-Image-Edit,基於20B參數的Qwen-Image,專注於語義和外觀編輯,支持雙語文本修改、風格遷移及物體旋轉,進一步拓展了生成式AI在專業內容創作中的應用。
短短半年內,阿里連續推出Qwen2.5-VL、Qwen2.5-Omni、Qwen-Image等多模態模型,而阿里之外,智譜、階躍星辰等大模型廠商也在密集佈局,從視覺理解到全模態交互,多模態大模型在2025年明顯迭代加速。
業內普遍認爲,當前大模型的發展已經從單一的語言模型邁向了多模態融合的新階段,這是通向AGI的必經之路。
谷歌研究報告顯示,預計至2025年,全球多模態AI市場規模將飆升至24億美元,而到2037年底,這一數字更是預計將達到驚人的989億美元。
商湯科技聯合創始人、執行董事、首席科學家林達華在此前接受21世紀經濟報道記者採訪時表示,未來的多模態模型甚至能在純語言任務上超越單一語言模型,而國內廠商也在加速佈局,2025年下半年或將迎來多模態模型的全面普及。
國內廠商密集佈局
2023年12月,谷歌原生多模態Gemini 1.0模型正式上線,一舉將AI競賽由ChatGPT主導的文本領域帶入多模態領域。
人類的日常任務活動,天然涉及對文本、圖像、視頻、網頁等多模態信息的處理。從生產力工具到生產力,關鍵就在於多模態信息的輸入、處理與輸出能力。在大模型越來越強調落地應用的當下,多模態能力和低成本、強智能等特徵一樣,成爲了大模型的核心競爭點。
而大廠也早已開始了相關佈局,阿里推出的Qwen2.5系列就在逐步強化多模態能力。
2025年,阿里開源升級版視覺理解模型Qwen2.5-VL,72B版本在13項權威評測中視覺理解能力全面超越GPT-4o與Claude3.5;同期還發布了首個端到端全模態大模型Qwen2.5-Omni,支持文本、圖像、音頻、視頻的實時交互,可部署於手機等終端智能硬件。
8月,阿里又開源全新的文生圖模型Qwen-Image,當天即登上AI開源社區Hugging Face的模型榜單首位,成爲全球熱度最高的開源模型。
此次發佈的Qwen-Image-Edit是基於20B的Qwen-Image模型進一步訓練,將Qwen-Image的文本渲染能力延展至圖像編輯領域,實現了對圖片中文字的精準編輯。
此外,Qwen-Image-Edit將輸入圖像同時輸入到Qwen2.5-VL(實現視覺語義控制)和VAE Encoder(實現視覺外觀控制),從而兼具語義與外觀的雙重編輯能力。
業內評價稱,Qwen-Image-Edit在中文圖像編輯領域樹立了新標杆,尤其適合需要高精度文本修改和創意設計的場景,可以進一步降低專業圖像創作門檻。
積極佈局多模態能力的廠商不只一家,近期模型迭代的速度也越來越快。
世界人工智能大會前夕,階躍星辰發佈了新一代基礎大模型Step 3,原生支持多模態推理,具備視覺感知和複雜推理能力。階躍星辰Step系列基座模型矩陣中,多模態模型的佔比達7成。此外,階躍星辰還連續開源語音、視頻生成、圖像編輯等多個多模態大模型。
同樣是在人工智能大會上,商湯發佈了日日新V6.5大模型,進行了模型架構改進和成本優化,多模態推理與交互性能大幅提升。商湯從日日新6.0開始,就沒有語言模型單獨的存在,全部都是多模態模型。
8月,智譜也宣佈推出開源視覺推理模型GLM-4.5V,並同步在魔搭社區與Hugging Face開源,涵蓋圖像、視頻、文檔理解以及GUIAgent等常見任務。
8月11日至15日,崑崙萬維則在一週內連續發佈了六款多模態模型,覆蓋了數字人生成、世界模擬、統一多模態理解等核心場景。
這些全方位的開源攻勢明顯旨在快速佔領開發者心智,建立各自產品在多模態領域的全面影響力。在當下這個節點,多模態的競爭還不算太晚。
仍處於發展初期
如果想要構建通用人工智能(AGI)和強大的AI系統,多模態的能力必不可少。
“從智能的本質來說,需要對各種模態的信息進行跨模態的關聯。”林達華向21世紀經濟報道記者表示。
在這方面,中國科技公司速度很快。一個顯著的變化是,中國企業在多模態領域的集體崛起已經改變了長期以來由OpenAI、Google等西方巨頭主導的AI創新敘事,在視覺推理、視頻生成等多個細分領域排在權威榜單的前列。
技術推進加速落地應用。2025年被業內人士普遍視爲“AI應用商業化元年”,而多模態技術正是這一趨勢的核心驅動力,數字人直播、醫療診斷、金融分析等等場景已經有多模態大模型應用其中。
但從技術的角度來看,多模態領域還有很大的發展空間,尤其是對比文本領域。
“當前文本領域已從GPT範式的1.0走到了強化學習範式下的2.0,部分研究者已開始探索下一代範式如自主學習。相比之下,多模態領域仍處於發展初期,諸多基礎性問題尚未解決。”階躍星辰創始人、CEO姜大昕向21世紀經濟報道記者表示,“這些挑戰不僅存在於國內研究,國際領先模型同樣未能攻克。”
多模態技術面臨的瓶頸,其複雜性遠超自然語言處理。首先,在表徵複雜度方面,文本作爲離散符號系統,其表徵空間通常僅爲數萬維度,這對計算機處理而言屬於低維問題。而視覺數據以1024×1024分辨率的圖像爲例,其表徵空間即達到百萬維度的連續空間,兩者在表徵難度上存在本質差異。
其次,在語義閉環性方面,文本系統具有天然的語義自閉環特性,其語義表達與表徵空間完全統一。相比之下,視覺數據作爲自然存在的物理空間表徵,其本身並不包含語義信息。要實現視覺與文本語義空間的對齊,必須建立跨模態的映射關係,而這一映射缺乏天然的標註數據支持。
“這些導致了多模態領域的發展還是面臨非常大的挑戰,還是需要幾次像ChatGPT、強化學習範式這樣的大技術變遷才能解決。”姜大昕向記者表示。
此外,雖然很多模型已經在具體場景中實現落地應用,但距離真正實現AGI還有較爲漫長的路要走。
主流的多模態模型通過視覺編碼器與語言模型的前後結合,但是後續的思考推理過程還是主要依賴純語言的推理,因此,當前多模態模型對於圖形和空間結構的推理能力還很薄弱。林達華向記者舉例稱,國際頂尖多模態模型,在面對諸如積木拼接等簡單空間問題時,也無法準確判斷積木的組成數量以及各部分之間的連接關係,而這些問題對於幾歲的兒童來說卻是輕而易舉的。
“這表明當前多模態模型的思維方式主要依賴於邏輯推理,缺乏較強的空間感知能力。若這一問題得不到突破,未來將成爲具身智能落地的重要障礙。”林達華向記者表示。
隨着技術不斷成熟和生態持續完善,多模態能力將成爲AI系統的標配,而如何將這種能力轉化爲實際生產力和社會價值,將是產業界下一步需要重點探索的方向。
(作者:董靜怡 編輯:包芳鳴)