大消息!阿里萬相大模型正式開源
阿里雲,重大消息傳來。
2月25日晚間,阿里雲旗下視覺生成基座模型萬相2.1(Wan)正式開源,此次開源採用最寬鬆的Apache2.0協議,14B和1.3B兩個參數規格的全部推理代碼和權重全部開源,同時支持文生視頻和圖生視頻任務,全球開發者可在Github、HuggingFace和魔搭社區下載體驗。
阿里雲實現全模態、全尺寸大模型開源
據介紹,14B萬相模型在指令遵循、複雜運動生成、物理建模、文字視頻生成等方面表現突出,在權威評測集VBench中,萬相2.1以總分86.22%的成績大幅超越Sora、Luma、Pika等國內外模型,穩居榜首位置。1.3B版本測試結果不僅超過了更大尺寸的開源模型,甚至還接近部分閉源模型,同時能在消費級顯卡運行,僅需8.2GB顯存就可以生成高質量視頻,適用於二次模型開發和學術研究。
在算法設計上,萬相基於主流DiT架構和線性噪聲軌跡Flow Matching範式,研發了高效的因果3D VAE、可擴展的預訓練策略等。以3D VAE爲例,爲了高效支持任意長度視頻的編碼和解碼,萬相在3D VAE的因果卷積模塊中實現了特徵緩存機制,從而代替直接對長視頻端到端的編解碼過程,實現了無限長1080P視頻的高效編解碼。此外,通過將空間降採樣壓縮提前,在不損失性能的情況下進一步減少了29%的推理時內存佔用。
萬相團隊的實驗結果顯示,在運動質量、視覺質量、風格和多目標等14個主要維度和26個子維度測試中,萬相均達到了業界領先表現,並且斬獲5項第一。尤其在複雜運動和物理規律遵循上的表現上大幅提升,萬相能夠穩定展現各種複雜的人物肢體運動,如旋轉、跳躍、轉身、翻滾等;能夠精準還原碰撞、反彈、切割等複雜真實物理場景。
從2023年開始,阿里雲就堅定大模型開源路線。
自2023年8月起,阿里雲相繼開源Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型,囊括了0.5B、1.5B、3B、7B、14B、32B、72B、110B等全尺寸,大語言、多模態、數學和代碼等全模態,多次登上國內外權威榜單,已成爲全球開源社區最重要的模型系列。阿里雲千問(Qwen)衍生模型數量已超過10萬個,是全球最大的AI模型家族。
隨着萬相的開源,阿里雲實現了全模態、全尺寸大模型的開源。
值得一提的是,自2025年1月DeepSeek火爆出圈至今,開源正在成爲國內外衆多大模型的“必選項”。今年2月,字節豆包、崑崙萬維、百度文心、阿里通義千問等均推出開源模型。
投入3800億元建設雲和AI硬件基礎設施
阿里巴巴集團CEO吳泳銘在2月24日宣佈,未來三年,阿里將投入超過3800億元,用於建設雲和AI硬件基礎設施,總額超過去十年總和。這也創下中國民營企業在雲和AI硬件基礎設施建設領域有史以來最大規模投資紀錄。
阿里這筆投入發生在兩個重要時點之後。一是國內AI產業爆發;二是民營企業座談會召開。吳泳銘表示:“AI爆發遠超預期,國內科技產業方興未艾,潛力巨大。阿里巴巴將不遺餘力加速雲和AI硬件基礎設施建設,助推全行業生態發展。”
此前在2月20日,吳泳銘在財報會上表示,阿里將於近期發佈基於千問Qwen2.5-MAX的深度推理模型。1月底,阿里發佈了AI基礎大模型千問旗艦版Qwen2.5-Max,在多項權威基準評測中,處於業界領先水平。目前,Qwen的全球衍生模型已突破9萬個,全球排名第一。
2月25日,通義千問官方賬號Qwen在海外社交平臺發佈了QwQ-Max-Preview(推理模型預覽版),即將發佈QwQ-Max正式版本、可部署在本地的較小版本以及官方App QwQ-Max。
Qwen同時宣佈,即將發佈QwQ-Max的正式版本,將在Apache 2.0許可下開源QwQ-Max和 Qwen2.5-Max。此外,還將提供規模較小的版本,例如 QwQ-32B,可部署在本地設備上。另外,將在發佈官方QwQ-Max的同時發佈安卓和iOS App。
目前,阿里雲是亞洲第一的雲計算公司,阿里巴巴通義千問大模型已成爲全球頂尖的開源模型。3800億元鉅額資金繼續投入,能極大提振相關產業信心,同時也表明阿里一如既往相信未來、投資未來。