阿里公佈「通義千問3.0」並開源 稱性能超越DeepSeek-R1
▲阿里巴巴推出AI大模型通義千問3.0。(示意圖/CFP,下同)
記者魏有德/綜合報導
阿里巴巴今(29)日凌晨宣佈開源新一代通義千問模型Qwen3(千問3),包含2款參數規模分別爲30B和235B的混合專家(MoE)模型及從0.6B到32B的6款密集模型。阿里宣稱,千問3模型家族是大陸首個混合推理模組,235B模型的參數量僅爲DeepSeek-R1的三分之一,成本大幅下降,「性能全面超越R1、OpenAI-o1等全球頂尖模型。」
《澎湃新聞》報導,旗艦模型Qwen3-235B-A22B的總參數量爲235B,激活僅需22B。千問3預訓練數據量達到36T,和千問2.5相比翻了兩倍,並在後訓練階段進行多輪強化學習,將非思考模式整合到思考模型中。同時,千問3的部署成本大幅下降,僅需4張H20即可部署千問3滿血版,顯存佔用僅爲性能相近模型的三分之一。
至於在推理、指令遵循、工具調用、多語言能力等各方面的表現,千問3在AIME25測評中,以81.5分的成績刷新開源紀錄;在考察代碼能力的LiveCodeBench評測中,千問3的表現甚至超過Grok3;在評估模型人類偏好對齊的ArenaHard測評中,千問3的分數超越了OpenAI-o1和DeepSeek-R1。
千問3系列模型採用寬鬆的Apache2.0協議開源,首次支持119種多國語言,全球開發者、研究機構和企業均可免費下載模型並商用,個人用戶則可立即通過通義APP直接體驗,夸克也將全線接入千問3。