賽道Hyper | 追平全球頂級:千問3推理模型開源

作者:周源/華爾街見聞

7月25日,阿里巴巴開源千問3推理模型。

這是千問系列中首個採用混合專家MoE(Mixture of Experts)架構的代碼模型,總參數達480B(4800億),原生支持256K token的上下文,可擴展至1M長度,能幫助程序員完美完成寫代碼、補全代碼等基礎編程任務,大幅提升編程工作效率。

混合專家模型(MoE)是一種高效的神經網絡架構設計,核心思想是通過分工協作提升模型性能,同時控制計算成本,尤其在大模型參數規模突破千億、萬億級後,成爲平衡性能與效率的關鍵技術。

簡單說,MoE架構就像一個智能團隊:有很多專業分工的成員(專家),但每次任務只讓最適合的幾個人幹活(門控調度),既保證了效率,又能應對更復雜的需求。

據公開消息稱,該模型性能提升顯著,在知識儲備、編程能力、數學運算等關鍵維度,與Gemini-2.5 pro、o4-mini等全球頂級閉源模型水平相當。

在7月21日至7月25日期間,阿里連續開源3款重要模型,成就斐然,在基礎模型、編程模型、推理模型領域均獲全球開源冠軍。

這一系列動作不僅讓技術開發者投入研究,也讓企業決策者關注這些技術成果在實際業務中的應用,其落地可能對AI領域技術應用格局產生積極影響。

通義千問3旗艦模型發佈後,通義團隊持續優化推理能力。

新開源的千問3推理模型支持256K上下文長度,這一特性使其能輕鬆處理長篇文檔和多輪對話,避免關鍵信息丟失。

在知識測評((SuperGPQA)、編程能力測評(LiveCodeBench v6)等測試中,表現接近頂尖閉源模型,在開源模型中處於前列。

相比前代模型,該模型的複雜問題拆解分析、流暢度和精準度均有明顯提升:比如在處理多步驟邏輯推理題時,能更清晰地呈現推理過程。

在此期間開源的Qwen3-235B-A22B-Instruct-2507(非思考版)性能提升明顯,在GPQA知識測評、AIME25數學測評等涵蓋多能力維度的測試中,成績超過Claude4(Non-thinking)等閉源模型。

這些測試從知識覆蓋範圍、數學邏輯運算、代碼編寫準確性等多個角度,全面衡量模型的綜合能力。

AI研究機構Artificial Analysis經測試數據對比,評價新開源的千問3模型“在非思考基礎模型中表現突出”,這一評價基於模型在各項指標上的具體表現得出。

AI編程領域的Qwen3-Coder,在多語言SWE-bench等測試中表現超過GPT4.1和Claude4,成功登頂HuggingFace模型總榜。

該榜單綜合模型下載量、使用頻率、用戶評分等多方面數據排名,在行業內認可度較高。

從實際應用來看,程序員藉助它生成基礎品牌官網最快僅需5分鐘,剛入行的程序員一天就能完成資深程序員一週的工作。

截至目前,阿里巴巴已開源300餘款通義大模型,衍生模型數量超過14萬個,超過Meta的Llama系列,成爲規模巨大的開源模型家族,在開發者和企業中被廣泛使用。

這些衍生模型經全球開發者根據不同場景微調,應用於教育、金融、醫療等多個行業,比如教育領域的衍生模型可輔助教師生成個性化習題,金融領域的模型能做簡單的風險評估。

據海外知名模型API聚合平臺OpenRouter數據顯示,阿里千問API調用量暴漲,截至7月25日,在過去數天內調用API規模已突破1000億Tokens,在OpenRouter趨勢榜上包攬全球前三,是當下最熱門的模型。

這一數據反映出模型的受歡迎程度,尤其受到中小型開發團隊青睞,因爲其開源屬性降低了使用成本,同時性能能滿足項目需求。

阿里開源模型允許中國企業免費商用,這一政策降低了中小企業應用AI技術的門檻,讓更多企業能享受到技術紅利;同時向美國、法國、德國等國家的企業開放,助力欠發達國家獲得本土衍生模型,豐富了AI開源社區的多樣性,推動技術在全球範圍內普及。

華爾街見聞注意到,企業落地AI時,往往將模型與雲產品打包採購。

比如電商企業使用通義千問模型做客戶服務智能回覆時,會配套採購阿里雲的數據庫存儲客戶信息,以及阿里雲的安全服務保障數據安全,形成生態閉環。

這種模式提升了阿里雲產品的使用深度與客戶關聯度,增強了客戶粘性。

當前,部分組織將AI工作負載遷移至雲端,已部署雲架構的企業也在積極將AI能力融入自身系統,這帶來了對GPU資源、IaaS服務(基礎設施即服務:Infrastructure as a Service)的持續需求。

千問3系列模型的良好表現,將助力阿里雲吸引更多客戶,促進公有云業務發展,尤其是在需要強大AI算力支持的領域。

千問3推理模型在開源模型中表現突出,源於通義團隊對技術架構和算法的持續優化。

256K上下文長度使其在處理長文本任務時優勢明顯:在法律行業,能輔助審查長篇合同,精準提煉條款、權責劃分與風險點,減少人工審查的疏漏;在科研領域,可快速抓取學術論文的研究背景、實驗方法和核心結論,幫助研究人員節省閱讀時間;在知識問答、代碼生成等場景,其表現接近頂尖閉源模型。

Qwen3-235B-A22B-Instruct-2507(非思考版)的性能提升,得益於訓練技術的改進。

關於這個模型的名稱:“Qwen”是阿里千問的英文標識,“3”代表該模型屬於千問系列的第3代版本,用於區分早期的Qwen1和Qwen2版本;“235B”即參數規模爲2350億;“A22B”通常與模型架構、訓練配置或硬件適配相關(不同廠商的命名規則可能有差異)。

“Instruct”表示模型類型是“指令微調模型”(Instruct-tuned Model)。這類模型在預訓練後,會通過人類指令數據進一步微調,更擅長理解和執行用戶的自然語言指令(如“寫一段代碼”或“總結文檔”),而非單純的文本續寫,實用性更強。

“2507”應該是版本日期或迭代編號,這裡可能指“2025年7月”(或類似的內部版本時間),用於區分同一基礎模型的不同迭代版本(比如修復了某些問題、優化了特定任務性能的更新版)。

這個模型在預訓練階段使用的36T tokens數據集,涵蓋書籍、代碼庫等多種類型,保障了知識的廣度與深度,使模型能應對不同領域的知識查詢;後訓練通過多輪強化學習,整合非思考與思考模型,優化了綜合性能,讓模型在處理不同類型任務時更靈活。

Qwen3-Coder在代碼能力上的突破,來自改進的Transformer架構和優化的Agent調用流程。

其中,改進的Transformer架構提升了編程需求理解精度,當開發者輸入“編寫一個用戶註冊的後端接口”指令時,能準確把握接口需要實現的功能和參數要求;優化的Agent調用流程提高了工具調用效率,在需要調用外部代碼庫時,能更快速地完成匹配與調用,使其在多語言測試中領先,登頂HuggingFace榜單。

從生態角度看,Qwen3-Coder吸引了大量二次開發:開發者爲其添加特定行業代碼庫,使其在金融科技領域能生成更符合行業規範的代碼;還有開發者優化其響應速度,讓它更適用於實時性要求高的在線編程場景。

目前,300餘款通義大模型及14萬個衍生模型,在科研、教育等行業廣泛應用,推動AI技術從實驗室走向實際生產生活,爲各行業更高的效率提升。