阿里發佈最新開源模型Qwen3 成本僅爲DeepSeek-R1三分之一
阿里巴巴29日凌晨發佈最新開源模型Qwen3(通義千問3),更稱成本僅爲DeepSeek-R1約三分之一。(路透)
阿里巴巴29日凌晨發佈開源新一代通義千問模型Qwen3(簡稱千問3),參數量僅爲DeepSeek-R1的1/3,成本大幅下降,同時是大陸國內首個「混合推理模型」,將「快思考」與「慢思考」集成進同一個模型,大大節省算力消耗。據官方說法,Qwen3的旗艦版本 Qwen3-235B-A22B,在代碼、數學、通用能力等基準測試中,達到了與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro同一層級水準。
據界面新聞了解,Qwen3系列模型依舊採用寬鬆的Apache2.0協定開源,並首次支持119多種語言,全球開發者、研究機構和企業均可免費在魔搭社區、HuggingFace等平臺下載模型並商用,也可以通過阿里雲百鍊調用Qwen3的API服務。個人用戶可立即通過通義APP直接體驗Qwen3,夸克也即將全線接入Qwen3。
目前,阿里通義已開源200多個模型,全球下載量超3億次,千問衍生模型數超10萬個,已超越美國Llama,成爲全球第一開源模型。
至於Qwen3 的「混合推理」具體說明上,相當於把頂尖的推理模型和非推理模型集成到同一個模型,目前據稱熱門模型中只有Qwen3、Claude3.7以及Gemini 2.5 Flash可以做到。
在「推理模式」下,Qwen3會執行更多中間步驟,如分解問題、逐步推導、驗證答案等,給出更深思熟慮的答案;在「非推理模式」下,模型會直接生成答案,讓同一個模型內能完成「快思考」與「慢思考」。這類似於人類在回答簡單問題時,憑經驗或直覺快速作答,面對複雜難題時再深思熟慮,仔細思考給出答案。
同時,Qwen3的部署成本還大幅下降,僅需4張H20即可部署Qwen3滿血版,顯存佔用僅爲性能相近模型的三分之一。