阿里雲Qwen3升級 號稱“全面超越Kimi與DeepSeek”
【億邦原創】7月21日凌晨,阿里雲通義千問團隊發佈了一則震撼AI圈的消息——其旗艦模型Qwen3的重大升級版本Qwen3-235B-A22B-Instruct-2507-FP8正式推出。阿里雲表示,這款新模型在多項關鍵指標上全面超越了當前頂尖的Kimi-K2、DeepSeek-V3等開源模型,甚至優於Claude-Opus4-Non-thinking等閉源系統。
本次升級最核心的技術變革是阿里雲告別了此前的混合思考模式,轉而採用分離訓練策略。這一戰略轉變意味着:快思考模型(本次發佈的Instruct版本)專注於即時響應,優化指令遵循和知識檢索。慢思考模型(即將推出的Thinking版本)專攻深度推理,解決複雜問題。
在技術架構上,本次升級上下文窗口擴展至256K tokens,較前代提升300%,極大地增強了模型對長文本的理解能力。採用FP8混合精度計算框架,在保持推理精度的同時降低40%顯存佔用,顯著提升了模型的效率和可擴展性。同時引入分層知識蒸餾技術,壓縮模型體積18%,進一步優化了模型的性能。
在用戶體驗方面,模型在多語言的長尾知識覆蓋方面取得顯著進步,能夠更好地支持全球用戶的需求。在主觀及開放性任務中,模型顯著增強了對用戶偏好的契合能力,能夠提供更有用的回覆,生成更高質量的文本。長文本處理能力提升到256K,上下文理解能力進一步增強,使得模型在處理複雜任務時表現更加出色。
延續阿里一貫的開源戰略,新版Qwen3模型已在魔搭社區和Hugging Face平臺全面開源,提供完整的API接口和微調工具鏈。阿里雲團隊在發佈消息時留下了一句話:“還有大招,馬上就要來了!”這表明專注於複雜推理的“Thinking”模型可能已經在路上。