AI再突破!阿里巴巴通義千問發表Qwen3-Next 模型 訓練成本大降9成

Qwen3-Next針對大模型在上下文長度和總參數兩方面不斷擴展(Scaling)的未來趨勢而設計,採用全新的高稀疏MoE架構,並對經典Transformer核心組件進行重構,創新採用線性注意力和自研門控注意力結合的混合注意力機制,實現模型訓練和推理的雙重性價比突破。

基於這一新架構,阿里通義「打樣」了Qwen3-Next-80B-A3B系列模型,開源指令(Instruct)和推理(Thinking)兩大模型版本。新模型總參數80B僅啓動3B,性能可媲美千問3旗艦版235B模型,模型計算效率大幅提升。

華爾街見聞提到,網友對阿里新模型的架構非常讚賞。阿里巴巴美股11日收盤大漲近9%,創近4年新高。其港股12日則漲逾5%,收報港幣150.8元。