阿里凌晨開源新模型:性能對標DeepSeek-R1,參數僅爲其1/20
3月6日凌晨3點,阿里巴巴發佈並開源全新的推理模型通義千問QwQ-32B。阿里巴巴稱,這是一款擁有320億參數的模型,其性能可與具備6710億參數(其中370億被激活)的DeepSeek-R1媲美。
據悉,QwQ-32B 在一系列基準測試中進行了評估,測試了數學推理、編程能力和通用能力,並與OpenAI的o1-mini以及DeepSeek滿血版及蒸餾版進行了比較。
在測試數學能力的AIME24評測集上,以及評估代碼能力的LiveCodeBench 中,千問 QwQ-32B表現與DeepSeek-R1相當,遠勝於o1-mini及相同尺寸的R1蒸餾模型。
在由Meta首席科學家楊立昆領銜的“最難LLMs評測榜”LiveBench、谷歌等提出的指令遵循能力IFEval評測集、由加州大學伯克利分校等提出的評估準確調用函數或工具方面的BFCL測試中,千問QwQ-32B的得分均超越了DeepSeek- R1。
官方介紹稱,這一成果突顯了將強化學習應用於經過大規模預訓練的強大基礎模型的有效性。此外,阿里團隊還在推理模型中集成了與Agent相關的能力,使其能夠在使用工具的同時進行批判性思考,並根據環境反饋調整推理過程。
除了性能上的大幅提升,QwQ-32B的另外一個亮點是大幅降低了部署使用成本,開發者和企業可以在消費級硬件上輕鬆將其部署到本地設備中。
資料顯示,從2023年至今,阿里通義團隊已開源200多款模型,包含大語言模型千問Qwen及視覺生成模型萬相Wan等兩大基模系列,覆蓋從0.5B到110B等參數,實現了全模態、全尺寸大模型的開源。
開源社區Hugging Face此前的榜單顯示,開源僅6天的阿里萬相大模型已反超DeepSeek-R1,登頂模型熱榜、模型空間榜兩大榜單,成爲近期全球開源社區最受歡迎的大模型。根據最新數據,萬相2.1(Wan2.1)在Hugging Face及魔搭社區的總下載量已超百萬,在Github的Star數超6k。
在通義千問最新推理模型發佈並開源後,阿里巴巴股價應聲大漲。隔夜美股收盤漲8.61%,報收141.03美元。截至發稿,阿里巴巴港股漲超7%。今年以來,阿里巴巴股價累計漲幅已近70%。