☰

最新全球模型盲測榜單：阿里Qwen2.5-Max超DeepSeek V3，以1332分位列全球第七名，非推理類中國大模型冠軍

格隆匯2月5日｜2月4日凌晨，三方基準測試平臺Chatbot Arena公佈了最新的大模型盲測榜單，剛剛發佈的Qwen2.5-Max超越DeepSeek V3、o1-mini和Claude-3.5-Sonnet等模型，以1332分位列全球第七名，也是非推理類的中國大模型冠軍。同時，Qwen2.5-Max在數學和編程等單項能力上排名第一，在硬提示(Hard prompts)方面排名第二。

相關資訊

▣ AI早知道｜阿里開源全新多模態模型 Qwen2.5-VL-32B；DeepSeek-V3模型發佈
▣ 阿里巴巴稱其新AI模型性能全球領先超越GPT-4o、DeepSeek-V3
▣ 阿里即將推出基於Qwen2.5-MAX的深度推理模型
▣ 全球開源大模型新王！阿里Qwen2.5來了，性能跨量級超Llama3.1
▣ 阿里巴巴：即將推出基於Qwen2.5-MAX的深度推理模型
▣ 阿里吳泳銘：近期發佈基於Qwen2.5-Max的深度推理模型
阿里開源Qwen2.5-Coder全系列模型助力編程新手開發各類應用
▣ 阿里巴巴Qwen2.5-Max正式發佈超越GPT-4o和DeepSeek-V3
▣ 阿里即將推出基於Qwen2.5-MAX的深度推理模型；DeepSeek否認融資傳聞丨數智早參
▣ 美圖奇想大模型獲VBench榜單冠軍阿里大模型等入選
▣ 中國電子雲上線DeepSeek-R1/V3全量模型
▣ 阿里萬相大模型登上全球開源榜首
▣ 阿里千問衍生模型數量破10萬穩居全球最大開源模型榜首
▣ 阿里推出全新推理模型僅1/21參數媲美DeepSeek R1
▣ Alibaba 發佈 Qwen 2.5-Max AI 模型，稱性能超越 DeepSeek-V3
▣ 阿里雲通義千問旗艦版模型Qwen2.5-Max發佈
▣ 阿里雲發佈通義千問旗艦版模型Qwen2.5-Max
贏麻了！DeepSeek超越150萬模型：成全球最受歡迎開源大模型
▣ 阿里通義千問代碼模型Qwen2.5-Coder全系列正式開源
LiveBench發佈最新榜單：階躍星辰Step-2位列中國大模型第一
▣ 國產模型指令跟隨全球第一！來自LeCun親推的最難作弊LLM新榜單
▣ AI早知道｜Claude推類GPTs功能Projects；阿里巴巴Qwen-2成全球開源大模型榜首
▣ 阿里雲通義千問Qwen3旗艦版模型宣佈更新性能超DeepSeek-V3等頂級開源模型
▣ 超越OpenAI o1! DeepSeek-R1升至全球風格控制類第一，“中國模型”震動華爾街
▣ 可靈2.0模型接力1.6登頂全球視頻生成大模型榜單
中國AI崛起大模型數量冠全球
▣ 阿里通義千問大模型登頂全球開源社區榜首
▣ 阿里雲通義開源視覺理解模型Qwen2.5-VL
▣ 阿里雲通義千問推出開源Qwen2.5-1M模型

DMCA | PRIVACY | s@bg3.co