最新全球模型盲測榜單:阿里Qwen2.5-Max超DeepSeek V3,以1332分位列全球第七名,非推理類中國大模型冠軍
格隆匯2月5日|2月4日凌晨,三方基準測試平臺Chatbot Arena公佈了最新的大模型盲測榜單,剛剛發佈的Qwen2.5-Max超越DeepSeek V3、o1-mini和Claude-3.5-Sonnet等模型,以1332分位列全球第七名,也是非推理類的中國大模型冠軍。同時,Qwen2.5-Max在數學和編程等單項能力上排名第一,在硬提示(Hard prompts)方面排名第二。
相關資訊
- ▣ AI早知道|阿里開源全新多模態模型 Qwen2.5-VL-32B;DeepSeek-V3模型發佈
- ▣ 阿里巴巴稱其新AI模型性能全球領先 超越GPT-4o、DeepSeek-V3
- ▣ 阿里即將推出基於Qwen2.5-MAX的深度推理模型
- ▣ 全球開源大模型新王!阿里Qwen2.5來了,性能跨量級超Llama3.1
- ▣ 阿里巴巴:即將推出基於Qwen2.5-MAX的深度推理模型
- ▣ 阿里吳泳銘:近期發佈基於Qwen2.5-Max的深度推理模型
- 阿里開源Qwen2.5-Coder全系列模型 助力編程新手開發各類應用
- ▣ 阿里即將推出基於Qwen2.5-MAX的深度推理模型;DeepSeek否認融資傳聞丨數智早參
- ▣ 阿里巴巴Qwen2.5-Max正式發佈 超越GPT-4o和DeepSeek-V3
- ▣ 美圖奇想大模型獲VBench榜單冠軍 阿里大模型等入選
- ▣ 中國電子雲上線DeepSeek-R1/V3全量模型
- ▣ 阿里萬相大模型登上全球開源榜首
- ▣ 阿里千問衍生模型數量破10萬 穩居全球最大開源模型榜首
- ▣ 阿里推出全新推理模型 僅1/21參數媲美DeepSeek R1
- ▣ Alibaba 發佈 Qwen 2.5-Max AI 模型,稱性能超越 DeepSeek-V3
- ▣ 阿里雲通義千問旗艦版模型Qwen2.5-Max發佈
- ▣ 阿里雲發佈通義千問旗艦版模型Qwen2.5-Max
- 贏麻了!DeepSeek超越150萬模型:成全球最受歡迎開源大模型
- LiveBench發佈最新榜單:階躍星辰Step-2位列中國大模型第一
- ▣ 阿里通義千問代碼模型Qwen2.5-Coder全系列正式開源
- ▣ 國產模型指令跟隨全球第一!來自LeCun親推的最難作弊LLM新榜單
- ▣ AI早知道|Claude推類GPTs功能Projects;阿里巴巴Qwen-2成全球開源大模型榜首
- ▣ 超越OpenAI o1! DeepSeek-R1升至全球風格控制類第一,“中國模型”震動華爾街
- ▣ 可靈2.0模型接力1.6登頂全球視頻生成大模型榜單
- ▣ 阿里通義千問大模型登頂全球開源社區榜首
- ▣ 阿里雲通義開源視覺理解模型Qwen2.5-VL
- ▣ 阿里雲通義千問推出開源Qwen2.5-1M模型
- 阿里巴巴推新一代AI模型 號稱超越DeepSeek
- ▣ 全球瞭望|日媒:DeepSeek模型以簡單方法實現高性能