OpenAI宣佈推出AI Agent評測基準PaperBench
當地時間4月2日,美國開放人工智能研究中心(OpenAI)宣佈推出PaperBench——一個評估AI智能體復現前沿AI研究能力的基準。智能體需從零開始復現20篇ICML 2024 Spotlight和Oral論文,包括理解論文貢獻、開發代碼庫併成功執行實驗。據介紹,在PaperBench上測試多個前沿模型後發現,表現最佳的智能體Claude 3.5 Sonnet(新版)結合開源框架,平均復現得分爲21.0%。最終其招募頂尖機器學習博士嘗試部分測試集,發現上述模型表現尚未超越人類基線。
相關資訊
- ▣ OpenAI推出代碼生成評估基準
- ▣ OpenAI準備推出“AI版Office”
- ▣ OpenAI擬推月費2萬美元的AI Agent
- ▣ OpenAI 推出 SWE-bench Verified 基準,更準確評估代碼生成表現
- ▣ OpenAI憋新大招:將推AI Agent,會操控電腦
- 推動「民主AI」!OpenAI宣佈新計畫 協助各國打造AI基礎設施
- ▣ Monica.im發佈通用型AI Agent“Manus” 性能或超越OpenAI
- ▣ 稀宇科技推出AI Agent產品MiniMax Agent
- ▣ OpenAI 公司推出 MLE-bench 新基準
- ▣ OpenAI發佈一個全新基於雲端的代碼Agent
- 超OpenAI? 陸團隊發布通用型AI Agent產品Manus爆紅
- ▣ OpenAI資助AI數學基準測試引發公正性質疑
- ▣ OpenAI宣佈推出o3和o3 mini推理模型
- ▣ OpenAI推出MCP服務,Agent SDK迎來重要升級
- ▣ 紅杉中國正式開源AI基準測試xbench評測集
- ▣ 中國團隊發佈通用型AI Agent產品Manus,性能超越OpenAI
- ▣ OpenAI宣佈推出名爲canvas的新界面
- ▣ OpenAI計劃下週一宣佈推出AI搜索產品,與谷歌展開競爭
- ▣ Kimi首個Agent開啓內測,性能超OpenAI、Gemini
- ▣ OpenAI和Meta準備推出具有“推理”能力的新AI模型
- ▣ OpenAI開年首發Tasks,AI agent真的要來了?
- ▣ OpenAI宣佈推出GPT-4o微調自定義版本
- ▣ OpenAI宣佈向Plus等用戶推出Deep Research功能
- ▣ Opera推出首款AI Agent瀏覽器Opera Neon
- ▣ AI早知道|OpenAI發佈o3;小紅書推出AI搜索產品
- ▣ Agent大戰打響!OpenAI推出工具鏈簡化智能體開發
- ▣ OpenAI宣佈桌面版ChatGPT推出應用協作功能
- ▣ AI早知道|Github重磅推出Agent模式;Mistral Al發佈客戶端Le Chat
- ▣ AI醫療進入精準化“深水區” :OpenAI醫療評估基準落地、大模型加速變革|AI醫療浪潮㉑