☰

OpenAI宣佈推出AI Agent評測基準PaperBench

當地時間4月2日，美國開放人工智能研究中心（OpenAI）宣佈推出PaperBench——一個評估AI智能體復現前沿AI研究能力的基準。智能體需從零開始復現20篇ICML 2024 Spotlight和Oral論文，包括理解論文貢獻、開發代碼庫併成功執行實驗。據介紹，在PaperBench上測試多個前沿模型後發現，表現最佳的智能體Claude 3.5 Sonnet（新版）結合開源框架，平均復現得分爲21.0%。最終其招募頂尖機器學習博士嘗試部分測試集，發現上述模型表現尚未超越人類基線。

相關資訊

▣ OpenAI推出代碼生成評估基準
▣ OpenAI準備推出“AI版Office”
▣ OpenAI擬推月費2萬美元的AI Agent
▣ OpenAI 推出 SWE-bench Verified 基準，更準確評估代碼生成表現
▣ OpenAI發佈ChatGPT Agent
▣ OpenAI憋新大招：將推AI Agent，會操控電腦
推動「民主AI」！OpenAI宣佈新計畫協助各國打造AI基礎設施
▣ Monica.im發佈通用型AI Agent“Manus” 性能或超越OpenAI
▣ OpenAI 公司推出 MLE-bench 新基準
▣ OpenAI深夜發佈ChatGPT Agent
▣ 稀宇科技推出AI Agent產品MiniMax Agent
▣ OpenAI宣佈推出ChatGPT學習模式
▣ OpenAI發佈ChatGPT Agent：集成虛擬機環境的AI代理
▣ OpenAI發佈GPT-Realtime，AI Agent進入超逼真對話時代
▣ OpenAI發佈一個全新基於雲端的代碼Agent
▣ OpenAI資助AI數學基準測試引發公正性質疑
▣ OpenAI宣佈推出o3和o3 mini推理模型
超OpenAI？陸團隊發布通用型AI Agent產品Manus爆紅
▣ OpenAI推出MCP服務，Agent SDK迎來重要升級
▣ 紅杉中國正式開源AI基準測試xbench評測集
▣ OpenAI宣佈推出名爲canvas的新界面
▣ 中國團隊發佈通用型AI Agent產品Manus，性能超越OpenAI
▣ OpenAI計劃下週一宣佈推出AI搜索產品，與谷歌展開競爭
輝達宣佈投資OpenAI 1000億美元協助布建AI基礎建設
▣ Kimi首個Agent開啓內測，性能超OpenAI、Gemini
▣ OpenAI和Meta準備推出具有“推理”能力的新AI模型
▣ AI週報 | 英偉達H20將恢復中國區銷售；OpenAI發佈ChatGPT Agent
▣ OpenAI宣佈推出GPT-4o微調自定義版本
▣ OpenAI宣佈向Plus等用戶推出Deep Research功能

DMCA | PRIVACY | s@bg3.co