OpenAI宣佈推出AI Agent評測基準PaperBench

當地時間4月2日,美國開放人工智能研究中心(OpenAI)宣佈推出PaperBench——一個評估AI智能體復現前沿AI研究能力的基準。智能體需從零開始復現20篇ICML 2024 Spotlight和Oral論文,包括理解論文貢獻、開發代碼庫併成功執行實驗。據介紹,在PaperBench上測試多個前沿模型後發現,表現最佳的智能體Claude 3.5 Sonnet(新版)結合開源框架,平均復現得分爲21.0%。最終其招募頂尖機器學習博士嘗試部分測試集,發現上述模型表現尚未超越人類基線。