紅杉中國正式開源AI基準測試xbench評測集
6月18日,紅杉中國正式開源其AI基準測試工具xbench的兩個評測集xbench-ScienceQA和xbench-DeepSearch。紅杉中國表示,未來將基於大模型和AI Agent的發展情況不斷動態更新評測集,並且採用“黑白盒”機制,既保證xbench的發展可以服務更多的大模型和Agent開發者,同時盡力避免靜態評測集經常出現的過擬合問題,確保xbench的長期有效。
相關資訊
- ▣ 紅杉中國發布xbench,首個由投資機構打造的AI基準測試
- ▣ 紅杉中國大動作!發佈全新AI基準測試工具xbench,意義幾何?
- ▣ Nvidia的新開源AI模型在基準測試中擊敗了GPT-4o
- ▣ 中國信通院正式啓動AI眼鏡專項測試
- ▣ OpenAI資助AI數學基準測試引發公正性質疑
- ▣ OpenAI宣佈推出AI Agent評測基準PaperBench
- ▣ AI早知道|Vidu Q1系列 API 正式開放;釦子空間正式開放測試
- AI性能基準測試從此有了「中國標準」!英偉達、谷歌可以試試這套算力卷
- ▣ AMD首發MLPerf基準測試 展現AI領先地位
- ▣ 新測試基準發佈,最強開源Llama 3分數驟降,差距拉開了
- 全新三國手遊《神將三國》正式展開精英測試
- 國外相機評測網站新評分標準:超廣角、夜拍都入測試項目
- 全體準備戰鬥!《全軍破敵:競技場》公開測試正式登場
- 美加繼續測試中國紅線
- ▣ 蘋果(AAPL.US)發佈最新AI測試版本,集成ChatGPT 正式版有望在下週發佈!
- 比驗血準確的過敏源測試法
- 《逃離塔科夫》2025年將正式推出 8年測試好評
- ▣ 日常實用性測試橫評:新能源中型SUV篇
- 《敢達決戰》2.0版本先鋒測試正式開啓
- 王子復國的正確打開方式《二之國2:王國再臨》評測
- ▣ 中國信通院:正式啓動DeepSeek國產化適配測評工作
- 《槍神紀》不限號測試啓動 巨人模式正式開放
- 索尼正在開發自動檢測遊戲BUG的AI系統:簡化測試流程
- ▣ 美國新勢力Rivian購買小米SU7做基準測試
- Google Maps 正在測試 Wi-Fi only 模式
- 賓士eSprinter「零下30度」終極測試中!預計年底正式開賣
- ▣ AI週報|Meta發佈最強開源模型Llama 3.1;OpenAI測試AI搜索功能
- 終於來了!《戰艦世界》全球公開測試正式展開
- ▣ Reddit正測試名爲Reddit Answers的AI功能