☰

紅杉中國正式開源AI基準測試xbench評測集

6月18日，紅杉中國正式開源其AI基準測試工具xbench的兩個評測集xbench-ScienceQA和xbench-DeepSearch。紅杉中國表示，未來將基於大模型和AI Agent的發展情況不斷動態更新評測集，並且採用“黑白盒”機制，既保證xbench的發展可以服務更多的大模型和Agent開發者，同時盡力避免靜態評測集經常出現的過擬合問題，確保xbench的長期有效。

相關資訊

▣ 紅杉中國發布xbench，首個由投資機構打造的AI基準測試
▣ 紅杉中國大動作！發佈全新AI基準測試工具xbench，意義幾何？
▣ Nvidia的新開源AI模型在基準測試中擊敗了GPT-4o
▣ 中國信通院正式啓動AI眼鏡專項測試
▣ 我國牽頭制定的自動駕駛測試場景評價與測試用例生成ISO國際標準正式發佈
▣ OpenAI資助AI數學基準測試引發公正性質疑
▣ OpenAI宣佈推出AI Agent評測基準PaperBench
▣ AI早知道｜Vidu Q1系列 API 正式開放；釦子空間正式開放測試
AI性能基準測試從此有了「中國標準」！英偉達、谷歌可以試試這套算力卷
▣ AMD首發MLPerf基準測試展現AI領先地位
▣ 新測試基準發佈，最強開源Llama 3分數驟降，差距拉開了
DLSS Transformer模型退出beta測試準備正式部署
全新三國手遊《神將三國》正式展開精英測試
國外相機評測網站新評分標準：超廣角、夜拍都入測試項目
全體準備戰鬥！《全軍破敵：競技場》公開測試正式登場
美加繼續測試中國紅線
掃毒軟體檢測中國生成式AI？　刑事局：依美國檢測標準不實指控
▣ 自動駕駛測試場景評價國際標準發佈
▣ 蘋果(AAPL.US)發佈最新AI測試版本，集成ChatGPT 正式版有望在下週發佈！
比驗血準確的過敏源測試法
《逃離塔科夫》2025年將正式推出 8年測試好評
▣ 日常實用性測試橫評：新能源中型SUV篇
《敢達決戰》2.0版本先鋒測試正式開啓
王子復國的正確打開方式《二之國2：王國再臨》評測
▣ 裕富照明申請光源顏色偏好度評測相關專利，爲不同色溫測試光源顯色品質的準確測評或比較提供依據
▣ 中國信通院：正式啓動DeepSeek國產化適配測評工作
《槍神紀》不限號測試啓動巨人模式正式開放
索尼正在開發自動檢測遊戲BUG的AI系統：簡化測試流程
測試介面F4 大啖AI長線紅利

DMCA | PRIVACY | s@bg3.co