紅杉中國正式開源AI基準測試xbench評測集

6月18日,紅杉中國正式開源其AI基準測試工具xbench的兩個評測集xbench-ScienceQA和xbench-DeepSearch。紅杉中國表示,未來將基於大模型和AI Agent的發展情況不斷動態更新評測集,並且採用“黑白盒”機制,既保證xbench的發展可以服務更多的大模型和Agent開發者,同時盡力避免靜態評測集經常出現的過擬合問題,確保xbench的長期有效。