紅杉中國發布xbench,首個由投資機構打造的AI基準測試

5月26日,紅杉中國宣佈推出全新的AI基準測試xbench,併發布論文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。據悉,這是首個由投資機構發起,聯合國內外十餘家頂尖高校和研究機構的數十位博士研究生,採用雙軌評估體系和長青評估機制的AI基準測試。xbench將在評估和推動AI系統能力提升上限與技術邊界的同時,重點量化AI系統在真實場景的效用價值,並長期捕捉Agent產品的關鍵突破。