☰

紅杉中國大動作！發佈全新AI基準測試工具xbench，意義幾何？

5月26日，紅杉中國對外宣佈推出一款全新的AI基準測試工具xbench，併發布了一篇解釋其工作原理的論文。這一突破性進展標誌着自2022年ChatGPT引爆通用人工智能（AGI）賽道以來，投資機構首次主導發佈基準測試（Benchmark），給當下火爆的AI投資又加了一把火，在業內也受到廣泛關注。

過去兩年多，AI Benchmark漸漸成爲評估基礎大模型和AI Agent（AI 智能體）能力的通用工具，海內外高校、研究機構和AI公司推出了大量不同維度的測試體系。隨着基礎模型的快速發展和AI Agent進入規模化應用階段，被廣泛使用的基準測試卻面臨一個日益尖銳的問題：想要真實地反映AI的客觀能力正變得越來越困難。

基於以上需求，根據紅杉中國的介紹，xbench採用雙軌評估體系，構建多維度測評數據集，旨在同時追蹤模型的理論能力上限與Agent的實際落地價值。該體系創新性地將評測任務分爲兩條互補的主線：（1）評估AI系統的能力上限與技術邊界；（2）量化AI系統在真實場景的效用價值（Utility Value）。其中，後者需要動態對齊現實世界的應用需求，基於實際工作流程和具體社會角色，爲各垂直領域構建具有明確業務價值的測評標準。

此外，值得注意的是，xbench採用長青評估（Evergreen Evaluation）機制，通過持續維護並動態更新測試內容，以確保時效性和相關性。紅杉中國將定期測評市場主流Agent產品，跟蹤模型能力演進，捕捉Agent產品迭代過程中的關鍵突破，進而預測下一個Agent應用的技術—市場契合點（TMF，Tech—Market Fit）。作爲獨立第三方，紅杉中國致力於爲每類產品設計公允的評估環境，提供客觀且可復現的評價結果。

證券時報記者瞭解到，首期發佈的xbench包含兩個核心評估集：科學問題解答測評集（xbench—ScienceQA）與中文互聯網深度搜索測評集（xbench—DeepSearch），並對該領域主要產品進行了綜合排名。同期提出了垂直領域智能體的評測方法論，並構建了面向招聘（Recruitment）和營銷（Marketing）領域的垂類Agent評測框架。評測結果和方法論可通過xbench.org網站實時查看。

紅杉中國表示：xbench歡迎社區共建。對於基礎模型與Agent開發者，可以使用最新版本的xbench評測集來第一時間驗證其產品效果，得到內部黑盒評估集得分；對於垂類Agent開發者、相關領域的專業和企業，歡迎與xbench共建與發佈特定行業垂類標準的Profession Aligned xbench；對於從事AI評測研究，具有明確研究想法的研究者，希望獲取專業標註並長期維護評估更新，xbench可以幫助AI評估研究想法落地併產生長期影響力。

有業內人士分析，紅杉中國這一領先的舉動，更能凸顯出當下投資機構全面擁抱AI的決心，而且在過去兩年多的時間裡，xbench一直是紅杉中國在內部使用的跟蹤和評估基礎模型能力的工具，將這一“創投行業智能體”工具開源，並不斷在探求和推動AI技術上限的過程中尋找商業化落地的機會，給整個行業帶來新的變革。

此前有投資人曾表示，目前在美國一級市場，對AI產業鏈尤其是以AI智能體爲代表的AI應用側的投資佔絕對主導地位，而中國市場不同於美國，AI產業生態投資中硬件和軟件相對比較平衡，硬件領域的投資相對更符合中國資本市場鼓勵的方向，包括以算力生態爲代表的進口替代硬件底座、自動駕駛，以及具身智能爲代表的各類AI硬件和行業應用等。

而事實上，AI智能體也受到國內很多機構的關注。以紅杉爲LP的北京某AI垂直方向早期投資機構的負責人就透露，今年AI賽道呈現出大模型從科研模型向產業模型轉變，基礎的算法算力向實際的應用邁進，AI編程（AI Coding）、AI智能體（AI Agent）和AI硬件將是今年三個爆發的應用點。

中信建投研報稱，近期大廠密集更新Agent產品，微軟力求通過本地+雲端協同構建Agent網絡；谷歌基於現有生態打造2C Agent 3P戰略；Anthropic則發佈Claude 4模型，輔助Agent構建。國內廠商亦同步跟進，金蝶國際打造蒼穹Agent平臺2.0和五大智能體助力企業AI管理；崑崙萬維通過天工超級智能體帶來高效辦公體驗。隨着Agent產品加速落地，AI產業持續向上，商業化落地節奏有望加快，Agent產品密集更新，利好有數據、有客戶、有場景的軟件企業，AI產品有望帶動公司ARPU提升和項目單價上升；此外，模型私有化需求增加，利好一體機、超融合和B端服務外包企業。

責編：嶽亞楠

校對：高源

紅杉中國大動作！發佈全新AI基準測試工具xbench，意義幾何？

相關資訊