紅杉中國大動作!發佈全新AI基準測試工具xbench,意義幾何?

5月26日,紅杉中國對外宣佈推出一款全新的AI基準測試工具xbench,併發布了一篇解釋其工作原理的論文。這一突破性進展標誌着自2022年ChatGPT引爆通用人工智能(AGI)賽道以來,投資機構首次主導發佈基準測試(Benchmark),給當下火爆的AI投資又加了一把火,在業內也受到廣泛關注。

過去兩年多,AI Benchmark漸漸成爲評估基礎大模型和AI Agent(AI 智能體)能力的通用工具,海內外高校、研究機構和AI公司推出了大量不同維度的測試體系。隨着基礎模型的快速發展和AI Agent進入規模化應用階段,被廣泛使用的基準測試卻面臨一個日益尖銳的問題:想要真實地反映AI的客觀能力正變得越來越困難。

基於以上需求,根據紅杉中國的介紹,xbench採用雙軌評估體系,構建多維度測評數據集,旨在同時追蹤模型的理論能力上限與Agent的實際落地價值。該體系創新性地將評測任務分爲兩條互補的主線:(1)評估AI系統的能力上限與技術邊界;(2)量化AI系統在真實場景的效用價值(Utility Value)。其中,後者需要動態對齊現實世界的應用需求,基於實際工作流程和具體社會角色,爲各垂直領域構建具有明確業務價值的測評標準。

此外,值得注意的是,xbench採用長青評估(Evergreen Evaluation)機制,通過持續維護並動態更新測試內容,以確保時效性和相關性。紅杉中國將定期測評市場主流Agent產品,跟蹤模型能力演進,捕捉Agent產品迭代過程中的關鍵突破,進而預測下一個Agent應用的技術—市場契合點(TMF,Tech—Market Fit)。作爲獨立第三方,紅杉中國致力於爲每類產品設計公允的評估環境,提供客觀且可復現的評價結果。

證券時報記者瞭解到,首期發佈的xbench包含兩個核心評估集:科學問題解答測評集(xbench—ScienceQA)與中文互聯網深度搜索測評集(xbench—DeepSearch),並對該領域主要產品進行了綜合排名。同期提出了垂直領域智能體的評測方法論,並構建了面向招聘(Recruitment)和營銷(Marketing)領域的垂類Agent評測框架。評測結果和方法論可通過xbench.org網站實時查看。

紅杉中國表示:xbench歡迎社區共建。對於基礎模型與Agent開發者,可以使用最新版本的xbench評測集來第一時間驗證其產品效果,得到內部黑盒評估集得分;對於垂類Agent開發者、相關領域的專業和企業,歡迎與xbench共建與發佈特定行業垂類標準的Profession Aligned xbench;對於從事AI評測研究,具有明確研究想法的研究者,希望獲取專業標註並長期維護評估更新,xbench可以幫助AI評估研究想法落地併產生長期影響力。

有業內人士分析,紅杉中國這一領先的舉動,更能凸顯出當下投資機構全面擁抱AI的決心,而且在過去兩年多的時間裡,xbench一直是紅杉中國在內部使用的跟蹤和評估基礎模型能力的工具,將這一“創投行業智能體”工具開源,並不斷在探求和推動AI技術上限的過程中尋找商業化落地的機會,給整個行業帶來新的變革。

此前有投資人曾表示,目前在美國一級市場,對AI產業鏈尤其是以AI智能體爲代表的AI應用側的投資佔絕對主導地位,而中國市場不同於美國,AI產業生態投資中硬件和軟件相對比較平衡,硬件領域的投資相對更符合中國資本市場鼓勵的方向,包括以算力生態爲代表的進口替代硬件底座、自動駕駛,以及具身智能爲代表的各類AI硬件和行業應用等。

而事實上,AI智能體也受到國內很多機構的關注。以紅杉爲LP的北京某AI垂直方向早期投資機構的負責人就透露,今年AI賽道呈現出大模型從科研模型向產業模型轉變,基礎的算法算力向實際的應用邁進,AI編程(AI Coding)、AI智能體(AI Agent)和AI硬件將是今年三個爆發的應用點。

中信建投研報稱,近期大廠密集更新Agent產品,微軟力求通過本地+雲端協同構建Agent網絡;谷歌基於現有生態打造2C Agent 3P戰略;Anthropic則發佈Claude 4模型,輔助Agent構建。國內廠商亦同步跟進,金蝶國際打造蒼穹Agent平臺2.0和五大智能體助力企業AI管理;崑崙萬維通過天工超級智能體帶來高效辦公體驗。隨着Agent產品加速落地,AI產業持續向上,商業化落地節奏有望加快,Agent產品密集更新,利好有數據、有客戶、有場景的軟件企業,AI產品有望帶動公司ARPU提升和項目單價上升;此外,模型私有化需求增加,利好一體機、超融合和B端服務外包企業。

責編:嶽亞楠

校對:高源