Claude 4發佈,Agent能力內化並實現7小時複雜任務穩定推理

文|陳俊雲 賈凱方 高飛翔 許英博

北京時間5月23日凌晨,Anthropic在其首屆開發者大會中正式發佈Claude 4系列混合推理模型。該系列模型主要亮點在於:1)可連續執行7小時複雜任務,推理能力優秀且穩定;2)已支持Agent編程產品和Agent開發平臺。投資層面看,Claude 4穩定的推理能力的進步有效的開闊了大模型的應用場景;Agent產品的不斷探索與成熟也爲AI商業化夯實基礎。隨着通用推理能力的進步,我們認爲AI爆款應用有望從科研、編程等高價值場景起率先解鎖,軟件、互聯網有望受益;除去應用端的投資機會,硬件端的需求也會隨着多模態的技術的進步與應用而不斷提高,中期維度,我們仍持續看好 AI 算力板塊的投資機會。

▍事項:

北京時間5月23日凌晨,Anthropic在其首屆開發者大會中正式發佈Claude 4系列混合推理模型。該系列模型包括旗艦模型Claude Opus 4和主力模型Claude Sonnet 4。根據Anthropic官網,該系列模型的主要亮點在於:1)可以連續執行7小時複雜任務,展現出優秀推理能力;2)已支持Agent編程產品和Agent開發平臺。根據Anthropic官網,Claude 4系列模型還同步推出瞭如下新功能:1)工具輔助的延伸思考(測試版):Claude 模型在進行深入思考時,能夠交替使用工具(如網頁搜索),以優化推理過程和回覆質量;2)新增模型能力:兩款模型可並行使用工具,執行更精確的指令,並在開發者授權下,提升記憶能力,能提取並保存關鍵信息,保持上下文連貫;4)新的 API 功能:Anthropic API 新增四項功能,包括代碼執行工具、MCP 連接器、文件 API 和最長可緩存 1 小時的提示緩存功能。

▍模型性能:編程場景表現行業領先,基準測試表現仍有一定提升空間。

根據Anthropic官網,在編程這一特定場景中,Claude 4居於行業領先地位,在代碼測試SWE-bench Verified中,Opus 4和Sonnet 4得分分別爲79.4%和80.2%,顯著高於o3(69.1%)、GPT-4.1(54.6%)和Gemini 2.5 Pro(63.2%);在代理終端編程測試Agentic terminal coding中,Opus 4和Sonnet 4得分分別爲50%和41.3%,顯著高於o3(30.3%)、GPT-4.1(30.3%)和Gemini 2.5 Pro (25.3%)。而在基準測試場景,Claude 4在推理測試和問答測試場景中表現亮眼,數學測試仍有提升空間。在推理測試場景GPQA中,Opus 4和Sonnet 4得分分別爲83.3%和83.8%,與OpenAI o3(83.3%)和Gemini 2.5 Pro(83.0%)水平相當;在問答測試場景中MMMLU中,Opus 4和Sonnet 4得分分別爲88.8%和86.5%,與OpenAI o3(88.8%)水平相當;在數學測試AIME 2025中,在不進行多次嘗試情況下,Opus 4和Sonnet 4得分分別爲75.5%和70.5%,低於o3(88.9%)和Gemini 2.5 Pro (83.0%);在進行多次嘗試後Opus 4和Sonnet 4的得分分別提升至90.0%和85.0%。

▍市場定位:長時間穩定複雜任務處理能力賦能Agent產品,旗艦模型推理成本期待優化。

根據Anthropic官網,Claude 4在一項高要求的開源重構任務中連續穩定的運行了7個小時,性能表現出色,爲Agent產品在編程場景的鋪開創造了可能。目前Claude 4已經被Github Copilot選爲了新一代產品的基座模型。定價方面:1)C端產品:Claude 4 Opus將向付費訂閱用戶開放,目前Claude系列模型的付費用戶收費標準爲專業版20美元/月(年度訂閱折扣後爲200美元/年),Max版收費爲100美元/月;而Claude Sonnet 4可對免費用戶開放。2)B端產品:目前Claude Opus 4定價爲輸入15美元/百萬Token,輸出75美元/百萬Token,價格高於o3(輸入10美元/百萬Token,輸出爲40美元/百萬Token);Claude Sonnet 4定價爲輸入3美元/百萬Token,輸出15美元/百萬Token,與前代產品Claude 3.7 Sonnet持平,接近於Gemini 2.5 Pro (輸入2.5美元/百萬Token,輸出15美元/百萬Token)。

▍趨勢展望:推理模式持續進化,Agent落地值得關注。

根據Anthropic官網,Claude 4是一個混合推理模型,即模型可提供2種模式:即時的反應模式和深入推理的擴展思考模式。根據微軟研究院於2025年5月發佈的論文《Think Only When You Need with Large Hybrid-Reasoning Models》(Jiang L, Wu X,和Huang S等,2025),當前的大型推理模型(如OpenAI o3和DeepSeek R1等)都存在過度思考的問題,即在簡單任務上進行了冗長分析,不僅浪費計算資源,還破壞了用戶體驗。而這篇論文發現,通過使用混合微調(Hybrid Fine-Tuning,HFT)和混合組策略優化(Hybrid Group Policy Optimization,HGPO)手段,不僅可以減少計算資源的消耗,而且可以有效提升模型在推理密集型任務和通用下游任務上的性能。此外,Agent的落地探索也在持續。根據各公司官網,此前推出Agent產品的廠商主要爲Salesforce和ServiceNow等軟件廠商,而最近1個月內亮相的編程場景Agent包括OpenAI的Codex、Google的Jules和Anthropic的Claude Code。此外,Anthropic還發布了Claude Code SDK以支持用戶基於Claude Code自行構建Agent。

▍風險因素:

AI核心技術發展不及預期風險;科技領域政策監管持續收緊風險;私有數據相關的政策監管趨嚴風險;全球宏觀經濟復甦不及預期風險;宏觀經濟波動導致歐美企業IT支出不及預期風險;AI潛在倫理、道德、用戶隱私風險;企業數據泄露、信息安全風險;行業競爭持續加劇風險等。

▍投資策略:

本次Claude 4的更新不再是單單圍繞底層算法層面,而是同步在應用層面取得進步,Agent產品與Agent開發平臺的推出均是AI商業化落地的重要探索。從技術角度,Claude 4此類混合推理模型的基礎能力在強化學習方法加持下在得到顯著提升,表明模型仍在持續進步。應用層面,Claude 4穩定的推理能力的進步有效的開闊了大模型的應用場景。隨着底層算法能力提升帶來的通用推理能力的進步,我們認爲AI爆款應用有望從科研、編程等高價值場景起率先解鎖,軟件、互聯網有望受益;除去應用端的投資機會,硬件端的需求也會隨着多模態的技術的進步與應用而不斷提高,中期維度,我們仍持續看好 AI 算力板塊的投資機會。

本文節選自中信證券研究部已於2025年5月25日發佈的《前瞻研究行業全球AI人工智能產業重大事項點評—Claude 4發佈,Agent能力內化並實現7小時複雜任務穩定推理》報告,具體分析內容(包括相關風險提示等)請詳見報告。

本文源自:券商研報精選