Claude Opus 4.1深夜狙擊OpenAI,SWE-bench編程捲到74.5%,預告更強大模型

智東西編譯 王涵編輯 漠影

智東西8月6日消息,今天,Anthropic正式發佈Claude Opus 4.1。

據Anthropic公告,新模型在智能體工具調用、智能體編程與多語言問答能力上全面超越OpenAI o3,Anthropic還計劃在未來數週內爲模型推出更大幅度的改進。

▲Anthropic推文截圖(來源:X)

Opus 4.1現已面向付費Claude用戶及Claude Code提供,該版本同時登陸API、Amazon Bedrock和Google Cloud的Vertex AI平臺,開發者可通過API使用claude-opus-4-1-20250805版本。

在定價上,Opus 4.1與Opus 4保持一致,輸入15美元(約合人民幣107.8元)/百萬token,輸出75美元(約合人民幣538.8元)/百萬token。

性能方面,Opus 4.1在SWE-bench Verified上的頂級編碼性能提升至74.5%,該版本還增強了Claude的深度研究與數據分析能力,特別是在細節追蹤和智能體搜索方面。

在GitHub上,相較於Opus 4,Claude Opus 4.1在多數能力維度均有提升,其中多文件代碼重構的性能進步尤爲顯著。

Opus 4.1在智能體工具調用與多語言問答能力上超越OpenAI o3,在智能體編程方面的分數爲74.5%和43.3%,大幅超越OpenAI o3和Gemini 2.5 Pro,但其在視覺推理和數學能力上與OpenAI o3和Gemini 2.5 Pro還有一定的差距。

Anthropic的公告中透露,Rakuten Group發現Opus 4.1擅長在大型代碼庫中精確定位修正點,且不會進行不必要的調整或引入錯誤,其團隊更傾向在日常調試任務中使用這種精準性。

Windsurf報告顯示,在其初級開發者基準測試中,Opus 4.1相比Opus 4實現了1個標準差的提升,性能躍升幅度相當於從Sonnet 3.7升級至Sonnet 4。

結語:大模型競賽進入“智能體時代”

從基準測試結果可以看出,Anthropic這次推出的Claude Opus 4.1,主要在大模型的智能體相關能力上,例如智能體編程和智能體工具調用等方面,進行了升級側重。

也從側面反映出,如今的大模型開始朝着“給智能體提供更智能的大腦”的方向升級迭代,爲智能體的進一步發展夯實地基。