☰

Claude Opus 4.1深夜狙擊OpenAI，SWE-bench編程捲到74.5%，預告更強大模型

智東西編譯王涵編輯漠影

智東西8月6日消息，今天，Anthropic正式發佈Claude Opus 4.1。

據Anthropic公告，新模型在智能體工具調用、智能體編程與多語言問答能力上全面超越OpenAI o3，Anthropic還計劃在未來數週內爲模型推出更大幅度的改進。

▲Anthropic推文截圖（來源：X）

Opus 4.1現已面向付費Claude用戶及Claude Code提供，該版本同時登陸API、Amazon Bedrock和Google Cloud的Vertex AI平臺，開發者可通過API使用claude-opus-4-1-20250805版本。

在定價上，Opus 4.1與Opus 4保持一致，輸入15美元（約合人民幣107.8元）/百萬token，輸出75美元（約合人民幣538.8元）/百萬token。

性能方面，Opus 4.1在SWE-bench Verified上的頂級編碼性能提升至74.5%，該版本還增強了Claude的深度研究與數據分析能力，特別是在細節追蹤和智能體搜索方面。

在GitHub上，相較於Opus 4，Claude Opus 4.1在多數能力維度均有提升，其中多文件代碼重構的性能進步尤爲顯著。

Opus 4.1在智能體工具調用與多語言問答能力上超越OpenAI o3，在智能體編程方面的分數爲74.5%和43.3%，大幅超越OpenAI o3和Gemini 2.5 Pro，但其在視覺推理和數學能力上與OpenAI o3和Gemini 2.5 Pro還有一定的差距。

Anthropic的公告中透露，Rakuten Group發現Opus 4.1擅長在大型代碼庫中精確定位修正點，且不會進行不必要的調整或引入錯誤，其團隊更傾向在日常調試任務中使用這種精準性。

Windsurf報告顯示，在其初級開發者基準測試中，Opus 4.1相比Opus 4實現了1個標準差的提升，性能躍升幅度相當於從Sonnet 3.7升級至Sonnet 4。

結語：大模型競賽進入“智能體時代”

從基準測試結果可以看出，Anthropic這次推出的Claude Opus 4.1，主要在大模型的智能體相關能力上，例如智能體編程和智能體工具調用等方面，進行了升級側重。

也從側面反映出，如今的大模型開始朝着“給智能體提供更智能的大腦”的方向升級迭代，爲智能體的進一步發展夯實地基。

相關資訊