DeepSeek V3.1上線:架構調整與能力優化並存
DeepSeek於8月19日晚間上線了全新的V3.1版本,官方強調上下文長度拓展至128k,但此次更新的核心在於模型底層架構的演進。V3.1採用混合推理架構,使用一個模型同時支持思考模式與非思考模式,用戶通過API調用時,模型明確標識爲V3,而非過去的R1。這種架構調整簡化了部署和運維,提高了算力利用效率,但也可能影響非推理任務的能力。
在能力優化方面,DeepSeek V3.1的編程能力大幅提升。根據Aider編程基準測試數據,V3.1取得了71.6%的高分,超越了此前的R1版本和閉源模型Claude 4 Opus。在SVGBench測試中,V3.1僅次於GPT-4.1-mini,遠超前代R1;在多任務語言理解的MMLU測試中,V3.1得分達到88.5%,表現不遜於GPT-5。不過,在研究生級別問答(GPQA)和軟件工程(SWE-Bench)等領域,V3.1與GPT-5相比仍存在差距。
DeepSeek V3.1的成本效益也顯著提升。完成一次完整的編程任務,V3.1的成本僅需約1.01美元,遠低於Claude 4 Opus(便宜68倍)。官方宣佈的最新價格表顯示,輸入價格爲0.5元/百萬tokens(緩存命中),4元/百萬tokens(緩存未命中),輸出價格爲12元/百萬tokens,該價格於2025年9月6日00:00起生效。成本下降主要得益於思維鏈壓縮訓練,減少了無意義的思維鏈輸出。
V3.1的智能體能力也顯著增強,通過後訓練優化,新模型在工具使用與智能體任務中表現突出。在SWE-bench Verified基準測試中,V3.1得分66.0分,遠超前代;在Terminal-Bench測試中,V3.1得分31.3分,是前代的五倍以上。在網頁瀏覽和工具調用能力上,V3.1也獲得了全面增強。
然而,V3.1的“模型融合”策略引發了社區的激烈爭論。部分用戶反饋,V3.1版本重新出現了幻覺嚴重和中英夾雜的問題,且在面對複雜問題時表現出“能省則省”的傾向。此外,DeepSeek激進的更新策略也引發了商業API用戶的不滿,新模型直接覆蓋舊模型,且不提供舊版本的API,導致線上生產業務的API可能在毫無預警的情況下被更改,嚴重影響了商業應用的穩定性。