OpenAI 推出 GPT-4.1,撞期智譜Z.ai

就在今天,OpenAI API 中推出了三個新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。這些模型的性能全面超越 GPT-4o 和 GPT-4o mini,在編碼和指令跟蹤方面均有顯著提升。除此之外,它們還擁有更大的上下文窗口,支持多達 100 萬個上下文tokens。

GPT-4.1 在 SWE-bench Verified 上的得分爲 54.6% ,比 GPT-4o提高了21.4% ,比 GPT-4.5 提高了 26.6%,使其成爲領先的編碼模型。

在衡量指令遵循能力的標準當中,GPT-4.1 得分爲 38.3%,比 GPT-4o 提高了10.5%。

在 Video-MME 多模態長上下文理解的基準中,GPT-4.1 創造了新的先進成果——在長篇無字幕類別中得分爲 72.0%,比 GPT-4o 提高了6.7%。

針對模型的優化,GPT-4.1 模型系列以更低的成本提供了卓越的性能。這些模型在延遲曲線的每個點上都實現了性能的提升。

同日,智譜開源了其32B/9B 系列 GLM 模型,在代碼生成、指令遵循等方面與GPT4.1短兵相接。

該批模型涵蓋基座、推理、沉思模型,現已通過全新平臺 Z.ai 免費開放體驗,並同步上線智譜 MaaS 平臺。

此次開源,OpenAI和智譜均幹勁十足。GPT-4.1在代碼任務、指令遵循、長上下文理解等多項領域均擊敗 GPT-4o。Z.ai 在指令微調和搜索代碼上的基準指標上已接近甚至超越 GPT-4o。

代碼生成

GPT-4.1 在各種代碼任務上都比 GPT-4o 表現得更好,包括代理解決編碼任務、前端編碼、減少無關編輯、遵循差異格式、確保一致的工具使用等等。

在衡量真實世界軟件工程技能的 SWE-bench Verified 測試中,GPT-4.1 完成了 54.6% 的任務,而 GPT-4o 的完成率爲 33.2%。這反映了模型在探索代碼庫、完成任務以及生成可運行並通過測試的代碼方面的能力有所提升。

對於需要編輯大型文件的 API 開發者來說,GPT-4.1 在跨多種格式的代碼差異分析方面更加準確。在Aider 的多語言差異基準測試中,GPT-4.1 的得分是 GPT-4o 的兩倍多,甚至比 GPT-4.5 還高出 8%。OpenAI專門訓練了 GPT-4.1遵循差異格式的能力,開發人員無需重寫整個文件,從而節省成本和延遲。

GPT-4.1 在前端代碼方面也比 GPT-4o 有了顯著提升,能夠創建功能更強大、更美觀的 Web 應用。在我們的面對面對比中,付費人工評分員 80% 的評分結果顯示,GPT-4.1 的網站比 GPT-4o 的網站更受歡迎。

除了上述基準測試之外,GPT-4.1 在遵循格式方面表現更佳,準確性更高,並且減少了無關編輯的頻率。在OpenAI的內部評估中,代碼中的無關編輯從 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。

指令遵循

OpenAI開發了一個內部教學跟蹤評估系統,將每個類別分爲簡單、中等和困難提示。GPT-4.1 在困難提示方面的表現尤其優於 GPT-4o。

GPT-4.1 能夠更好地從過往對話中識別信息,從而實現更自然的對話。在 MultiChallenge 的基準測試中,GPT-4.1 的表現比GPT-4o 提高 10.5%。

GPT-4.1 在 IFEval 上的得分也爲 87.4%,而 GPT-4o 的得分爲 81.0%。IFEval 使用帶有可驗證指令的提示(例如,指定內容長度或避免使用某些術語或格式)。

智譜的 GLM-Z1-32B-0414 在IFEVAL上也表現優異,以84.5%的分數和GPT o1-mini分庭抗禮。

長上下文理解

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可以處理 100 萬個上下文tokens,而之前的 GPT-4o 型號最多可以處理 128,000 個。100 萬個tokens相當於整個 React 代碼庫的 8 個以上副本,因此長上下文非常適合處理大型代碼庫或大量長文檔。

GPT-4.1 能夠準確地處理長達 100 萬個上下文中的信息。此外,它能比 GPT-4o 更準確地識別相關文本,並忽略長短上下文中的干擾項。長上下文理解是法律、編碼、客戶支持以及許多其他領域應用的關鍵能力。

下圖是 GPT-4.1 檢索位於上下文窗口內各個位置的隱藏信息(“針”)的能力。GPT-4.1 能夠始終如一地準確檢索所有位置和所有上下文長度的針,最大檢索tokens數可達 100 萬個。無論這些tokens在輸入中的位置如何,它都能有效地提取與當前任務相關的細節。

爲了進一步展示信息理解的能力,OpenAI開源了一個新的評估平臺:OpenAI-MRCR(多輪共指,上下文中發現並區分隱藏的多個針頭的能力)。

GPT-4.1 在上下文長度高達 128K 個 token 時的表現優於 GPT-4o,並且即使長度高達 100 萬個 token 時也能保持強勁的性能。

在 Graphwalks (一個用於評估多跳長上下文推理的數據集)的基準測試中,GPT-4.1 達到了 61.7% 的準確率,與 o1 的性能相當,並輕鬆擊敗了 GPT-4o。

值得注意的是,智譜此番在小模型性能上也有所突破。尺寸僅爲9B的GLM-Z1-9B-0414雖然參數量更少,但在數學推理及通用任務上依然表現出色。在AIME的基準測試中,以76.4%的高分擊敗DeepSeek-R1-Distill-Qwen-7B。

圖像理解

GPT-4.1 系列在圖像理解方面非常強大,尤其是 GPT-4.1 mini 代表了重大的飛躍,在圖像基準測試中經常擊敗 GPT-4o。

在Video -MME(長篇無字幕)的測試中,模型會根據 30-60 分鐘長的無字幕視頻回答多項選擇題。GPT-4.1 的表現達到了最佳水平,得分爲 72.0%,高於 GPT-4o 的 65.3%。

定價

GPT-4.1 的成本比 GPT-4o 低 26%,而 GPT-4.1 nano 是 OpenAI 迄今爲止最便宜、速度最快的模型。除了標準per-token 的成本外,還提供了無需額外付費的長上下文請求。

定價方面,智譜 Z.ai 整體低於GPT4.1。本次上線的基座模型提供GLM-4-Air-250414 和 GLM-4-Flash-250414兩個版本,其中後者完全免費。推理模型分爲三個版本,分別滿足不同場景需求:

GLM-Z1-AirX(極速版):定位國內最快推理模型,推理速度可達200 tokens/秒,比常規快 8 倍;

GLM-Z1-Air(高性價比版):價格僅爲DeepSeek-R1 的 1/30,適合高頻調用場景;

GLM-Z1-Flash(免費版):支持免費使用,旨在進一步降低模型使用門檻。

雷峰網