☰

編程革命徹底爆發！剛剛，OpenAI最強智能體上線ChatGPT

新智元報道

編輯：編輯部 YXH

【新智元導讀】OpenAI最強AI編程智能體真的來了！Codex震撼上線，由o3優化版codex-1加持，多任務並行，半小時幹完數天軟件工程任務。

從今天起，AI編程正式開啓新時代！

剛剛，Greg Brockman帶隊與OpenAI六人團隊開啓線上直播，震撼發佈了一款雲端AI編程智能體——Codex。

用奧特曼的話來說就是，一個人就能打造無數爆款應用的時代來了！

Codex由新模型codex-1加持，這是o3的一個特調版本，專爲軟件工程量身打造。

它不僅能在雲端沙盒環境中安全地並行處理多項任務，而且通過與GitHub無縫集成，還可以直接調用你的代碼庫。

它不僅僅是一款工具，更是一位「10x工程師」，能夠同時做到：

快速構建功能模塊

深入解答代碼庫問題

精準修復代碼漏洞

提交PR

自動執行測試驗證

過去，這些任務或許耗費開發者數小時乃至數日，如今Codex最多在30分鐘內高效完成。

點擊ChatGPT側邊欄，輸入提示後，直接點擊「代碼」分配任務，或「提問」諮詢代碼庫相關問題

通過強化學習，Codex基於真實世界的編碼任務和多樣化環境訓練，生成的代碼不僅符合人類偏好，還能無縫融入標準工作流。

基準測試顯示，codex-1在SWE-bench上拿下72.1%的高分，一舉擊敗了Claude 3.7以及o3-high。

從今天起，Codex將向全球ChatGPT Pro、Enterprise和Team用戶正式開放，Plus和Edu用戶很快就能上手了。

可以說，AI編程智能體Codex的橫空出世，或將重塑軟件開發的底層邏輯，徹底點燃了編程革命的火種。

Codex多任務並行，AI編程超級加速器

早在2021年，OpenAI首次發佈了CodeX模型，開啓了「氛圍編程」（vibe coding）的時代。

這種編程方式讓開發者與AI協同工作，代碼生產變得更加直觀、高效。

幾周前，OpenAI又推出了CodeX CLI，一款可在本地終端運行的智能體。

但這只是開始！

OpenAI今天推出全新的Codex智能體，再次將軟件工程推向一個全新的高度。

接下來，一睹Codex編碼的驚豔表現吧。

連接GitHub賬戶後，OpenAI研究員Thibault Sottiaux選擇了一個開源倉庫preparedness repo。

然後，他收到了三個任務：

第一個是提問：讓代碼智能體Codex解釋代碼庫，說明整體結構

第二個是代碼任務：要求在代碼庫中查找並修復某個地方bug

第三個任務是提問：遍歷代碼庫，主動提出自己可以執行的任務建議

接下來演示中，Thibault向Codex下達多個任務，比如拼寫和語法糾錯、智能任務委派、多倉庫適配。

在糾錯方面，他故意在指令中加入拼寫錯誤，Codex不僅理解了意圖，還主動找出了代碼庫中的拼寫和語法問題並修復，細緻到令人驚歎。

當Thibault提出希望代碼庫「易維護、無bug」的目標時，Codex遍歷代碼庫後，主動發現了可變默認值、不一致的超時設置等問題，並自行生成了修復任務。

這種「自我委派」能力，堪稱智能體的巔峰表現。

值得注意的是，Codex智能體運行在OpenAI計算基礎設施上，與強化學習共享同一套久經考驗的系統。

每個任務都在獨立的虛擬沙盒中運行，配備專屬的文件系統、CPU、內存、和網絡策略，確保了高效安全。

除了preparedness倉庫，Codex還無縫處理了CodeX CLI庫，展現其在不同項目中的泛化能力。

不論是開源項目，還是內部代碼庫，Codex都遊刃有餘。

Codex接收到了用戶反饋的bug，因爲特殊字符文件名導致了diff命令報錯。

在解決過程中，它不僅能復現問題，還可以編寫測試腳本、運行linter檢查，並生成PR，整個過程僅需幾分鐘。

Thibault直言，「這原本可能花費我30分鐘，甚至幾個小時完成」。

此外，OpenAI研究員Katy Shi演示中強調，Codex的PR包含了詳細的摘要，清晰說明了修改內容和引用的代碼，測試結果一目瞭然。

一番演示下來，Greg表示，Codex讓自己深刻感受到了AGI！

對齊人類偏好

實戰4個開源庫

OpenAI訓練codex-1的一個主要目標，是確保其輸出能高度符合人類的編碼偏好與標準。

與OpenAI o3相比，codex-1能穩定生成更爲簡潔的代碼修改補丁，可以直接供人工審查並集成到標準工作流程中。

爲了體現Codex生成代碼的簡潔和高效，OpenAI提供了Codex和o3對比的4個開源庫實戰實例：

astropy

astropy是一個用於天文學的Python開源庫。

第一個問題是astropy/astropy的倉庫中，Modeling模塊中的separability_matrix無法正確計算嵌套CompoundModels的可分離性。

可以看到，在修改前後的代碼版本對比中，使用Codex修改生成了十分簡潔的代碼。

相比之下，o3修改的代碼就顯得有些冗長了，甚至還將一些「不必要」的註釋加入了源代碼中。

matplotlib

Matplotlib是一個用於創建靜態、動畫和交互式可視化的Python綜合性庫。

這次問題是修復Bug：在mlab._spectral_helper中的窗口校正（windows correction）不正確。

同樣可以看到，Codex修改代碼的過程更爲簡潔。

django

Django是基於Python的Web框架，這個問題是修復僅包含duration（時長）的表達式在SQLite和MySQL上無法正常工作。

Codex的修復過程依然優雅，並且相比o3，還首先補上了缺少的依賴調用。

expensify

expensify是一個圍繞聊天的財務協作的開源軟件。

OpenAI給出的問題是「dd [HOLD for payment 2024-10-14] [$250] LHN - 刪除緩存後，成員聊天室名稱在LHN中未更新」。

同樣可以看到Codex的問題定位和修改更爲精準和有效，o3甚至進行了一次無效的代碼的修改。

OpenAI團隊已經用上了

OpenAI的技術團隊已經開始將Codex作爲他們日常工具包的一部分。

OpenAI的工程師最常使用Codex來執行重複且範圍明確的任務，如重構、重命名和編寫測試，這些任務會打斷他們的專注。

它同樣適用於搭建新功能、連接組件、修復錯誤和起草文檔。

團隊正在圍繞Codex建立新的習慣：處理值班問題、在一天開始時規劃任務，以及執行後臺工作以保持進度。

通過減少上下文切換和提醒被遺忘的待辦事項，Codex幫助工程師更快地交付並專注於最重要的事情。

在正式發佈前，OpenAI與少數外部測試者合作，評估Codex在不同代碼庫、開發流程與團隊環境中的實際表現：

Cisco作爲早期設計合作伙伴，探索Codex在加速工程團隊構思落地方面的潛力，並通過評估真實用例向OpenAI提供反饋，助力模型優化。

Temporal藉助Codex實現功能開發、問題調試、測試編寫與執行的加速，並用於重構大型代碼庫。Codex還能在後臺處理複雜任務，幫助工程師保持專注與高效迭代。

Superhuman利用Codex自動處理小型重複任務，如提高測試覆蓋率和修復集成故障；還使產品經理能夠無需工程介入（除代碼審查外）完成輕量級代碼更改，提升配對效率。

Kodiak在Codex支持下加速調試工具開發、測試覆蓋和代碼重構，推進其自動駕駛系統Kodiak Driver的研發。Codex也作爲參考工具，幫助工程師理解陌生代碼棧，提供相關上下文與歷史更改。

根據目前的使用經驗來看，OpenAI建議：可同時向多個代理分配邊界清晰的任務，並嘗試多種任務類型與提示方式，以更全面地發掘模型能力。

模型系統消息

通過以下系統消息，開發者可以瞭解codex-1的默認行爲，並針對自己的工作流進行調整。

例如，系統消息會引導Codex運行AGENTS.md文件中提到的所有測試，但如果時間緊張，就可以要求Codex跳過這些測試。

Codex CLI更新

上個月，OpenAI推出了一款輕量級開源工具——CodexCLI，可以讓o3和o4-mini等強大模型直接運行在本地終端中，幫助開發者更快完成任務。

這一次，OpenAI同時發佈了專爲Codex CLI優化的小模型版本——codex-1的o4-mini版本。

它具備低延遲、強指令理解力和代碼編輯能力，現已成爲Codex CLI的默認模型，同時也可通過API使用（名稱爲codex-mini-latest），並將持續迭代更新。

此外，Codex CLI的登錄方式也簡化了，開發者現在可以直接用ChatGPT賬戶登錄，選擇API組織，系統將自動生成並配置API密鑰。

爲了鼓勵使用，從今天起30天內，使用ChatGPT賬戶登錄Codex CLI的用戶將獲得免費額度：Plus用戶獲得5美元API使用額度；Pro用戶獲得50美元。

Codex貴不貴

在接下來的幾周內，所有用戶可以「量大管飽」的試用Codex功能。

隨後，OpenAI將引入限流機制和靈活定價，支持按需購買額外使用量。

對於開發者，codex-mini-latest模型已在Responses API上提供，價格爲：

每百萬輸入Token：$1.50

每百萬輸出Token：$6.00

並享有75%的提示緩存摺扣

Codex當前仍處於研究預覽階段，尚不支持圖像輸入等前端能力，也暫不具備在任務執行中進行實時糾正的能力。

此外，委派任務給Codex智能體的響應時間較長，用戶可能需要適應這類異步協作的工作方式。

隨着模型能力不斷提升，Codex將能處理更復雜、更持久的開發任務，逐步成爲更像「遠程開發夥伴」的存在。

下一步是什麼

OpenAI的目標是開發者專注自己擅長的工作，其餘任務交由AI代理處理，從而提升效率與生產力。

Codex將支持實時協作與異步任務委託，兩種工作模式將逐步融合。

Codex CLI等工具已經成爲開發者加速編碼的標配，而由ChatGPT中的Codex引領的異步、多智能體協作流程，有望成爲工程師高效產出高質量代碼的新範式。

未來，開發者將能在IDE和日常工具中與AI協同工作——提問、獲取建議、委派複雜任務，所有操作整合在一個統一的工作流程中。

OpenAI計劃進一步提升交互性和靈活性：

支持任務中途提供指導

與AI協作實施策略

接收主動進度更新

與常用工具（如GitHub、CLI、問題跟蹤器、CI系統）深度集成，便捷分配任務

軟件工程正成爲首批因AI而大幅提效的行業之一，將全面釋放個人與小團隊的巨大潛力。

與此同時，OpenAI也正與合作伙伴共同研究智能體的廣泛應用將如何影響開發流程、技能發展和全球人才分佈。

參考資料：

https://www.youtube.com/watch?v=hhdpnbfH6NU

https://openai.com/index/introducing-codex/

編程革命徹底爆發！剛剛，OpenAI最強智能體上線ChatGPT

相關資訊