編程革命徹底爆發!剛剛,OpenAI最強智能體上線ChatGPT
新智元報道
編輯:編輯部 YXH
【新智元導讀】OpenAI最強AI編程智能體真的來了!Codex震撼上線,由o3優化版codex-1加持,多任務並行,半小時幹完數天軟件工程任務。
從今天起,AI編程正式開啓新時代!
剛剛,Greg Brockman帶隊與OpenAI六人團隊開啓線上直播,震撼發佈了一款雲端AI編程智能體——Codex。
用奧特曼的話來說就是,一個人就能打造無數爆款應用的時代來了!
Codex由新模型codex-1加持,這是o3的一個特調版本,專爲軟件工程量身打造。
它不僅能在雲端沙盒環境中安全地並行處理多項任務,而且通過與GitHub無縫集成,還可以直接調用你的代碼庫。
它不僅僅是一款工具,更是一位「10x工程師」,能夠同時做到:
快速構建功能模塊
深入解答代碼庫問題
精準修復代碼漏洞
提交PR
自動執行測試驗證
過去,這些任務或許耗費開發者數小時乃至數日,如今Codex最多在30分鐘內高效完成。
點擊ChatGPT側邊欄,輸入提示後,直接點擊「代碼」分配任務,或「提問」諮詢代碼庫相關問題
通過強化學習,Codex基於真實世界的編碼任務和多樣化環境訓練,生成的代碼不僅符合人類偏好,還能無縫融入標準工作流。
基準測試顯示,codex-1在SWE-bench上拿下72.1%的高分,一舉擊敗了Claude 3.7以及o3-high。
從今天起,Codex將向全球ChatGPT Pro、Enterprise和Team用戶正式開放,Plus和Edu用戶很快就能上手了。
可以說,AI編程智能體Codex的橫空出世,或將重塑軟件開發的底層邏輯,徹底點燃了編程革命的火種。
Codex多任務並行,AI編程超級加速器
早在2021年,OpenAI首次發佈了CodeX模型,開啓了「氛圍編程」(vibe coding)的時代。
這種編程方式讓開發者與AI協同工作,代碼生產變得更加直觀、高效。
幾周前,OpenAI又推出了CodeX CLI,一款可在本地終端運行的智能體。
但這只是開始!
OpenAI今天推出全新的Codex智能體,再次將軟件工程推向一個全新的高度。
接下來,一睹Codex編碼的驚豔表現吧。
連接GitHub賬戶後,OpenAI研究員Thibault Sottiaux選擇了一個開源倉庫preparedness repo。
然後,他收到了三個任務:
第一個是提問:讓代碼智能體Codex解釋代碼庫,說明整體結構
第二個是代碼任務:要求在代碼庫中查找並修復某個地方bug
第三個任務是提問:遍歷代碼庫,主動提出自己可以執行的任務建議
接下來演示中,Thibault向Codex下達多個任務,比如拼寫和語法糾錯、智能任務委派、多倉庫適配。
在糾錯方面,他故意在指令中加入拼寫錯誤,Codex不僅理解了意圖,還主動找出了代碼庫中的拼寫和語法問題並修復,細緻到令人驚歎。
當Thibault提出希望代碼庫「易維護、無bug」的目標時,Codex遍歷代碼庫後,主動發現了可變默認值、不一致的超時設置等問題,並自行生成了修復任務。
這種「自我委派」能力,堪稱智能體的巔峰表現。
值得注意的是,Codex智能體運行在OpenAI計算基礎設施上,與強化學習共享同一套久經考驗的系統。
每個任務都在獨立的虛擬沙盒中運行,配備專屬的文件系統、CPU、內存、和網絡策略,確保了高效安全。
除了preparedness倉庫,Codex還無縫處理了CodeX CLI庫,展現其在不同項目中的泛化能力。
不論是開源項目,還是內部代碼庫,Codex都遊刃有餘。
Codex接收到了用戶反饋的bug,因爲特殊字符文件名導致了diff命令報錯。
在解決過程中,它不僅能復現問題,還可以編寫測試腳本、運行linter檢查,並生成PR,整個過程僅需幾分鐘。
Thibault直言,「這原本可能花費我30分鐘,甚至幾個小時完成」。
此外,OpenAI研究員Katy Shi演示中強調,Codex的PR包含了詳細的摘要,清晰說明了修改內容和引用的代碼,測試結果一目瞭然。
一番演示下來,Greg表示,Codex讓自己深刻感受到了AGI!
對齊人類偏好
實戰4個開源庫
OpenAI訓練codex-1的一個主要目標,是確保其輸出能高度符合人類的編碼偏好與標準。
與OpenAI o3相比,codex-1能穩定生成更爲簡潔的代碼修改補丁,可以直接供人工審查並集成到標準工作流程中。
爲了體現Codex生成代碼的簡潔和高效,OpenAI提供了Codex和o3對比的4個開源庫實戰實例:
astropy
astropy是一個用於天文學的Python開源庫。
第一個問題是astropy/astropy的倉庫中,Modeling模塊中的separability_matrix無法正確計算嵌套CompoundModels的可分離性。
可以看到,在修改前後的代碼版本對比中,使用Codex修改生成了十分簡潔的代碼。
相比之下,o3修改的代碼就顯得有些冗長了,甚至還將一些「不必要」的註釋加入了源代碼中。
matplotlib
Matplotlib是一個用於創建靜態、動畫和交互式可視化的Python綜合性庫。
這次問題是修復Bug:在mlab._spectral_helper中的窗口校正(windows correction)不正確。
同樣可以看到,Codex修改代碼的過程更爲簡潔。
django
Django是基於Python的Web框架,這個問題是修復僅包含duration(時長)的表達式在SQLite和MySQL上無法正常工作。
Codex的修復過程依然優雅,並且相比o3,還首先補上了缺少的依賴調用。
expensify
expensify是一個圍繞聊天的財務協作的開源軟件。
OpenAI給出的問題是「dd [HOLD for payment 2024-10-14] [$250] LHN - 刪除緩存後,成員聊天室名稱在LHN中未更新」。
同樣可以看到Codex的問題定位和修改更爲精準和有效,o3甚至進行了一次無效的代碼的修改。
OpenAI團隊已經用上了
OpenAI的技術團隊已經開始將Codex作爲他們日常工具包的一部分。
OpenAI的工程師最常使用Codex來執行重複且範圍明確的任務,如重構、重命名和編寫測試,這些任務會打斷他們的專注。
它同樣適用於搭建新功能、連接組件、修復錯誤和起草文檔。
團隊正在圍繞Codex建立新的習慣:處理值班問題、在一天開始時規劃任務,以及執行後臺工作以保持進度。
通過減少上下文切換和提醒被遺忘的待辦事項,Codex幫助工程師更快地交付並專注於最重要的事情。
在正式發佈前,OpenAI與少數外部測試者合作,評估Codex在不同代碼庫、開發流程與團隊環境中的實際表現:
Cisco作爲早期設計合作伙伴,探索Codex在加速工程團隊構思落地方面的潛力,並通過評估真實用例向OpenAI提供反饋,助力模型優化。
Temporal藉助Codex實現功能開發、問題調試、測試編寫與執行的加速,並用於重構大型代碼庫。Codex還能在後臺處理複雜任務,幫助工程師保持專注與高效迭代。
Superhuman利用Codex自動處理小型重複任務,如提高測試覆蓋率和修復集成故障;還使產品經理能夠無需工程介入(除代碼審查外)完成輕量級代碼更改,提升配對效率。
Kodiak在Codex支持下加速調試工具開發、測試覆蓋和代碼重構,推進其自動駕駛系統Kodiak Driver的研發。Codex也作爲參考工具,幫助工程師理解陌生代碼棧,提供相關上下文與歷史更改。
根據目前的使用經驗來看,OpenAI建議:可同時向多個代理分配邊界清晰的任務,並嘗試多種任務類型與提示方式,以更全面地發掘模型能力。
模型系統消息
通過以下系統消息,開發者可以瞭解codex-1的默認行爲,並針對自己的工作流進行調整。
例如,系統消息會引導Codex運行AGENTS.md文件中提到的所有測試,但如果時間緊張,就可以要求Codex跳過這些測試。
Codex CLI更新
上個月,OpenAI推出了一款輕量級開源工具——CodexCLI,可以讓o3和o4-mini等強大模型直接運行在本地終端中,幫助開發者更快完成任務。
這一次,OpenAI同時發佈了專爲Codex CLI優化的小模型版本——codex-1的o4-mini版本。
它具備低延遲、強指令理解力和代碼編輯能力,現已成爲Codex CLI的默認模型,同時也可通過API使用(名稱爲codex-mini-latest),並將持續迭代更新。
此外,Codex CLI的登錄方式也簡化了,開發者現在可以直接用ChatGPT賬戶登錄,選擇API組織,系統將自動生成並配置API密鑰。
爲了鼓勵使用,從今天起30天內,使用ChatGPT賬戶登錄Codex CLI的用戶將獲得免費額度:Plus用戶獲得5美元API使用額度;Pro用戶獲得50美元。
Codex貴不貴
在接下來的幾周內,所有用戶可以「量大管飽」的試用Codex功能。
隨後,OpenAI將引入限流機制和靈活定價,支持按需購買額外使用量。
對於開發者,codex-mini-latest模型已在Responses API上提供,價格爲:
每百萬輸入Token:$1.50
每百萬輸出Token:$6.00
並享有75%的提示緩存摺扣
Codex當前仍處於研究預覽階段,尚不支持圖像輸入等前端能力,也暫不具備在任務執行中進行實時糾正的能力。
此外,委派任務給Codex智能體的響應時間較長,用戶可能需要適應這類異步協作的工作方式。
隨着模型能力不斷提升,Codex將能處理更復雜、更持久的開發任務,逐步成爲更像「遠程開發夥伴」的存在。
下一步是什麼
OpenAI的目標是開發者專注自己擅長的工作,其餘任務交由AI代理處理,從而提升效率與生產力。
Codex將支持實時協作與異步任務委託,兩種工作模式將逐步融合。
Codex CLI等工具已經成爲開發者加速編碼的標配,而由ChatGPT中的Codex引領的異步、多智能體協作流程,有望成爲工程師高效產出高質量代碼的新範式。
未來,開發者將能在IDE和日常工具中與AI協同工作——提問、獲取建議、委派複雜任務,所有操作整合在一個統一的工作流程中。
OpenAI計劃進一步提升交互性和靈活性:
支持任務中途提供指導
與AI協作實施策略
接收主動進度更新
與常用工具(如GitHub、CLI、問題跟蹤器、CI系統)深度集成,便捷分配任務
軟件工程正成爲首批因AI而大幅提效的行業之一,將全面釋放個人與小團隊的巨大潛力。
與此同時,OpenAI也正與合作伙伴共同研究智能體的廣泛應用將如何影響開發流程、技能發展和全球人才分佈。
參考資料:
https://www.youtube.com/watch?v=hhdpnbfH6NU
https://openai.com/index/introducing-codex/