凌晨,OpenAI捲進“通用Agent”,Manus們算白忙活嗎?
出品 | 本站科技《態度》欄目
作者 | 袁寧
編輯 | 丁廣勝
OpenAI 終於交Agent 答卷了。
7月18日凌晨,Sam Altman 親自登臺,正式發佈了 ChatGPT 的通用型Agent:不只是對話,而是直接完成任務。
在直播演示中,Agent 模式可以自己訪問網頁、調用終端、自動下單,執行從旅行規劃、PPT 製作到圖像生成與在線購物的整套流程。
是的,似乎是Manus幾個月前就在做的事情。但這次,不同在於,OpenAI 直接將這套流程變成了自身的系統能力。
據介紹, ChatGPT Agent即日起向 Pro、Plus 和 Team 版用戶開放,Enterprise 和 Education 版用戶將於7月獲得使用權限。Pro 版用戶每月400次,Plus 和 Team用戶每月40次。
毫無疑問,Agent是繼 Chatbot 之後,AI 應用範式的又一次重大轉變。AI 正從“會說話的助手”,邁向“真正能做事的代理人”,而Agent 能力似乎也成了大模型進步的“第二曲線”。
然而,OpenAI發佈後,出現了評價冰火兩重天的情況,一邊是不少媒體的“吹爆”,一邊是不少從業者和網友的“下頭”——也不過如此啊,雷聲大雨點小。所以,至於新產品實際效果和體驗如何,還需要進一步測試。
隨着Manus 的出走,以及OpenAI 的進場。一個懸而未決的問題被推向臺前:留給Manus 們的時間還有多少?
01與 Manus 高度相似,但這次是ChatGPT原生
用戶發出一個跨步驟請求,Agent 自動開啓瀏覽器,定位網頁、滾動查找、點擊鏈接、填表下單,一氣呵成。
如果你還對幾個月前 Manus 爆火時的演示有印象,那麼再見這種“AI 動手”的畫面,你可能並不會覺得意外。
而OpenAI 這次的關鍵在於,用系統級重構,把 Manus 想做的事,做成了基礎設施能力。
OpenAI 的 Agent,並非某個工具的單次調用,而是由兩項核心研究成果深度融合而來:Operator(視覺層交互代理)和 Deep Research(多步驟網頁推理)。
前者解決“怎麼動手”,後者擅長“怎麼動腦”,這兩者的融合,讓 Agent 不再只是執行動作,而是具備了真正的任務理解、信息整合與策略優化能力。
再加上三大模塊工具的支持:
最重要的是,這一切都在 ChatGPT 內置的虛擬計算環境中統一調度運行,狀態與上下文持續保留,任務之間無縫銜接。
也就是說,不只是自動點網頁,而是具備了跨工具協同、自主策略選擇的智能。
據OpenAI介紹,它不僅能執行,還能評估執行效果,並在每一步中動態選擇最優路徑。而用戶可以隨時插話調整指令,或臨時接管任務進程。
02 Agent能力成大模型進步的“第二曲線”
在多個基準測試中,OpenAI Agent 展現出顯著優勢:
在人類最後的測試( Humanities Last Exam) 中,模型在覆蓋歷史、哲學、經濟等學科的複雜問題上取得43.1分,相比不帶工具的 o3提高一倍。
在 DSBench 測試中,Agent 能完成數據分析、建模與圖表生成等任務,整體表現超過以往所有開源和閉源模型,尤其在數據分析類項目中已明顯優於人類中位水平。
在 SpreadsheetBench 表格操作測試中,Agent 對複雜電子表格的編輯、函數使用、格式規範處理能力均有顯著進步,得分達到45.5%,是 GPT‑4o 的兩倍,也首次接近 Excel Copilot 的商用水準。
網頁操作方面,Agent 在 WebArena 中成功執行包括賬號登錄、頁面跳轉、數據採集等真實世界任務,其表現已接近人類平均水平。
同時,在信息檢索能力上,Agent 在 BrowseComp 基準中獲得68.9分,創下當前記錄。這一指標直接關係到其自主執行任務時的可靠性。
03留給 Manus 們的窗口期可能比預期更短
OpenAI 的正式下場,或許正在改寫整個 Agent 創業敘事。
就在幾個月前,Manus 還被視爲“國產 Agent 的希望”:它的確在大家還未理解Agent的時候,率先把未來擺在了大家面前,展示出 AI 執行復雜任務的真實潛力。
但7月初,Manus 官網悄然關閉,中國大陸業務暫停,僅保留海外產品線——也讓外界開始重新審視 Agent 初創的現實處境。
前幾天,朱嘯虎還曾公開表示:大模型會吃掉90%的Agent。
當然,Manus的離開背後有監管、合規、資本多重因素。但現在的問題又來到了:當 OpenAI 親自下場,初創通用型 Agent 的機會還有多大?