☰

凌晨，OpenAI捲進“通用Agent”，Manus們算白忙活嗎？

出品 | 本站科技《態度》欄目

作者 | 袁寧

編輯 | 丁廣勝

OpenAI 終於交Agent 答卷了。

7月18日凌晨，Sam Altman 親自登臺，正式發佈了 ChatGPT 的通用型Agent：不只是對話，而是直接完成任務。

在直播演示中，Agent 模式可以自己訪問網頁、調用終端、自動下單，執行從旅行規劃、PPT 製作到圖像生成與在線購物的整套流程。

是的，似乎是Manus幾個月前就在做的事情。但這次，不同在於，OpenAI 直接將這套流程變成了自身的系統能力。

據介紹， ChatGPT Agent即日起向 Pro、Plus 和 Team 版用戶開放，Enterprise 和 Education 版用戶將於7月獲得使用權限。Pro 版用戶每月400次，Plus 和 Team用戶每月40次。

毫無疑問，Agent是繼 Chatbot 之後，AI 應用範式的又一次重大轉變。AI 正從“會說話的助手”，邁向“真正能做事的代理人”，而Agent 能力似乎也成了大模型進步的“第二曲線”。

然而，OpenAI發佈後，出現了評價冰火兩重天的情況，一邊是不少媒體的“吹爆”，一邊是不少從業者和網友的“下頭”——也不過如此啊，雷聲大雨點小。所以，至於新產品實際效果和體驗如何，還需要進一步測試。

隨着Manus 的出走，以及OpenAI 的進場。一個懸而未決的問題被推向臺前：留給Manus 們的時間還有多少？

01與 Manus 高度相似，但這次是ChatGPT原生

用戶發出一個跨步驟請求，Agent 自動開啓瀏覽器，定位網頁、滾動查找、點擊鏈接、填表下單，一氣呵成。

如果你還對幾個月前 Manus 爆火時的演示有印象，那麼再見這種“AI 動手”的畫面，你可能並不會覺得意外。

而OpenAI 這次的關鍵在於，用系統級重構，把 Manus 想做的事，做成了基礎設施能力。

OpenAI 的 Agent，並非某個工具的單次調用，而是由兩項核心研究成果深度融合而來：Operator（視覺層交互代理）和 Deep Research（多步驟網頁推理）。

前者解決“怎麼動手”，後者擅長“怎麼動腦”，這兩者的融合，讓 Agent 不再只是執行動作，而是具備了真正的任務理解、信息整合與策略優化能力。

再加上三大模塊工具的支持：

最重要的是，這一切都在 ChatGPT 內置的虛擬計算環境中統一調度運行，狀態與上下文持續保留，任務之間無縫銜接。

也就是說，不只是自動點網頁，而是具備了跨工具協同、自主策略選擇的智能。

據OpenAI介紹，它不僅能執行，還能評估執行效果，並在每一步中動態選擇最優路徑。而用戶可以隨時插話調整指令，或臨時接管任務進程。

02 Agent能力成大模型進步的“第二曲線”

在多個基準測試中，OpenAI Agent 展現出顯著優勢：

在人類最後的測試（ Humanities Last Exam）中，模型在覆蓋歷史、哲學、經濟等學科的複雜問題上取得43.1分，相比不帶工具的 o3提高一倍。

在 DSBench 測試中，Agent 能完成數據分析、建模與圖表生成等任務，整體表現超過以往所有開源和閉源模型，尤其在數據分析類項目中已明顯優於人類中位水平。

在 SpreadsheetBench 表格操作測試中，Agent 對複雜電子表格的編輯、函數使用、格式規範處理能力均有顯著進步，得分達到45.5%，是 GPT‑4o 的兩倍，也首次接近 Excel Copilot 的商用水準。

網頁操作方面，Agent 在 WebArena 中成功執行包括賬號登錄、頁面跳轉、數據採集等真實世界任務，其表現已接近人類平均水平。

同時，在信息檢索能力上，Agent 在 BrowseComp 基準中獲得68.9分，創下當前記錄。這一指標直接關係到其自主執行任務時的可靠性。

03留給 Manus 們的窗口期可能比預期更短

OpenAI 的正式下場，或許正在改寫整個 Agent 創業敘事。

就在幾個月前，Manus 還被視爲“國產 Agent 的希望”：它的確在大家還未理解Agent的時候，率先把未來擺在了大家面前，展示出 AI 執行復雜任務的真實潛力。

但7月初，Manus 官網悄然關閉，中國大陸業務暫停，僅保留海外產品線——也讓外界開始重新審視 Agent 初創的現實處境。

前幾天，朱嘯虎還曾公開表示：大模型會吃掉90%的Agent。

當然，Manus的離開背後有監管、合規、資本多重因素。但現在的問題又來到了：當 OpenAI 親自下場，初創通用型 Agent 的機會還有多大？

相關資訊