☰

OpenAI的Agent來了，被批“雞肋”升級？

21世紀經濟報道記者孔海麗、實習生鄭子涵

AI Agent競賽進入白熱化階段，但能力與實用性的鴻溝仍待彌合。

繼年初發布專注於瀏覽器交互的Operator和精於深度研究的DeepResearch之後，OpenAI終於打出了組合拳。7月18日凌晨，集二者之長的ChatGPT Agent正式上線，試圖打造一個能處理端到端複雜任務的“全能助理”。

然而，相較於xAI發佈Grok 4時的萬衆矚目，此次OpenAI的更新在社區卻引發了褒貶不一的討論。一方面，其在多項基準測試中再次“屠榜”，展現了強大的技術實力；另一方面，用戶初期的失望情緒、對其實用性的質疑以及服務器的例行崩潰，都讓這款被寄予厚望的Agent顯得有些“平淡”。

OpenAI此次更像是一次“內部整合”的常規升級，而非顛覆性創新。AI巨頭們的產品迭代，似乎正從追求“暴力美學”的技術突破，轉向解決自身產品短板的精細化運營。

不過也要注意到，相比於當初引起巨大討論的Manus，公衆對於已經成長爲AI巨頭的OpenAI顯然有更高期待和要求。

從官方演示和技術博客來看，ChatGPT Agent的能力覆蓋了從辦公到生活的諸多場景。

其核心邏輯是將Operator的視覺交互能力與DeepResearch的信息合成能力融爲一體。簡單來說，Operator不擅長閱讀長文，而DeepResearch無法與動態網頁互動，ChatGPT Agent則試圖“取長補短”，在一個虛擬機內同時調度視覺瀏覽器、文本瀏覽器和代碼終端。

理論上，它可以完成相當複雜的任務鏈。

比如，辦公自動化，自動分析日曆，結合最新新聞爲即將到來的會議生成簡報；進行競品分析，並直接生成一份可編輯的PPT演示文稿。

生活助手，可以根據用戶喜好規劃一週菜單，並完成在線採購。

深度研究，可以創建研究報告、電子表格或其他詳細文檔。

性能數據也相當亮眼。在被譽爲“人類最後的考試”（HLE）測試中，ChatGPT Agent的pass@1得分達到41.6%，刷新了紀錄。在電子表格處理測試SpreadsheetBench中，其總體準確率達到45.54%，遠超微軟自家Copilot in Excel的20%。

不同AI模型在SpreadsheetBench評估中處理軟限制的性能對比表格（來自OpenAI官網公告）

然而，漂亮的跑分並未完全轉化爲完美的用戶體驗。

“你永遠可以對OpenAI的發佈會，保持失望。”一位資深用戶在體驗後直言。這種情緒在交流社區中並不少見。

爭議主要集中在以下幾個方面：

準確性與效率的矛盾。儘管內部測試稱其在約50%的知識工作任務中表現比肩甚至超越人類，但用戶反饋的實際任務完成率也恰好在50%左右。有用戶抱怨，一個手動操作僅需15秒的任務，Agent卻花費了35分鐘，並且最終結果中的數據還需要花費2-3倍的時間來覈對，效率不升反降。

備受期待的PPT生成功能，其成品被吐槽“被各家其他的通用Agent秒殺”，美觀度嚴重不足。

此外，Agent可以連接用戶的Google Drive、Gmail等私密數據源，也引發了巨大的安全擔憂。有用戶評論，即使是99.99%的成功率，也意味着每週可能在美國產生7200次錯誤，如果涉及金融交易或敏感郵件，後果不堪設想。

高門檻與低配額。目前該功能僅向Pro、Plus和Team用戶開放，且Plus與Team用戶每月僅40次的使用配額，與其“全能助理”的定位似乎並不匹配。

伴隨新功能發佈的，還有ChatGPT雷打不動的服務器崩潰，這幾乎成了OpenAI發佈會的“保留節目”。

如果說馬斯克的Grok 4上演的是一場算力碾壓的“暴力美學”，那麼OpenAI的這次更新更像是一次“精耕細作”的產品迭代。它沒有試圖發明新科學，而是回頭修補了現有產品的短板。

AI競賽正進入下半場。上半場，巨頭們用不斷刷新的跑分和令人驚歎的演示爭奪眼球；下半場，焦點則迴歸到最樸素的問題，如何讓用戶真正用起來，並願意爲之付費？

ChatGPT Agent的發佈，伴隨着對付費用戶嚴格的次數限制，更像是一場大規模的公開測試，而非成熟商業產品的全面鋪開。OpenAI似乎也在摸索，在強大的能力與高昂的運行成本之間，如何找到一個可持續的商業模式。

與此同時，能力越大，風險越大。OpenAI在報告中坦承，該模型在生物和化學武器等領域被評估爲具有“高能力”，這觸發了內部最高級別的安全預警。爲此，公司採取了包括實時監控、禁用記憶功能在內的一系列預防措施。在執行發送郵件等關鍵操作前，Agent也會主動請求用戶許可。

只有服務器不再崩潰、生成的內容無需反覆覈查、用戶能放心地將郵箱和日程表交給它時，AI Agent的時代纔算真正到來。在此之前，無論是OpenAI還是其他玩家，都還有很長的路要走。

不過那個時候，人類是否真的會被AI奪走工作，也將變成更加嚴峻的現實問題。

相關資訊