OpenAI的Agent來了,被批“雞肋”升級?

21世紀經濟報道記者孔海麗、實習生鄭子涵

AI Agent競賽進入白熱化階段,但能力與實用性的鴻溝仍待彌合。

繼年初發布專注於瀏覽器交互的Operator和精於深度研究的DeepResearch之後,OpenAI終於打出了組合拳。7月18日凌晨,集二者之長的ChatGPT Agent正式上線,試圖打造一個能處理端到端複雜任務的“全能助理”。

然而,相較於xAI發佈Grok 4時的萬衆矚目,此次OpenAI的更新在社區卻引發了褒貶不一的討論。一方面,其在多項基準測試中再次“屠榜”,展現了強大的技術實力;另一方面,用戶初期的失望情緒、對其實用性的質疑以及服務器的例行崩潰,都讓這款被寄予厚望的Agent顯得有些“平淡”。

OpenAI此次更像是一次“內部整合”的常規升級,而非顛覆性創新。AI巨頭們的產品迭代,似乎正從追求“暴力美學”的技術突破,轉向解決自身產品短板的精細化運營。

不過也要注意到,相比於當初引起巨大討論的Manus,公衆對於已經成長爲AI巨頭的OpenAI顯然有更高期待和要求。

從官方演示和技術博客來看,ChatGPT Agent的能力覆蓋了從辦公到生活的諸多場景。

其核心邏輯是將Operator的視覺交互能力與DeepResearch的信息合成能力融爲一體。簡單來說,Operator不擅長閱讀長文,而DeepResearch無法與動態網頁互動,ChatGPT Agent則試圖“取長補短”,在一個虛擬機內同時調度視覺瀏覽器、文本瀏覽器和代碼終端。

理論上,它可以完成相當複雜的任務鏈。

比如,辦公自動化,自動分析日曆,結合最新新聞爲即將到來的會議生成簡報;進行競品分析,並直接生成一份可編輯的PPT演示文稿。

生活助手,可以根據用戶喜好規劃一週菜單,並完成在線採購。

深度研究,可以創建研究報告、電子表格或其他詳細文檔。

性能數據也相當亮眼。在被譽爲“人類最後的考試”(HLE)測試中,ChatGPT Agent的pass@1得分達到41.6%,刷新了紀錄。在電子表格處理測試SpreadsheetBench中,其總體準確率達到45.54%,遠超微軟自家Copilot in Excel的20%。

不同AI模型在SpreadsheetBench評估中處理軟限制的性能對比表格(來自OpenAI官網公告)

然而,漂亮的跑分並未完全轉化爲完美的用戶體驗。

“你永遠可以對OpenAI的發佈會,保持失望。”一位資深用戶在體驗後直言。這種情緒在交流社區中並不少見。

爭議主要集中在以下幾個方面:

準確性與效率的矛盾。儘管內部測試稱其在約50%的知識工作任務中表現比肩甚至超越人類,但用戶反饋的實際任務完成率也恰好在50%左右。有用戶抱怨,一個手動操作僅需15秒的任務,Agent卻花費了35分鐘,並且最終結果中的數據還需要花費2-3倍的時間來覈對,效率不升反降。

備受期待的PPT生成功能,其成品被吐槽“被各家其他的通用Agent秒殺”,美觀度嚴重不足。

此外,Agent可以連接用戶的Google Drive、Gmail等私密數據源,也引發了巨大的安全擔憂。有用戶評論,即使是99.99%的成功率,也意味着每週可能在美國產生7200次錯誤,如果涉及金融交易或敏感郵件,後果不堪設想。

高門檻與低配額。目前該功能僅向Pro、Plus和Team用戶開放,且Plus與Team用戶每月僅40次的使用配額,與其“全能助理”的定位似乎並不匹配。

伴隨新功能發佈的,還有ChatGPT雷打不動的服務器崩潰,這幾乎成了OpenAI發佈會的“保留節目”。

如果說馬斯克的Grok 4上演的是一場算力碾壓的“暴力美學”,那麼OpenAI的這次更新更像是一次“精耕細作”的產品迭代。它沒有試圖發明新科學,而是回頭修補了現有產品的短板。

AI競賽正進入下半場。上半場,巨頭們用不斷刷新的跑分和令人驚歎的演示爭奪眼球;下半場,焦點則迴歸到最樸素的問題,如何讓用戶真正用起來,並願意爲之付費?

ChatGPT Agent的發佈,伴隨着對付費用戶嚴格的次數限制,更像是一場大規模的公開測試,而非成熟商業產品的全面鋪開。OpenAI似乎也在摸索,在強大的能力與高昂的運行成本之間,如何找到一個可持續的商業模式。

與此同時,能力越大,風險越大。OpenAI在報告中坦承,該模型在生物和化學武器等領域被評估爲具有“高能力”,這觸發了內部最高級別的安全預警。爲此,公司採取了包括實時監控、禁用記憶功能在內的一系列預防措施。在執行發送郵件等關鍵操作前,Agent也會主動請求用戶許可。

只有服務器不再崩潰、生成的內容無需反覆覈查、用戶能放心地將郵箱和日程表交給它時,AI Agent的時代纔算真正到來。在此之前,無論是OpenAI還是其他玩家,都還有很長的路要走。

不過那個時候,人類是否真的會被AI奪走工作,也將變成更加嚴峻的現實問題。