ChatGPT Agent 團隊專訪:基模公司做通用 Agent,和 Manus 有什麼不一樣?
基模公司下場做通用 Agent 了。
OpenAI 這麼介紹 ChatGPT Agent——第一個在計算機上完全「具身化」的 Agent。在疊加了 Deep Research 和 Operator 兩者能力之後,ChatGPT Agent 實現了多種工具共享狀態,使用戶能夠在單一環境中,流暢地在視覺瀏覽、文本分析和代碼執行之間切換。同時,能夠在執行長達一個小時的複雜任務時「不失控」。
怎麼做到的?
他們沒有爲特定的工具使用模式編寫程序,而是讓模型通過在數千個虛擬機上進行 RL,自行發現最優策略。用核心研究者 Casey Chu 的原話,更形象地來說:我們基本上是給了模型一堆工具,然後把它「鎖在房間裡」讓它自己去實驗。我們並不會明確告訴它什麼時候該用什麼工具,它會自己琢磨出來。
在 ChatGPT Agent 發佈後,紅杉資本與團隊的三位核心成員 Issa Fulford、Casey Chu 和 Edward Sun 進行對話,探討了 ChatGPT Agent 背後的訓練方法、如何解決 Agent 實際與現實世界交互的風險問題,以及未來的 Agent 交互形態等。
雖然下場略晚,但基模公司對於 Agent 的技術思路和訓練方法,頗多可借鑑之處。,當下 Agent 的痛點到底在哪裡,已經很明確了。
Founder Park 對訪談內容進行了編譯,並做了精簡處理。
超 10000 人的「AI 產品市集」社羣!不錯過每一款有價值的 AI 應用。
邀請從業者、開發人員和創業者,飛書掃碼加羣:
進羣后,你有機會得到:
最新、最值得關注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準的AI產品曝光渠道
01給模型一堆工具,讓它自己琢磨
主持人:先介紹下 ChatGPT Agent 是什麼?
Issa Fulford:簡單來說,這是我們團隊將「深度研究」和「Operator」這兩個方向結合的成果,我們在 ChatGPT 中創造了一個全新的 Agent。這個 Agent 擅長處理那些對人類來說非常耗時的複雜任務。
爲了實現這一點,我們給了它一臺「虛擬計算機」,讓它能通過多種方式與網絡世界交互。首先,它有一個文本瀏覽器,這和「深度研究」工具很像,能高效地抓取和搜索在線信息。同時,它還有一個圖形界面的虛擬瀏覽器,這更像是「Operator」工具,讓它能像人一樣,在網頁上點擊、填表、滾動、拖拽。這兩種工具的結合,比單一的工具效果更好,一個側重效率,另一個側重靈活性。
同時,我們爲它開放了終端(terminal)權限。這意味着它能運行代碼、分析文件,以及幫你製作電子表格和幻燈片。通過終端,它還能調用公共或私有的 API。只要你授權登錄,它就能訪問你的 GitHub、Google Drive、SharePoint 等各種服務。
最酷的一點是,所有這些工具都「共享狀態」。就像你在自己的電腦上,所有應用都能訪問同一個文件系統。這個 Agent 同樣也是,可以在不同工具間靈活切換來執行任務,能代表用戶處理極其複雜的任務。
主持人:這種結合在多大程度上實現了「1+1 > 2」的效果?
Edward Sun:在深度研究項目中,我們一直想弄清楚如何讓它能訪問一個真正的瀏覽器,從而加載所有真實的內容,這是之前的深度研究無法做到的。這次的結合實現了這個目標。
Casey Chu:你用「1+1 > 2」來形容很有趣,因爲我們不僅結合了深度研究和 Operator,還加入了我們能想到的幾乎所有其他工具。比如終端工具,讓它能運行命令做計算;還有圖片生成工具,如果它想給幻燈片配張圖,也能自己搞定。
主持人:它能調用API,還能製作 PPT?
Casey Chu:是的,它能做的事情非常多。
主持人:技術方面,ChatGPT Agent 是怎麼做的?
Edward Sun:這個 Agent 是用強化學習(RL)技術訓練的。我們爲它提供了前面提到的所有工具,包括文本瀏覽器、圖形界面瀏覽器、終端等,都集成在同一個虛擬機裡。然後,我們給它設定一些相當困難的任務,它必須綜合利用這些工具才能完成。如果它完成得又快又好,我們就會給予獎勵。通過這種方式,它逐漸學會了如何在這些工具間自如切換。經過這樣的訓練後,模型能學會在這些工具之間流暢地切換。
Issa Fulford:我認爲這個工具與過去那些工具使用的實現方式相比,最酷的一點是所有工具都「共享狀態」。就像你的電腦,用瀏覽器下載的文件,其他軟件也能立刻訪問。Agent 也是一樣,它可以用文本瀏覽器高效地打開一個頁面,發現需要視覺交互時,再無縫切換到圖形瀏覽器;或者用瀏覽器下載一個文件,然後在終端裡對它進行處理。這種靈活性,給了模型一種更強的能力,去和網絡、文件、代碼進行交互。
Casey Chu:需要強調的是,我們基本上是給了模型一堆工具,然後把它「鎖在房間裡」讓它自己去實驗。我們並不會明確告訴它什麼時候該用什麼工具,它會自己琢磨出來。這過程幾乎像魔法一樣。
主持人:聽起來和深度研究的技術非常相似,這是 OpenAI 未來訓練 Agent 的標準方法嗎?
Issa Fulford:我認爲我們還可以把這項技術推向更遠。我們的團隊合作的時間其實並不長,我們甚至把這次模型運行的定位描述爲「最低可交付的風險規避版本」,這個版本只是我們能一起做出的最基礎的形態。
比如幻燈片製作能力,雖然已經非常令人印象深刻了,但我們還有很多可以進一步推動和改進的地方。我們可以用同樣的技術把它做得更好,當然,未來可能也需要引入新的東西。
Edward Sun:是的,到目前爲止,同一個算法能從基礎的工具調用,進化到如今更高級的計算機和瀏覽器使用,感覺相當神奇。
02可以運行一小時而不「失控」
主持人:大家通常使用 ChatGPT Agent 做什麼?
Issa Fulford:我認爲最酷的一點是,關於人們會如何使用它,我們有一些自己的想法或預設,但我們也有意讓它保持了相當大的開放性。它被命名爲 Agent,這個詞本身就很寬泛,部分原因是我們很期待看到人們最終如何使用它。
當然,我們重點訓練了它處理幾類任務。比如「深度研究」類的,當你需要一份關於某個主題的詳盡報告時;或是「Operator」類的,你希望它幫你預訂、買東西;此外,還有製作幻燈片、處理電子表格和數據分析。
但我認爲,ChatGPT Agent還能做其他許多事情。就像我們當初推出深度研究時,很多人用它來搜索代碼,這完全超出了我們的預料。我們希望能看到更多我們自己都想不到的新用例。
主持人:你覺得它的應用會更偏向消費者(B2C)還是商業(B2B)領域?或者說這種劃分本身就是錯誤的?
Issa Fulford:我們希望兩者兼顧。我們的目標用戶是「專業消費者」(prosumer),那些願意爲了一個詳細報告等待 30 分鐘的人。這既可能發生在個人場景,也可能發生在工作場景。我認爲它兩者都適用。
主持人:你們自己有沒有特別喜歡用它來做的某件事?
Edward Sun:我主要是用它從 Google Docs 的電子表格或內部日誌裡提取數據,然後整理成幻燈片做展示。這個功能對我來說非常實用。
Casey Chu:我最近在用它研究古代 DNA,這是我的個人愛好。這個領域在過去五年有很多激動人心的進展,但因爲太新了,網上缺乏系統性的總結資料。Agent 剛好可以幫我搜集所有相關論文和信息,整合成一份報告或幻燈片供我閱讀。我認爲它簡直是爲這個主題量身定做的。
Issa Fulford:我喜歡用它處理一些個人消費場景,比如網上購物。很多網站有複雜的篩選器,或者需要你直觀地看到商品的樣子,這時候視覺瀏覽器就特別有用。此外,用它來策劃活動也很方便。
主持人:在我們錄製播客之前,你們還展示了一個非常酷的案例,分享一下。
Issa Fulford:這是我們同事 Tedel 的一個嘗試。她讓 Agent 根據網上能找到的信息,估算 OpenAI 的市值,並創建一個帶預測的財務模型。具體來說,是先創建一個電子表格,生成一份總結報告,最後再做成幻燈片來展示。希望它的預測是準的,因爲它給出的數字相當樂觀。
主持人:那份幻燈片確實令人印象深刻。
Issa Fulford:是的。關於這個過程,我想指出的一點是,它推理了大概 28 分鐘。我認爲開啓了一種新的範式,你給 Agent 一個任務,然後你走開,它帶着一份報告回來。隨着 Agent 變得越來越有自主性,任務的時長會越來越長,這是一個很好的例子。
主持人:這是你們目前運行時間最長的任務嗎?
Casey Chu:我想是的。我剛剛就運行了一個長達一小時的任務,我以前從沒見過這麼久的。
主持人:是什麼技術能讓 Agent 運行這麼長時間但不會「失控」?
Edward Sun:我們有一些工具,能讓模型突破其原有的上下文長度限制,進一步擴展它的處理範圍。這樣,模型就能夠通過一步步記錄它正在做什麼,就像在逐漸增加任務的時間跨度,但不需要人類的干預。
主持人:而且整個協作流程似乎非常順暢。我可以在它執行任務的過程中隨時介入嗎?
Issa Fulford:是的。這個模型非常靈活,且善於協作,這對我們至關重要。它的交互模式是模仿你請求別人爲你完成一項任務時的情景。比如,你在 Slack 上請同事幫忙。你先給出指令,他們可能會問幾個問題,然後開始工作。中途,他們可能會再來找你:「關於這個,你能再澄清一下嗎?」或者「你能幫我登錄一下這個網站嗎?」
同樣,你也可能會想起一些事,中途打斷他們:「哦對了,記得把那個也做了。」或者,如果他們偏離了方向,你也可以隨時糾正。
我認爲,用戶和 Agent 都能主動發起溝通,這一點至關重要。我們現在的版本,可能是這種模式最基礎的形態,但它已經比我們之前在該領域發佈的任何產品都要好。首先,Agent 可以像深度研究那樣問你一些澄清性問題,但方式更靈活,它不總是會問。其次,你可以打斷它。此外,如果它要執行某些破壞性操作時,或者需要你登錄某個服務,也會在行動前徵求用戶的許可。
Casey Chu:我們還爲它構建了一個類似計算機桌面的界面。你可以實時觀察 Agent 在做什麼。任務完成後,這個界面依然存在,你可以回去追問,讓它修改,或者執行下一個任務。
你還可以隨時「接管」那臺虛擬電腦,親自點擊、爲它登錄、輸入你的信用卡信息等等。我喜歡把它比作「站在同事身後看他操作,並在必要時搭把手」。
03第一個在計算機上完全「具身化」的 Agent
主持人:訓練這個 Agent 最困難的部分是什麼?
Edward Sun:我認爲最大挑戰之一是如何保持訓練的穩定性。我們實際上是同時啓動成百上千個虛擬機,然後讓它們同時訪問互聯網。所以訓練起來其實相當困難,訓練也經常失敗。
主持人:下一步計劃是什麼?
Casey Chu:我認爲,這個 Agent 框架的一個我喜歡的地方在於,你可以讓它做任何你想做的事。你可以讓它執行你所能想象到的所有任務,只是它可能做得不夠好而已。比如,你可以讓它「上網給我賺錢」,它真的會去試試。所以我覺得,我們接下來的核心工作,其實就是一個不斷提升準確率的過程——讓它在人類會在電腦上做的所有任務上,都表現得更好。而這是一個非常龐大的任務集合。
Edward Sun:是的,通過這種迭代部署,我們非常期待看到用戶會在我們的 Agent 中發現哪些新的能力,就像在深度研究中發現了編碼能力,或者在 Operator 中發現了深度研究能力一樣。
主持人:你自己會用 Agent 來寫代碼嗎?
Edward Sun:我經常用它來編碼。我發現它不會總想着重寫我的整個代碼庫,而是更擅長做一些小範圍的編輯。而且它能很好地閱讀不同函數的原始文檔,所以我感覺它在函數編碼方面的「幻覺」更少。
主持人:在實際工作中,你怎麼選擇什麼時候用 Codex,什麼時候用 Agent?
Edward Sun:我使用 Agent 的方式,更像是和 GPT-4o 互動,是一種交互式的體驗。而 Codex 更像是,你有一個精心設計好的問題,希望一個「同事」來解決,他會直接爲你創建一個 PR(代碼合併請求)。相比之下,Agent 更像是在旁邊給你提供一個函數建議或是一段代碼參考。
主持人:它能通過 API 訪問 GitHub,整合了各種能力。
Casey Chu:是的。到目前爲止,感覺我們把 Agent 所需的各種「肢體」都構建了出來,然後將它們全部整合到了一起。這真的就像是第一個在計算機上完全「具身化」的 Agent。這非常令人興奮。
Issa Fulford:是的,另一個我們很期待推進的領域是與 Agent 協作的體驗。我認爲這個模型在多輪對話方面已經非常出色,能夠持續處理一個任務,體驗很好。這恰好是之前「深度研究」的不足之處。很多人會在一次對話中發出多個深度研究請求,但效果往往不佳。所以我們對它目前的多輪對話能力非常滿意,並希望進一步提升。
此外,我還認爲個性化和記憶對於 Agent 來說也至關重要。而且,目前每個 Agent 任務都是由用戶發起的,但在未來,它應該能夠在你甚至沒有提出要求的情況下,就主動爲你完成任務。
Casey Chu:我也對 Agent 的用戶界面(UI)和用戶體驗(UX)充滿期待。現在我們是在 ChatGPT 的對話框裡工作,但完全可以想象未來會有更多、更豐富的與 Agent 互動的模式。
04未來可能是一個統一的通用 Agent
主持人:你認爲未來會是一個單一的、無所不包的超級 Agent,還是會分化出像金融分析師、派對策劃師這樣的子 Agent?
Issa Fulford:我覺得大家有不同的看法。但我認爲,從終極體驗來看,最理想的狀態是你只需要提出一個需求,它就能自己搞清楚該如何完成。就像你擁有一個極其出色的幕僚長,他知道如何正確地分配任務,並能搞定你需要的任何事,那樣的體驗會非常輕鬆。
Casey Chu:我同意這個觀點。在我們的實際測試中,當模型處理一個購物任務時,它有時會自己打開終端去做一些預算計算。我認爲模型就應該能夠自由地調用所有工具,它不需要先成爲一個「金融分析師」,才能使用金融分析的工具。
Edward Sun:我覺得,在發佈產品時,推出像 GPTs 那樣定製化的模型或指令,讓模型扮演特定角色,是合理的。但在底層訓練時,各種技能——比如深度研究、網頁操作、幻燈片製作——之間存在很多積極的遷移效應。所以,只訓練一個強大的、單一的底層 Agent 模型,要合理得多。
主持人:要達到這樣一個能勝任廣泛任務的 Agent,是不是需要非常大量的數據?從強化學習的角度來看,有哪些經驗教訓?
Edward Sun:是的。我們實際上創建了一系列非常多樣化的任務。有些任務需要在互聯網上尋找非常小衆的話題或答案,有些任務則非常類似於深度研究,需要寫一篇完整的長文。還有很多任務,就是我們希望模型擅長的所有任務。到目前爲止,我們認爲,只要你能對這些任務進行評估,也就是在模型給出結果後,你能判斷它的表現好壞,你就能可靠地訓練模型在這項任務上表現得更好。
Issa Fulford:強化學習的數據效率非常高。這意味着我們能夠精心策劃一個規模小得多但質量非常高的數據集。這個數據的規模與預訓練數據的規模相比簡直是微不足道。因此,我們能夠通過策劃這些規模小得多的高質量數據集,來教給模型新的能力。
Casey Chu:我補充一點,爲了讓 Operator 這部分能運作良好,在進行強化學習之前,模型本身必須足夠好,能夠對任務有一個基本的完成能力。我們的團隊在過去的兩三年裡花了很多時間,才讓模型對網頁和視覺元素的理解達到了一個能真正進行有效推理的水平。所以,今天的成果是建立在所有這些基礎之上的。
主持人:我記得 OpenAI 早期有個叫「比特世界」(World of Bits)的項目,當時用強化學習訓練鼠標路徑似乎是個無解的難題。現在是什麼改變了,讓這個問題變得可以解決了?
Casey Chu:「比特世界」這個項目有很長的歷史淵源,可以追溯到 2017 年。實際上,我們計算機使用部分的代號就是「比特世界 2」。變化在於訓練的規模。我不知道具體的倍數,但計算量上肯定有 10 萬倍之類的增長。我們做的預訓練和強化學習的數據量也增加了。所以,我真的認爲就是規模,規模終於趕上了我們的雄心。
主持人:規模就是你所需要的一切。
Casey Chu:當然,還需要好的數據。
主持人:在 Agent 模式中,有哪些特別讓你興奮的功能或能力?
Edward Sun:它在進行真正的數據科學研究,並將發現總結到電子表格裡的能力,表現得相當不錯。在一些數據科學的基準測試中,它的表現實際上已經超過了人類基線。這意味着在某些任務上,它已經是超人類的了,我們可以依賴它做一些基礎分析。這是我們團隊的 John Blackman 一直在大力推動的領域。
Casey Chu:另一件讓我興奮的事是基礎能力的提升。我們在一月份發佈的 Operator,在點擊操作上還算可以,但現在我們已經大幅提升了這方面的能力,它準確得多了,能把基礎的事情做好。能可靠地填寫表單,做這類事情,這正是我感到興奮的地方。
主持人:ChatGPT Agent 項目的下一步規劃是什麼?
Issa Fulford:我認爲我們真正興奮的是,我們給模型提供的這個工具集非常通用。它基本上涵蓋了你在電腦上能做的大部分事情。如果你想一下人類在電腦上能做的所有任務,那範圍是極其廣泛的。所以現在我們覺得,問題就在於我們如何讓模型也擅長所有這些任務,並找到一種方法,用這個非常通用的工具來訓練儘可能多樣化的任務。所以我認爲我們面前還有很多艱苦的工作,但我們對此非常興奮。
同時,我也很期待推動與 Agent 互動的不同形式。我認爲用戶和這些虛擬助手或 Agent 之間未來會出現很多新的互動範式。所以,未來有很多激動人心的時刻。
05目前還沒解決好「與現實世界交互」的問題
主持人:ChatGPT Agent 目前存在哪些問題或者風險?
Issa Fulford:我認爲 ChatGPT Agent有一個很有意思的地方是:它能採取行動,對真實世界產生實際影響,所以風險也隨之大了很多。之前的「深度研究」是隻讀模式,能做的事情有限,風險也相對可控。但現在這個 Agent,理論上它可以在完成任務的過程中,會附帶產生很多意想不到的有害行爲。舉個例子,你讓它幫你買件東西,它爲了讓你滿意,可能會自作主張地買下 100 個不同的選項讓你挑。
Casey Chu:沒錯,類似的例子可以想出很多。遂於,安全、安全訓練以及相應的緩解措施,是我們開發過程中最核心的環節之一。正是這種與真實世界的直接交互,讓一切都變得非常困難。我們的訓練需要在數千個虛擬機上大規模進行,而只要一接觸真實的網站,各種問題就都來了,比如網站可能會宕機,或者我們自己會遇到各種容量和負載測試的瓶頸。這只是個開始,我們會一步步解決這些工程細節,但它確實是目前一個主要的限制因素。
主持人:從安全角度來看,你們是如何建立安全護欄的?我怎麼確保它不會登錄我的銀行賬戶,把錢都轉走?
Casey Chu:這是個非常好的問題,也是絕對正在出現的風險。互聯網是個危險的地方,有很多攻擊者、詐騙犯,還有釣魚攻擊等。我們的模型雖然經過訓練,能對這些風險進行推理,但有時還是會被騙,或者爲了完成你的任務而「過於熱心」。
我們的團隊付出了巨大的努力,構建了一整套複雜的安全緩解措施,力求讓模型儘可能安全。舉個例子,我們有一個監控器,它就像在模型背後「監視」着,看有沒有任何看起來不對勁的地方,比如它是否在訪問奇怪的網站等。
當然,我們不可能捕捉到所有問題,這是一個我們會持續迭代的重要領域。我們有一個協議,如果我們在野外發現或遇到了新的攻擊方式,我們可以迅速響應並更新這些監控器,就像更新你的殺毒軟件一樣,它會識別這些新的攻擊,保護安全。
Issa Fulford:我認爲安全訓練是真正的跨部門合作,融合了安全、治理、法務、研究、工程等多個團隊的努力。我們在每個層級都設置了大量的緩解措施,並做了大量的內外部紅隊演練。但就像 Casey 說的,當我們發佈模型後,肯定會發現新的問題,所以我們必須有強大的機制來快速響應和修復。
主持人:對於濫用風險,比如利用它製造生物危害,你們是如何管理的?
Casey Chu:生物安全一直是我們高度關注的問題。團隊一直在非常審慎地思考,我們認爲這個 Agent 非常強大,它加速研究工作,但這也意味着它可能加速危害的產生。我們團隊一直在關注的首要問題之一就是生物風險,比如製造生物武器這類事情。團隊一直在非常審慎地思考如何防範這種情況,並且總體上非常謹慎。團隊花了數週時間進行專項紅隊演練,確保模型不會被用於這些有害的目的,並設置了很多額外的防範措施。我們對此有非常清醒的認識,並始終保持高度謹慎。
轉載原創文章請添加微信:founderparker