LangChain CEO 再聊 Agent:chat 模式只是起點,Ambient Agents 纔是未來

「workflow 纔是 Agent 的高級且成熟的形式。」

「現實中最靠譜的路徑是 Agent+workflow 這種組合的優化。」

「workflow 本質上是工具,只是工具中用到了 AI 能力,所有被定義成 Work Flow 的就應該被做成工具。」

一邊是 Agent 遍地開花,另一邊,創業者們還在爭論到底 Agent 和 Workflow 孰優孰劣。

在 LangChain CEO Harrison Chase 看來,Agent 並不是「非黑即白」,而是像一個光譜。引用吳恩達的觀點,與其討論一個東西是不是智能體,不如討論它的「智能體化程度」(agenticness)。LLM 決定下一步的程度越高,應用的「智能體化程度」就越高。

那 chatbot 是 Agent 最佳模式嗎?未來到底是一個 Agent 還是很多 Agent?大家都在做 Agent,Agent 的下一步會是什麼方向?

Harrison Chase,以及 企業 Agent 平臺 Dust 的 CEO Stanislas Polu,在這個話題上還是有一些發言權的。在最近的一期播客中,兩人對 Agent 的下一步會怎麼走進行了深入探討。

以下爲兩人的對談內容,Founder Park 編譯了其中的核心內容。

產品介紹:

Langchain,專注於爲開發者提供開源工具和框架,構建了一系列開發者工具,旨在讓構建智能體應用的過程變得儘可能簡單。

Dust,Dust 是一個爲企業用戶提供 Agent 的平臺,讓公司能夠輕鬆地爲其員工構建、部署和管理高度定製化的 AI 智能體(AI Agents)。

TLDR:

Stanislas Polu 認爲:工作流很有價值,因爲它能讓你更好地控制流程,但從長遠看,並沒有太大意思,想象空間有限。智能體更容易構建,任何人都可以構建一個智能體,但並不是任何人都能構建一個工作流。工作流就像典型的 Make、Zapier 之類的東西,很容易上手,大多數人都能與這些產品互動,但不是每個人都可以。

Harrison Chas 則認爲,通常用工作流和智能體可以實現同樣的目標,其核心區別在於描述任務的難易程度。

未來的交互界面會發生分化。當智能體需要更長時間來完成任務,或在無人干預的情況下被觸發時,你需要的可能是一個「指揮中心」(Command Center),而不是一個對話列表。

在實現這樣一個「環境化」和自主的世界前,一個很好的中間形態是「工作計劃」(work plan)。你可以把一個大任務分解成許多子任務,然後將其中一部分委派給智能體,形成一個人機協作的任務看板。隨着智能體變得越來越可靠,它們會承擔越來越多的工作,最終實現自主規劃。

在智能體擁有真正有效的功能性記憶之前,專有智能體仍然是必需的。因爲如果智能體沒有良好的情景記憶,它將很難學會哪些數據是過時的,哪些數據是新鮮的。定製化的智能體可以指向正確的數據,解釋正確的流程,這樣就不必每次都重複做。

超 10000 人的「AI 產品市集」社羣!不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者,飛書掃碼加羣:

進羣后,你有機會得到:

最新、最值得關注的 AI 新品資訊;

不定期贈送熱門新品的邀請碼、會員碼;

最精準的AI產品曝光渠道

01怎麼定義 Agent 不重要,Agentic 程度更重要

主持人:我們應該如何理解AI智能體(AI agent),到底是什麼?

Harrison Chase:智能體是一個由大型語言模型(LLM)來決定其控制流程的應用程序。從技術角度來講,很多開發者認爲智能體就是在一個 for 或 while 循環中運行 LLM,由 LLM 決定下一步該做什麼,然後執行相應的動作,直到它判定任務完成。在這種模式下,LLM 明確地主導着應用的每一步。

我認爲也存在一些不那麼「智能體化」的應用程序,其中 LLM 可能只決定幾個步驟,而有些步驟是硬編碼的,比如 A 之後總是執行 B。甚至在多智能體應用中,你可能運行一個這樣的循環,然後它會立即轉到另一個應用,該應用會運行一個檢查程序,或者甚至另一個智能體,然後再返回。

所以,Agent 是一個光譜。有一個我很喜歡的說法是,吳恩達建議我們與其討論一個東西是不是智能體,不如討論它的「智能體化程度」(agenticness)。LLM 決定下一步的程度越高,應用的「智能體化程度」就越高。

主持人:Stan 有什麼補充嗎?

Stanislas Polu:我完全同意這個說法。目前市場上一個有趣的議題,就是「智能體」與「AI 工作流」之爭。

我認爲,工作流很有價值,因爲它能讓你更好地控制流程,但從長遠看,我認爲它並沒有太大意思,想象空間有限。我們預見的世界裡,智能體將成爲真正的同事,而你無法用一個固定的工作流來編碼一個同事。因此,我們更看好幫助人們創造智能體,而不是工作流。

非常有趣的是,雖然智能體更豐富,但在某種意義上也更有風險。智能體更容易構建,任何人都可以構建一個智能體,但並不是任何人都能構建一個工作流。工作流就像典型的 Make、Zapier 之類的東西,很容易上手,大多數人都能與這些產品互動,但不是每個人都可以。這需要一點學習和適應過程。

相比之下,構建一個智能體,實際上只是用簡單的英語描述你想做什麼,然後點擊智能體應該具備的功能。智能體實際上對更廣泛的受衆開放。所以,從長遠來看,最強大的東西在某種程度上也是最容易構建的。

主持人:這是否可以理解爲:工作流是給他一份詳細的食譜,而智能體是直接創造一個廚師,讓他去發揮?

Stanislas Polu:是的,這就像麥當勞和米其林星級餐廳的區別。前者流程化,結果可預期;後者則依賴廚師根據情況和現有的食材進行的即興創作。

Harrison Chase:我有一些不同的看法。我認爲,通常用工作流和智能體可以實現同樣的目標,其核心區別在於描述任務的難易程度。在智能體的世界裡,一切都以自然語言進行,比如,你可以用自然語言寫下一個「食譜」,比如「嘿,先做 A,再做 B,然後做 C」。但這種方式並非完全確定性的,所以它在安全性上有所妥協,但在易用性上卻大大提升了。我們早期借鑑了「React 智能體」這篇論文的概念,它創新性的地方在於,你只需要給智能體一些工具和一個系統提示,它就會開始做事。這種簡潔性非常美妙。

注:論文《ReAct: Synergizing Reasoning and Acting in Language Models》

https://arxiv.org/abs/2210.03629

Stanislas Polu:React 論文是一個有趣的數據點。今天的人讀它可能會覺得「這太顯而易見了,也算一篇論文?」但這恰恰說明了在 2022 年末,我們對這項技術能做什麼還知之甚少。建議大家都去讀一下,可以直觀地感受到這個領域發展的速度。

02chat 模式只是起點,常駐、無感化的 Agent 纔是未來

主持人:目前來看,智能體在哪些用例上最爲卓有成效?在這些用例中,你們看到了哪些「商業槓桿」?

Stanislas Polu:我們的產品是完全橫向的,應用場景非常廣泛,而且讓每個人都能共享、創建和分享智能體,並在業務環境中讓智能體之間相互協作。

舉幾個例子:將 Slack 上的某個特定話題下的一系列討論,自動轉化爲一個結構化的 GitHub 工單;或者在每一次銷售通話結束後,激活一羣智能體,它們會自動提供反饋、填寫 Salesforce、提取產品興趣點,甚至到 Notion 相應的頁面去創建評論。最令人興奮的是,智能體能完成一些過去人類因爲工作量太大而根本不會去做的新任務。

Harrison Chase:我們內部也在廣泛使用智能體。客戶支持是一個很大的用例,我們用它來處理大量問詢。編碼是另一個用例,我們用它來回復問題、管理討論等。我個人用得最多的,是一個監控我的電子郵件、起草回覆並標記重點的智能體。此外,深度研究和市場營銷也是非常重要的應用領域,比如我們會用它把博客文章改寫成推文。

主持人:你曾在一篇博文*中提到,我們與智能體的互動方式會從主動輸入提示,轉向更「環境化/常駐」(ambient)的模式。這具體是指什麼,爲什麼你認爲會朝這個方向發展?

注:《Introducing ambient agents》

https://blog.langchain.com/introducing-ambient-agents/

Harrison Chase:到目前爲止,聊天(Chat)一直是主流的用戶體驗,因爲它把人類置於控制中心,非常注重 human-in-the-loop,安全且直觀。

但它的缺點也很明顯:你必須主動發起所有對話,而且不適合處理耗時很長的任務。而且因爲你通常期望即時得到迴應,所以它們不能花太長時間,否則你就會覺得無聊然後切換走。

我認爲未來會朝着「環境化智能體」的方向發展,也就是讓智能體主動監聽事件流。比如一封新郵件、一次日曆更新,然後在後臺異步地採取行動。當需要人類決策時,它再以某種方式(比如一封草稿郵件)呈現給你。我認爲至關重要的是,這些不一定是自主智能體。它們在某些環節仍然需要有人類參與,因爲我認爲這對於企業採納仍然是必要的。

Stanislas Polu:我完全同意。我們確實認爲,對話界面一直是主流界面。我們假設,未來的交互界面會發生分化。當智能體需要更長時間來完成任務,或在無人干預的情況下被觸發時,你需要的可能是一個「指揮中心」(Command Center),而不是一個對話列表。

相反,對話模式在 B2C 場景中可能會更有價值,因爲在 B2C 場景中,你的智能體實際上是你的行政助理,所以你和它之間有一條或幾條對話流。

同時,多人與一個或多個智能體互動的場景也需要新的交互模式。更長遠地看,智能體甚至可以主動瀏覽公司內部發生的一切,然後主動聯繫你並提供價值。你可以想象,給一組智能體一個高層次的項目目標,然後讓它們自行組織、分工、協作,幾天後再向你彙報成果。這是最終的形態。

Harrison Chase: Stan,你提到的「指揮中心」,這個功能現在在產品裡了嗎?還是未來的一個方向?

Stanislas Polu:我也不知道它具體是什麼樣的,但你們內部正在構建的「智能體收件箱」顯然是朝這個方向邁出的第一步。

關於智能體,奇怪的一點是,API 本身就非常偏向於對話。目前整個生態系統,從 API 到後訓練層面,都還有點被束縛在對話界面附近。

模型似乎被後訓練來給你一個即時答案。但我們真正想要的交互是:「你去工作一天,有問題隨時問我,一天後給我看成果。」 現有的系統還很難支持這種互動。

Harrison Chase:是的,在我們剛開始構建時,根本沒有「消息」(messages)這個概念,只是文本輸入,文本輸出。OpenAI 只提供了聊天消息 API,現在一切都是在這個基礎之上。

這導致了不同模型間的消息格式不統一的問題。OpenAI 有他們自己的輸入輸出模式,但這和 Anthropic 的不同,和 Google 的也不同。

而且,到目前爲止所有聊天智能體都是同步的。我認爲聊天是一種很好的同步溝通形式,而異步的交互,當它需要浮現到用戶面前時,最終還是會以一條消息的形式出現,因爲這是同步溝通的主導範式。

主持人:要實現這樣一個「環境化」和自主的世界,目前主要的障礙是什麼?我們離那個指揮中心的世界還有多遠?

Stanislas Polu:我認爲可靠性是一個核心的限制因素。模型有時在非常簡單的問題上會表現得令人難以置信地愚蠢,但在另一些領域又能解決極其複雜的問題。這充分說明了數據的重要性、預訓練的重要性、後訓練的重要性,以及在代碼和數學等領域投入了大量精力。

我認爲,在實現完全環境化之前,一個很好的中間形態是「工作計劃」(work plan)。你可以把一個大任務分解成許多子任務,然後將其中一部分委派給智能體,形成一個人機協作的任務看板。隨着智能體變得越來越可靠,它們會承擔越來越多的工作,最終實現自主規劃。

所以我認爲,即使在當前這個世界,智能體在某些任務上的可靠性仍有很大侷限,人類的監控非常重要,我們仍然可以想象出許多產品界面,它們將開始融合同步交互和更異步的交互,通過內省正在發生的事情來實現這一點。

Harrison Chase:我同意單個智能體的可靠性是關鍵。此外,學習和記憶機制也非常重要。

目前,我認爲,代碼領域是很好的「先行指標」,因爲模型在這方面做得很好,可靠性更高。比如,Claude Code 就是是一個很好的例子,模型做得足夠好,可靠性就更好一些。我們已經開始看到一些針對長時間運行的編碼智能體的「指揮中心」式交互界面出現,但還處於非常早期的階段。

03不是一個萬能 Agent,而是 Multi-Agent 系統

主持人:你們認爲未來會是一個「萬能智能體」的時代,還是一個由無數專業智能體組成的生態?

Stanislas Polu:這是一個大問題,我們沒有明確的答案。最初,我們從許多定製化智能體開始,考慮到當時模型的狀況,這在當時是正確的。隨着模型變強,確實有一股力量在推動向更通用的智能體發展。

但在智能體擁有真正有效的功能性記憶之前,我認爲定製化智能體仍然是必需的。因爲如果智能體沒有良好的情景記憶,它將很難學會哪些數據是過時的,哪些數據是新鮮的。定製化的智能體可以指向正確的數據,解釋正確的流程,這樣就不必每次都重複做。

我猜測智能體的抽象層次會提高,所以完成工作所需的智能體數量可能會減少。但它是否會趨同於一個,目前還很不清楚。

Harrison Chase:我基本同意 Stan 的看法。但我有幾點補充想法。

第一,我們得先想清楚,「擁有多個智能體」到底意味着什麼?它們之間有什麼不同?通常來說,它們的區別就在於「提示詞」(Prompts)不一樣,有時候用的模型也不一樣,但最主要的還是提示和它們能調用的工具有什麼區別。所以,理論上,在最極端的情況下,你也許可以做出一個超級智能體,它的系統提示裡寫滿了公司裡所有事情該怎麼做的說明,並且能調用所有的工具。但這顯然不是我們現在看到的景象。未來可能會朝那個方向發展,或者說,朝着智能體數量變少的方向發展。

我認爲我們現在看到的,更像是另一種模式:公司的用戶可能只跟一個智能體互動,但在這個智能體背後,其實藏着許多「子智能體」。這個主智能體可以去調用、分發任務或者使用這些子智能體。每個子智能體都有非常具體的指令。當我們跟別人聊怎麼做智能體時會說,你先寫下一個標準操作流程(SOP),搞清楚它需要什麼工具。所以,未來也許會有一箇中央的「總管」智能體,它負責跟所有這些下屬智能體互動,這就開始涉及到多智能體系統了。這方面還非常早期,但我認爲已經有一些初步的苗頭了。

主持人:我們如何確保智能體在做有用工作的同時,避免陷入一味奉承和討好的模式?

Stanislas Polu:我有一個很想做的研究項目:讓智能體爲了一個共同目標而相互辯論。不一定是完全對抗性的,更像一個研究社區。智能體的目標是在某種「真理」的指引下獲得高排名。在多智能體設置中,你可以提示一些智能體去挑戰那些只會給出討好答案的智能體,這可能會緩解這個問題。當然,這目前還屬於研究領域。

Harrison Chase:從實踐上講,現在可行的是提示智能體持有不同的觀點。另外,一個簡單的版本是讓一個智能體對另一個智能體的產出進行反思或批判。對於代碼這類有明確驗證標準(比如能否編譯通過)的任務,這種「循環中的評估」已經可以實現了。

主持人:那現在有人在做類似的事情嗎?比如讓不同的智能體提出觀點,然後像 Hacker News 那樣進行 PK 和排名?

Stanislas Polu:我知道全球肯定有不少團隊在研究這類想法。OpenAI 就有一個多智能體團隊,我猜他們拿下的國際數學奧林匹克競賽(IMO)金牌,背後很可能就是一套類似的多智能體系統。所以,很多人肯定在探索,這也很合理。但在現階段,我認爲這絕對還處在研究領域。

Harrison Chase:我們能看到一些非常初級的版本,最簡單的就是「反思」或「批判」。比如,讓一個智能體生成內容,再讓另一個智能體來給它提意見。

對於代碼這類任務,這就更容易了,因爲你可以直接運行它看結果。代碼編譯不通過,這就是一個客觀事實,一個來自系統的「不同觀點」。你可以想象爲寫文章也做類似的事,讓一個「編輯」智能體來審查初稿。

但總的來說,這目前還偏向研究。除非你能找到一種可驗證的獎勵機制,我們稱之爲「循環中的評估」(evals in the loop),比如運行代碼就是最直接的例子。我們內部就在試驗,讓一個獨立的智能體來判斷一個編碼任務是否算完成。這不算是對抗,更像是一種職責分離。所以,現在大家做的一些嘗試,可以看作是朝着這個方向努力,但方式還比較初級和簡單。

04執行力就是護城河,任何超過六個月的規劃都可能被推翻

主持人:在當前這個時刻,投身AI領域創業意味着什麼?面對快速的跟風者,你們如何建立自己的護城河?

Stanislas Polu:在 AI 領域創業,確實是一團亂碼。在過去的幾十年裡,技術基礎一直非常穩定。比如說,在我們身後的 SaaS(軟件即服務)時代,技術基礎是 JavaScript 和 Postgres。

但現在,我稱之爲「AI 的迷霧」(The Fog of AI)時代。意思是說,底層技術正以驚人的速度迭代,這意味着你必須對未來有一個清晰的願景,但無法繪製出通往願景的詳細藍圖。任何超過六個月的規劃都可能被推翻。這給組織的對齊(Alignment)帶來了巨大的挑戰。「AI 對齊問題」是在 AI 領域創業最具挑戰性的部分之一。

我們的策略是,努力構建一個比市場稍微領先的產品,即使看不清未來,也要投入資源去構建我們堅信是未來的東西,以此來創造防禦性。

Harrison Chase:我同意這是一個混亂的時期。我認爲執行力就是護城河,執行速度也是。AI 領域有太多事情在發生,這反而會讓競爭對手分心。因此,真正專注於一個問題,對此抱有信念並持續構建,但其實這非常困難。

從產品的角度看,關鍵在於你能不能真正理解自己要實現的目標,然後以此爲核心,打造出一條連貫的產品策略和體驗。你加的某個功能,別人也許能抄走,但如果他們沒有你那種對全局的理解,就永遠做不到位,細節上總會露怯。

我們早期做了很多事,都是在用戶體驗方向。現在,我們開始思考更深層次的技術賭注是什麼。如果你從外面看,可能會覺得:「天啊,他們做了上百件事。」 但實際上,我們真正押注的,只有兩三個核心的技術方向。

這需要有信念,也確實很難。因爲你既要跑得快,又要有一個堅定一致的信念,或者說,一個明確的技術押注,這樣才能建立起別人一兩週抄不走的東西。

主持人:,你們如何看待這類事件?

Stanislas Polu:這可能會引起爭議,但我認爲谷歌的這種人才收購(acqui-hire)的安排,比 Scale AI 的情況要好。我覺得 Scale AI 的情況更奇怪,因爲它既是 CEO 的人才收購,但同時又不是一次完全的收購,只是購買了多數股權。人才收購一直都存在,只是這次的金額太大了,讓事情變得很奇怪。但對於那些被留下的員工來說,眼睜睜看着一羣人帶着鉅款離開,這顯然是完全不可接受的。

Harrison Chase:這已經不是第一次了,Character.ai、Inflection 都有過類似的情況。現在的人才市場正處於一個非常瘋狂的時期。我很難想象 LangChain 會走那條路,因爲我創業的初衷就是和一羣我喜歡的人一起創造偉大的東西。但我也不想評判任何人。

主持人:在如此火熱的人才市場中,你們作爲初創公司如何競爭,吸引到合適的人才?

Stanislas Polu:我們在巴黎創業,這是一個簡單的優勢。這裡的競爭遠不及舊金山激烈,我們有能力在巴黎打造一個非常有吸引力的品牌。這對我們建立我們同樣非常興奮能與之共事的團隊來說,是一件非常棒的事情。我認爲這主要是我們在這裡的差異化方法,即工程團隊的本地化。

Harrison Chase:我們主要在舊金山,所以要困難得多。我們更多是招聘普通的軟件工程師,而不是研究工程師。很多人想在初創公司工作,這是我們區別於那些大模型實驗室的主要優勢。

主持人:對於通用人工智能(AGI)何時到來,你們有什麼看法?

Stanislas Polu:我沒有具體的時間表。可以肯定的是,對這個生態系統的瘋狂投資仍在繼續,這意味着推動模型進步的資源沒有上限。所以我認爲進步不會停止,但具體速度難以預測。老實說,這不是我花太多時間思考的問題。因爲無論技術是停滯還是飛躍,將現有技術部署到社會中都需要很多年,圍繞這個過程創造價值的空間是巨大的。我曾開玩笑說,這是 AGI 之前的最後一班車,可能是創辦公司的最後機會。

Harrison Chase:我也花很少的時間去想這個問題。即使模型變得非常強大,你仍然需要通過某種方式將它們集成起來,才能讓它們產生影響。這正是我們專注的工作。

主持人:如果你們有無限的資源,最想做一個什麼樣的實驗?

Harrison Chase:我會探索「記憶」這個領域,包括 AI 的記憶、個性化和學習。另外一個與 AI 無關的,是我想搞清楚怎樣才能睡得最好,這對我個人很重要。

Stanislas Polu:我會用無限資源去搭建所有將模型連接到正確行動和數據的「管道」,因爲現在缺失了太多管道,我們看不清模型的真正能力上限。另一個實驗是,我想找到一個產品的最佳團隊規模是多少,尤其是在 AI 時代。我懷疑在某個點上存在一個效率的最大值。

轉載原創文章請添加微信:founderparker