☰

性能提升90%，Anthropic首次公開多智能體系統構建全流程

（原標題：How we built our multi-agent research system）

6月16日消息，近日，人工智能公司Anthropic披露其王牌產品Claude的一項重大升級：通過構建一個由多個AI智能體組成的“研究團隊”，其在複雜研究任務上的表現較單智能體系統實現了90.2%的驚人提升。這標誌着AI正從“單兵作戰”邁向“協同智能”的新階段。

這項名爲“Research”（研究）的新功能，其核心是一個多智能體系統。在該架構下，一個“主導智能體”扮演項目經理的角色，負責規劃和拆解任務，隨後並行創建多個“子智能體”分頭執行信息檢索與分析。這種模式模仿了人類專家團隊的高效協作，通過並行處理和關注點分離，有效攻克了傳統AI難以勝任的開放性難題。

本文由Anthropic核心開發團隊撰寫，深入剖析了這一前沿系統的構建全貌。

以下是全文翻譯：

【多智能體研究系統的構建歷程】

我們的Research功能採用多個Claude智能體，協同探索複雜主題，以提升研究效果。本文將分享在該系統開發過程中遇到的工程挑戰，以及我們總結的經驗教訓。

Claude現已具備“Research”（研究）能力，能夠跨互聯網、Google Workspace及各類集成工具檢索信息，從而完成複雜任務。

這一多智能體系統（multi-agent system）從原型到正式上線的過程，讓我們在系統架構、工具設計和提示詞工程（prompt engineering）等方面積累了重要經驗。多智能體系統由多個智能體（即LLMs在循環中自主調用工具）協作完成任務。我們的Research 功能包含一個智能體，根據用戶查詢規劃調研流程，並利用工具並行創建多個子智能體，協同檢索信息。多智能體系統在智能體協同、評測與可靠性等方面帶來了全新挑戰。

本文將詳細解析我們總結出的有效原則，希望能爲你自行構建多智能體系統提供參考。

多智能體系統的優勢

研究工作本身充滿開放性，難以預先確定所需步驟。你無法爲探索複雜主題預設一條固定路徑，因爲整個過程本質上充滿變數且路徑依賴明顯。在實際調研中，人們會根據新的發現不斷調整方法，跟隨線索進一步深入。

這種不可預測性恰恰讓AI 智能體非常適合承擔研究類任務。研究需要在調查過程中靈活轉向，探索相關或邊緣線索。模型必須能夠在多輪自主管理下，根據中間結果動態決策進一步探索方向。線性、一次性流程無法勝任這一需求。

搜索的本質在於“壓縮”——即從龐大語料中提煉洞見。子智能體通過各自獨立的上下文窗口並行運行，同時探索問題的不同方面，隨後將最重要的信息壓縮彙總給主導智能體。這種機制還實現了關注點分離——不同的工具、提示詞和探索路徑彼此獨立，既降低了路徑依賴，又保證了調研的全面性和獨立性。

一旦智能體能力達到一定門檻，多智能體系統就成爲擴展性能的關鍵方式。例如，儘管人類個體在過去十萬年間變得更爲聰明，但進入信息時代後，人類社會之所以指數級提升能力，正是因爲集體智慧和高效協作。同樣，即使是具備通用智能的單體智能體，其能力也有上限；而智能體羣體協同作業則遠遠超越個體能力。

我們的內部評測顯示，多智能體研究系統尤其擅長“廣度優先型”查詢，能夠同時追蹤多個獨立方向。我們發現，以 Claude Opus 4作爲主導智能體、Claude Sonnet 4作爲子智能體的多智能體系統，在內部研究評測中較單智能體 Claude Opus 4提升了90.2%。例如，當系統被要求列舉信息技術 S&P 500指數成分企業全部董事會成員時，多智能體系統能夠將任務拆解分配給各子智能體，從而找到正確答案，而單智能體系統因採用緩慢、串行的檢索流程，未能給出答案。

多智能體系統之所以有效，主要在於它們能投入足夠多的 tokens 來解決問題。我們的分析顯示，在 BrowseComp 評測（用於測試智能體檢索難以獲取信息的能力）中，有三項因素解釋了95% 的性能差異。其中，token 使用量單獨就能解釋80% 的差異，工具調用次數和模型選擇則是另外兩個主要影響因素。這一結果印證了我們的架構思路：通過不同上下文窗口分配任務，實現並行推理，提升系統容量。最新的 Claude 模型也極大提升了 token 使用效率，例如，升級至 Claude Sonnet 4帶來的性能提升，甚至超過在 Claude Sonnet 3.7上將 token 配額翻倍。多智能體架構能有效擴展 token 使用，適配超出單一智能體處理能力的任務。

但這也帶來了問題：在實際應用中，該架構 token 消耗極快。數據顯示，單一智能體通常比聊天場景多用約4倍 tokens，多智能體系統則比聊天多用約15倍。要實現經濟可行性，多智能體系統需專注於任務價值足以覆蓋高性能消耗的應用場景。此外，部分領域要求所有智能體共享完全一致的上下文，或智能體間依賴關係極多，這類任務目前並不適合多智能體系統。例如，大多數編程任務真正可並行化的環節不如研究型任務多，且現階段 LLM 智能體尚不擅長實時協調和分工。我們發現，多智能體系統在高並行度、信息量超出單一上下文窗口、需對接大量複雜工具的任務中表現最爲突出。

Research系統架構概覽

我們的Research（研究）系統採用多智能體架構，具體爲“協調者-執行者”模式。主導智能體負責整體流程的協調，並將任務分派給並行運行的專業子智能體。

圖/多智能體架構實操示意：用戶的查詢首先進入主導智能體，由其創建多個專業子智能體，分別並行檢索不同方面的信息。

當用戶提交查詢後，主導智能體會對查詢進行分析，制定策略，並同時生成多個子智能體，分別探索不同方面。如上文所示，子智能體通過反覆調用檢索工具，充當智能過濾器。例如，在檢索2025年AI智能體公司時，子智能體會收集相關信息，並將公司名單返回主導智能體，由其彙總形成最終答案。

傳統的檢索增強生成（Retrieval Augmented Generation，RAG）方法採用的是靜態檢索：即根據輸入查詢檢索出最相似的信息片段，並用這些片段生成回覆。相比之下，我們的架構採用多步搜索，能夠動態發現相關信息，及時調整策略，並對結果進行分析，從而給出高質量答案。

圖/流程圖展示了我們多智能體Research系統的完整工作流程。當用戶提交查詢後，系統會創建一個LeadResearcher（主研究者）智能體，進入迭代式研究流程。LeadResearcher首先思考研究路徑，並將研究計劃保存至Memory（記憶）以保證上下文持久存儲。因爲一旦上下文窗口超過200,000 tokens，超出部分將被截斷，因此計劃的保存尤爲關鍵。隨後，LeadResearcher會根據不同研究任務創建專業化的Subagent（子智能體）（此處僅示例兩個，實際可爲任意數量）。每個子智能體獨立進行網絡檢索，通過穿插思考（interleaved thinking）評估工具結果，並將發現返回至LeadResearcher。LeadResearcher對這些結果進行綜合判斷，如需進一步研究，可繼續創建新的子智能體或優化研究策略。當信息收集充分後，系統將退出研究循環，並將所有研究結果交由CitationAgent（引文智能體）處理。CitationAgent會對文檔和研究報告進行分析，標註具體引用位置，確保所有論斷均有明確信息源支撐。最終，帶有完整引文的研究結果返回給用戶。

研究智能體的提示詞工程與評估

多智能體系統與單智能體系統有本質區別，尤其在協調複雜度上增長迅速。早期的智能體經常犯錯，比如爲簡單查詢生成50個子智能體，無休止地全網搜索並不存在的信息源，或因頻繁更新而彼此干擾。由於每個智能體都由提示詞驅動，因此提示詞工程成爲我們優化行爲的主要手段。以下是我們在智能體提示詞設計中的一些經驗原則：

站在智能體的角度思考。要持續優化提示詞，必須理解其實際效果。爲此，我們在Console中用系統實際用到的提示詞和工具構建了模擬，逐步觀察智能體的行爲。這很快揭示了常見失敗模式：如明明已獲得足夠結果卻繼續執行，搜索指令冗長繁複，或工具選擇錯誤。有效的提示詞設計需要建立對智能體工作的準確心智模型，這樣關鍵的改進點會變得一目瞭然。

指導協調者如何分工。我們的系統中，主導智能體需要將查詢拆分爲具體子任務，並清晰地描述給子智能體。每個子智能體都需明確目標、輸出格式、應使用的工具和信息源，以及清晰的任務邊界。如果任務描述不夠詳盡，智能體之間容易重複勞動、出現遺漏，或找不到必要信息。我們最初允許主導智能體給出簡短指令，例如“調研半導體短缺”，但發現這樣的指令往往太過模糊，導致子智能體誤解任務，甚至重複執行同一檢索。例如，一個子智能體調查了2021年汽車芯片危機，另外兩個則重複研究2025年供應鏈，卻缺乏有效分工。

根據查詢複雜度動態分配資源。智能體難以自行判斷不同任務應投入多少精力，因此我們在提示詞中嵌入了分級規則。簡單的事實檢索只需1個智能體、3-10次工具調用；直接比較可能需要2-4個子智能體，每個調用10-15次工具；複雜研究則可能用到10個以上子智能體，並有明確分工。這些明確的指導方針幫助主導智能體高效分配資源，避免在簡單查詢上投入過多，這是早期版本的常見問題。

工具的設計與選擇至關重要。智能體-工具接口和人機接口同樣關鍵。選對工具不僅高效，很多時候更是完成任務的必要條件。例如，若智能體在網上搜索一條只存在於Slack的信息，必然無果。MCP服務器爲模型接入各種外部工具，但工具描述質量參差不齊，這一挑戰更爲突出。我們爲智能體制定了明確的啓發式規則：如先檢查所有可用工具，將工具使用與用戶意圖相匹配，廣泛探索時優先用網絡搜索，專業任務優選專用工具而非通用工具。不恰當的工具描述可能導致智能體完全走錯方向，因此每個工具都需有明確的功能和清晰的描述。

讓智能體自我改進。我們發現Claude 4模型本身就是出色的提示詞工程師。當給定失敗案例和原始提示詞時，它能診斷智能體失敗原因並提出改進建議。我們甚至開發了專門的工具測試智能體：當遇到描述不佳的MCP工具，它會試用該工具，並重寫工具描述以避免失敗。通過反覆測試，這一智能體發現了諸多細節和漏洞。改進工具易用性的流程，使得未來智能體在使用新描述時，任務完成時間縮短了40%，因爲大多數錯誤被有效規避。

先廣後深。搜索策略應當類似人類專家：先全面瞭解，再聚焦細節。智能體往往傾向於一開始就用冗長且具體的查詢，結果反而收效甚微。我們通過提示詞引導智能體先用簡短、寬泛的檢索語句，評估可用信息後再逐步聚焦。

引導思考過程。擴展思考模式（extended thinking mode）可讓Claude在輸出時展示可見的思考過程，作爲可控的草稿板。主導智能體藉助思考環節規劃行動，評估任務所需工具、查詢複雜度及子智能體數量，並明確各自職責。測試表明，這一模式能提升指令執行力、推理能力和效率。子智能體同樣先制定計劃，獲取工具結果後再穿插思考，評估信息質量、發現遺漏並優化後續檢索。這讓子智能體能夠更好地適應各種任務。

並行工具調用極大提升速度和表現。複雜調研任務往往涉及多信息源的同步探索。早期智能體採用串行搜索，效率極低。爲提升速度，我們引入了兩種並行機制：(1) 主導智能體能並行生成3-5個子智能體，而非順序創建；(2) 子智能體能並行調用3個以上工具。這些優化使複雜查詢的研究時間最多縮短90%，讓Research系統能在幾分鐘內完成本需數小時的任務，且覆蓋信息量遠超其他系統。

我們的提示詞策略注重培育良好的啓發式，而不是僵化規則。我們研究了熟練人類研究者的工作方式，並在提示詞中融入這些策略——如將難題拆解爲小任務、細緻評估信息源質量、根據新發現靈活調整檢索方式、區分何時需深挖單一主題、何時需廣泛並行探索。我們還通過設定明確的安全邊界，主動規避智能體行爲失控等副作用。最後，我們專注於構建可觀測、可測試的快速迭代流程。

智能體的有效評估

良好的評估對於構建可靠的AI應用至關重要，智能體系統同樣如此。然而，多智能體系統的評估面臨獨特挑戰。傳統評估通常假設AI每次都遵循相同步驟：輸入X，系統應按照路徑Y產生輸出Z。但多智能體系統並非如此。即使初始條件完全相同，智能體也可能通過完全不同但同樣有效的路徑達成目標。有的智能體可能檢索三種信息源，有的則檢索十種，或採用不同工具得出相同答案。由於我們往往無法預知“正確”的具體步驟，因此也就無法簡單核查智能體是否嚴格按預設流程執行。我們需要靈活的評估方法，既判斷智能體是否達成預期結果，也關注其過程是否合理。

從小樣本立刻開始評估。在智能體開發早期，細微的改動往往帶來顯著影響，因爲此時存在大量“低垂的果實”。一次提示詞微調，成功率可能由30%提升至80%。如此大的效果差異，只需少量測試用例即可觀察到變化。我們最初用約20條代表真實使用場景的查詢進行測試。這些測試經常能清楚反映改動的成效。我們常聽說AI開發團隊因認爲只有包含數百個用例的大型評測纔有意義而延遲開展評估。實際上，最佳做法是從少量樣例的小規模測試立即着手，而不是等到有能力構建更全面評測時再開始。

以大語言模型（LLM）爲判官的評估方法具有可擴展性。研究型輸出很難用程序化手段評估，因爲其多爲自由文本，且鮮有唯一正確答案。LLM非常適合用於結果評分。我們使用LLM判官（LLM-as-judge），基於評分細則對每個輸出進行評估，包括事實準確性（結論是否與信息源一致）、引用準確性（所引信息源是否與陳述相符）、全面性（是否覆蓋所有要求的方面）、信息源質量（是否優先使用高質量的一手來源而非低質量的二手來源）、工具效率（是否合理選擇並調用工具）。我們曾嘗試用多個判官評估不同維度，但最終發現，單次LLM調用、以單一提示詞輸出0.0-1.0分數並給出通過/未通過判定，效果最爲一致且與人工判斷高度吻合。這種方法在測試用例答案明確時尤其有效，LLM判官只需判斷答案是否正確（例如是否準確列出研發投入最高的三家制藥公司）。利用LLM判官，我們可以大規模評估數百個輸出。

人工評估能發現自動化遺漏的問題。人工測試智能體時，常能發現評測遺漏的邊緣案例，如在特殊查詢下出現幻覺答案、系統性故障，或信息源選擇中的細微偏差。以我們的經驗爲例，測試人員發現早期智能體經常偏好SEO優化內容農場，而忽視了權威但排名較低的信息源，如學術PDF或個人博客。爲此，我們在提示詞中加入信息源質量的啓發式規則，有效改善了這一問題。即便自動化評估日趨完善，人工測試依然不可或缺。

多智能體系統會出現“涌現行爲”，即未經過明確編程而自然產生的新模式。例如，對主導智能體的微小調整，可能以不可預測的方式改變子智能體行爲。要取得成功，必須理解智能體之間的互動模式，而不僅僅是個體行爲。因此，最佳提示詞不僅僅是嚴格的指令，更應是協作框架，明確分工、解決問題的方法及資源投入的上限。要做到這一點，需要精心的提示詞設計與工具配置、紮實的啓發式規則、良好的可觀測性以及高效反饋循環。具體可參考我們Cookbook中開源的系統提示詞示例。

生產環境下的可靠性與工程挑戰

在傳統軟件中，漏洞可能導致功能失效、性能下降或服務中斷。而在智能體系統中，微小的改動可能引發大範圍的行爲變化，使得持續運行、需保持狀態的複雜智能體代碼極難維護。

智能體具備狀態，且錯誤會累積。智能體往往需要長時間運行，期間跨越多次工具調用並持續維護自身狀態。這要求我們的系統必須具備持久化執行能力，並能妥善處理運行過程中的各類錯誤。若缺乏有效應對機制，哪怕極小的系統故障也可能對智能體造成災難性影響。出錯時，系統無法簡單地從頭重啓——重啓代價高昂且令用戶沮喪。因此，我們設計了可在出錯點恢復的系統。同時，藉助模型智能優雅處理異常問題，例如在工具失效時向智能體發出提示，讓其主動調整，這一策略效果出奇地好。我們將基於Claude的AI智能體適應能力，與如重試邏輯、定期檢查點等確定性防護措施相結合。

調試需採用新方法。智能體的決策過程高度動態，即便提示詞完全一致，不同運行結果也可能不同，給調試帶來極大難度。例如，用戶報告智能體“未能找到顯而易見的信息”，但我們無法直接看出原因——是檢索指令設置不佳，還是信息源選擇錯誤，亦或工具本身出錯？我們通過引入全量生產追蹤，系統性定位智能體失敗原因並加以修復。除常規可觀測性外，我們還監控智能體的決策模式與互動結構，但不監控具體對話內容，以保障用戶隱私。這種高層級可觀測性有助於發現根本原因、意外行爲及常見故障。

部署需精心協調。智能體系統由提示詞、工具和執行邏輯組成，具備高度狀態性，且幾乎持續運行。因此，系統每次更新時，智能體可能正處於任意執行階段。我們必須防止善意的代碼更新破壞現有智能體的運行。無法讓所有智能體同時切換至新版本，因此採用“彩虹部署”（rainbow deployments），即逐步將流量從舊版本切換到新版本，確保兩者並行運行，避免對現有智能體造成干擾。

同步執行會造成瓶頸。目前，主導智能體按同步方式執行子智能體，即需等待一批子智能-體全部完成後才能繼續。這雖簡化了協調，但也造成智能體之間信息流的瓶頸。例如，主導智能體無法動態引導子智能體，子智能體之間無法協作，整個系統可能因等待某個子智能體完成檢索而被阻塞。異步執行則可實現更高並行度：智能體能併發工作，並在需要時動態生成新的子智能體。但異步同時帶來結果協調、狀態一致性和錯誤傳播等新挑戰。隨着模型處理更長、更復雜研究任務的能力提升，我們預計性能提升將抵消由此帶來的複雜性。

結論

在構建AI智能體的過程中，最後一公里往往成爲最爲艱難的階段。開發者本地能夠運行的代碼，距離成爲可靠的生產系統還需要大量工程化努力。在智能體系統中，錯誤具有複合特性，這意味着對於傳統軟件而言的輕微問題，可能會導致智能體完全崩潰。只要某一步失敗，智能體就可能走向完全不同的路徑，進而產生不可預測的結果。正如本文所述，從原型到生產環境之間的鴻溝，往往比人們預期的更爲寬廣。

儘管存在這些挑戰，多智能體系統在開放性研究任務中依然展現出巨大價值。用戶反饋稱，Claude幫助他們發現了未曾考慮過的商業機會，理清了複雜的醫療方案，解決了棘手的技術難題，還能通過揭示原本難以獨立發現的研究關聯，節省數天工作時間。只要注重工程細節、全面測試、精心設計提示詞和工具、完善運維實踐，並確保研究、產品與工程團隊之間緊密協作，對當前智能體能力有深刻理解，多智能體研究系統完全可以在規模化應用中保持可靠運行。我們已經看到，這些系統正在改變人們解決複雜問題的方式。

圖/Clio嵌入圖展示了當前用戶對Research功能的主要使用方式。最常見的五大使用場景爲：在專業領域開發軟件系統（10%）、撰寫與優化專業及技術內容（8%）、制定企業增長與營收策略（8%）、輔助學術研究與教學資料開發（7%）、以及查詢與覈實人物、地點或組織等相關信息（5%）。

作者：Jeremy Hadfield、Barry Zhang、Kenneth Lien、Florian Scholz、Jeremy Fox與Daniel Ford。本項目凝聚了Anthropic多個團隊的共同努力，使Research功能成爲可能。特別感謝Anthropic應用工程團隊，正是他們的專注與奉獻，將這一複雜的多智能體系統推向了生產環境。我們也感謝早期用戶們提供的寶貴反饋。

附錄

以下是關於多智能體系統的一些補充建議。

評估跨多輪對話持續變更狀態的智能體終態。對於在多輪對話中持續修改持久狀態的智能體，其評估面臨獨特挑戰。與只讀型研究任務不同，每一步操作都會影響後續環境，形成步驟間的依賴關係，傳統評估方法難以應對。我們的做法是關注終態評估（end-state evaluation），而非每一步的細緻分析。與其考察智能體是否遵循了特定流程，不如評估其最終是否達到了正確的目標狀態。這種方法認可了智能體實現目標的多樣路徑，同時確保結果符合預期。對於複雜流程，可將評估拆分爲若干關鍵檢查點，考察每個階段是否發生了應有的狀態變更，而無需驗證每一步細節。

長週期對話管理。生產環境下的智能體常需應對長達數百輪的對話，這對上下文管理提出了更高要求。隨着對話延長，常規的上下文窗口已不夠用，必須依靠智能壓縮與記憶機制。我們的做法是讓智能體在完成某一階段任務後，總結關鍵信息並存儲於外部記憶系統，然後再進入新任務。當接近上下文限制時，智能體可創建新的子智能體，以乾淨的上下文繼續任務，並通過精心設計的交接流程保持連貫性。此外，智能體可隨時從記憶中調取如研究計劃等已存信息，而非因窗口溢出丟失工作進展。這種分佈式方法可有效防止上下文溢出，同時保持長對話的一致性和連貫性。

子智能體直接輸出至文件系統，減少“傳話遊戲”信息損失。對於某些類型的結果，允許子智能體繞過主協調者（coordinator）直接輸出，可提升結果的保真度和系統性能。與其讓子智能體一切信息都經主智能體轉述，不如引入工件系統（artifact systems），讓專業化子智能體可獨立生成、存儲持久化輸出。子智能體通過工具將工作成果存入外部系統，再將輕量級引用信息交還協調者。這一模式可防止多輪處理過程中的信息損失，也減少了因歷史對話反覆複製大塊輸出而造成的token消耗。對於結構化輸出（如代碼、報告或數據可視化）而言，採用專業子智能體的專屬提示詞，往往比通過通用協調者轉述更能保證結果質量。（易句）

（本文由AI翻譯，本站編輯負責校對）

性能提升90%，Anthropic首次公開多智能體系統構建全流程

相關資訊