谷歌發佈新型擴散智能體,仿人類寫作流程提升企業研究效率
谷歌研究人員開發了一種新的AI研究智能體框架,在關鍵基準測試中超越了OpenAI、Perplexity等競爭對手的主流系統。
這個新智能體名爲"測試時擴散深度研究員"(TTD-DR),其設計靈感來自人類的寫作過程——通過起草、搜索信息和迭代修訂的方式工作。
該系統使用擴散機制和進化算法,能夠對複雜主題產生更全面、更準確的研究結果。對於企業而言,這一框架可以爲高價值任務提供新一代定製研究助手,處理標準檢索增強生成(RAG)系統難以應對的任務,如生成競爭分析或市場進入報告。
論文作者表示,這些現實世界的商業用例正是該系統的主要目標。
**當前深度研究智能體的侷限性**
深度研究(DR)智能體旨在處理超越簡單搜索的複雜查詢。它們使用大語言模型進行規劃,利用網絡搜索等工具收集信息,然後藉助測試時擴展技術(如思維鏈、最佳N採樣和蒙特卡洛樹搜索)將發現綜合成詳細報告。
然而,許多現有系統存在根本的設計限制。大多數公開可用的DR智能體在應用測試時算法和工具時,缺乏反映人類認知行爲的結構。開源智能體通常遵循僵化的線性或並行過程,使研究的不同階段難以相互作用和糾正。
這可能導致智能體失去研究的全局上下文,錯過不同信息片段之間的關鍵聯繫。論文作者指出:"這表明當前DR智能體工作存在根本侷限性,突顯了需要一個更連貫、專用的DR智能體框架來模仿或超越人類研究能力。"
**受人類寫作和擴散啓發的新方法**
與大多數AI智能體的線性過程不同,人類研究人員採用迭代方式工作。他們通常從高層計劃開始,創建初始草稿,然後進行多輪修訂。在修訂過程中,他們搜索新信息以強化論點並填補空白。
谷歌研究人員觀察到,這種人類過程可以通過增強檢索組件的擴散模型機制來模擬。(擴散模型常用於圖像生成,從噪聲圖像開始,逐漸細化直到成爲詳細圖像。)
研究人員解釋:"在這個類比中,訓練好的擴散模型初始生成一個噪聲草稿,去噪模塊在檢索工具的幫助下,將此草稿修訂爲更高質量的輸出。"
TTD-DR基於此藍圖構建。該框架將研究報告的創建視爲擴散過程,初始的"噪聲"草稿逐漸細化爲精美的最終報告。
這通過兩個核心機制實現。第一個機制稱爲"帶檢索的去噪",從初步草稿開始迭代改進。在每步中,智能體使用當前草稿制定新的搜索查詢,檢索外部信息,並整合它們來"去噪"報告——糾正錯誤並添加細節。
第二個機制"自進化"確保智能體的每個組件(規劃器、問題生成器和答案合成器)獨立優化自身性能。論文共同作者、谷歌研究科學家韓如君向VentureBeat解釋,這種組件級進化至關重要,因爲它使"報告去噪更加有效"。
"這兩種算法的複雜相互作用和協同組合對實現高質量研究成果至關重要,"作者表示。這種迭代過程直接產生不僅更準確,而且邏輯更連貫的報告。
據論文稱,生成的研究助手"能夠爲跨金融、生物醫學、娛樂和技術等多個行業領域的複雜研究問題生成有用且全面的報告",使其與OpenAI、Perplexity和Grok的深度研究產品處於同一級別。
**TTD-DR的表現**
爲構建和測試框架,研究人員使用了谷歌的智能體開發工具包(ADK),這是一個用於編排複雜AI工作流的可擴展平臺,以Gemini 2.5 Pro作爲核心大語言模型。
他們將TTD-DR與包括OpenAI Deep Research、Perplexity Deep Research、Grok DeepSearch和開源GPT-Researcher在內的主流商業和開源系統進行基準比較。
評估重點關注兩個主要領域。對於生成長篇綜合報告,他們使用DeepConsult基準和自己的LongForm Research數據集。對於需要大量搜索和推理的多跳問題回答,他們在HLE和GAIA等具有挑戰性的學術和現實世界基準上測試智能體。
結果顯示TTD-DR持續超越競爭對手。在與OpenAI Deep Research的長篇報告生成對比中,TTD-DR在兩個不同數據集上實現了69.1%和74.5%的勝率。它還在三個需要多跳推理的基準上超越OpenAI系統,性能提升分別爲4.8%、7.7%和1.7%。
**測試時擴散的未來**
雖然當前研究專注於使用網絡搜索的基於文本報告,但該框架設計爲高度適應性。韓如君確認團隊計劃擴展工作,納入更多工具用於複雜企業任務。
類似的"測試時擴散"過程可用於生成複雜軟件代碼、創建詳細財務模型或設計多階段營銷活動,其中項目的初始"草稿"通過新信息和各種專業工具的反饋進行迭代細化。
韓如君表示:"所有這些工具都可以自然地納入我們的框架",暗示這種以草稿爲中心的方法可能成爲各種複雜、多步驟AI智能體的基礎架構。
Q&A
Q1:TTD-DR與傳統AI研究智能體有什麼不同?
A:TTD-DR模仿人類寫作過程,採用迭代方式工作——從初始草稿開始,通過多輪修訂和信息搜索逐步完善。而傳統智能體多采用僵化的線性過程,各階段難以相互作用和糾正,容易失去全局上下文。
Q2:TTD-DR在性能測試中表現如何?
A:TTD-DR在基準測試中持續超越競爭對手。與OpenAI Deep Research的對比中,在長篇報告生成方面實現69.1%和74.5%的勝率,在多跳推理基準上性能提升4.8%、7.7%和1.7%。
Q3:TTD-DR的兩個核心機制是什麼?
A:第一個是"帶檢索的去噪",從初步草稿開始迭代改進,通過搜索查詢檢索信息並整合來糾正錯誤;第二個是"自進化",確保規劃器、問題生成器和答案合成器等各組件獨立優化性能,使報告去噪更加有效。