☰

Claude 4 核心成員訪談：提升 Agent 獨立工作能力，強化模型長程任務能力是關鍵

「2025 年最大的變化，是強化學習在大語言模型訓練上終於開始奏效了。」

這是 Anthropic 的兩位研究員，Sholto Douglas（專注於強化學習）和 Trenton Bricken（研究機制可解釋性）對於今年模型趨勢變化的總結。

Gemini 2.5 Pro 和 Claude Opus 4 的發佈也變相證明了這個判斷。

在 Dwarkesh Podcast 這期兩個半小時的採訪中，兩位研究員對於 RLVR（可驗證獎勵的強化學習）、模型的自我意識、以及 Claude 一直專注的「模型可解釋性」做了深入的討論。

尤其是模型以及 Agent 之後的發展方向，比如人類駕馭多個 Agent 的可能性、以及現階段應該提高模型的底線，而不是去追究極致。還有 AI 白領在未來兩年的可能性，畢竟「Agent 操作電腦」並不難，只要環境具備。

他們還誇獎了 DeepSeek 在模型研發上的「品味」，頗有種「惺惺相惜」的感覺。

兩個半小時的採訪，我們還摘錄了 Sholto Douglas 在另外一期播客的部分回答，聊得很深入而且很透徹。

TLDR:

2025 年最大的變化是強化學習技術在語言模型上真正奏效了，通過「可驗證獎勵的強化學習」，模型在競技編程和數學領域達到了專家級人類表現。強化學習的主要作用是激活模型已有知識並將其組織成解決方案，而不是讓模型從零開始學習。

人類在實際學習過程中，能夠通過錯誤反饋改進和「邊幹邊學」，但當前模型訓練缺乏這種機制，業內普遍傾向於「算力優先，數據其次」的預算分配。如果模型能像人類一樣「邊幹邊學」，通過在實際工作中獲取環境反饋來持續成長，將具有巨大潛力。

Opus 4 帶來的最大變化在於時間跨度的擴展。Opus 在處理多步動作和長期任務的上下文管理方面表現出色，能夠更長時間地進行有意義的推理和執行，甚至在無需用戶頻繁介入的情況下完成數小時的人力工作量。

隨着 AI 能力的提升，用戶與模型的交互頻率將從秒級、分鐘級向小時級甚至更長週期轉變。未來用戶可能同時管理多個模型執行多項任務，交互方式類似於「模型艦隊管理」。

人類在學習具體任務時也需要大量示範，且泛化能力有限。當前模型的規模仍遠小於人腦，但規模越大，學習越高效，所需示範越少。大型模型能將不同語言的表示整合在更統一的共享子空間中，從而提升泛化能力。

模型的可解釋性工作是對神經網絡進行逆向工程，找出其進行計算的基本單元。AI 模型現階段是「生長」而非「建造」出來的，需要大量研究才能理解其工作原理。

用 AI 操作電腦並執行復雜任務並不難，操作電腦與軟件工程的本質相同，只要所有操作能表示爲 token，任務性質就是一致的。現在的核心限制不在於「能否做到」，而是如何更好地管理上下文和記憶系統。解決「從 0 到 1」的關鍵一步，未來自動化任務將迎來爆發式增長。

未來兩年內（最遲五年內）將出現能夠「即插即用」的白領 AI 員工，將對全球經濟和勞動力市場產生顛覆性的影響。

如果 AI 在物理機器人技術發展滯後，但能自動化所有智力工作，可能會導致人類在經濟價值鏈中退化爲「人類血肉機器人」，被 AI 遠程操控以完成物理任務。

播客原文：https://www.dwarkesh.com/p/sholto-trenton-2

超 4000 人的「AI 產品市集」社羣！不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者，飛書掃碼加羣：

進羣后，你有機會得到：

最新、最值得關注的 AI 新品資訊；

不定期贈送熱門新品的邀請碼、會員碼；

最精準的AI產品曝光渠道

2025 年的最大變化，

強化學習開始奏效了

主持人：2025 年，你認爲最大的變化是什麼？

Sholto Douglas：我覺得最大的變化是，強化學習（RL）在語言模型上的應用終於真正奏效了。我們通過提供清晰的獎勵信號（即「可驗證獎勵的強化學習」）的前提下，模型在競技編程和數學等領域表現出了專家級的人類水平和可靠性。

可以從兩個維度來理解這個問題：一個是任務的智力複雜度，另一個是任務持續的時間尺度。從智力複雜度這條軸來看，我們已經證明模型可以在多個方向上達到相當高的水平。不過，長期持續性行爲的 Agent 能力我們還沒有完全實現，現在只是剛剛邁出第一步，但預計到年底前會看到更有力的成果，比如真正能參與軟件工程項目的 Agent 系統。Trenton，你現在是不是就在做這方面的實驗？

Trenton Bricken：對，完全正確。目前公開的例子，比如用 Claude 玩 Pokemon 遊戲，就很有代表性。雖然看着模型在遊戲裡掙扎有點心疼，但每一代模型的表現都比前一代更好。它的問題主要還是出在記憶系統的使用上，而不是別的。

主持人：回到去年，你們會預料到現在的 Agent 能力就只有這個水平嗎？

Sholto Douglas：就軟件工程這個方向來說，現在的發展大致符合我的預期。我原本以爲它們在操作計算機方面會做得更好一些。但也能理解背後的原因，我覺得這些問題很快就能解決，畢竟只是階段性的技術瓶頸。

如果要我對今年做預測的話，我真的認爲，到今年年底或者明年年中旬，我們會有能完成相當於初級工程師一天工作量，或者幾小時獨立任務的高效軟件 Agent 系統。

Trenton Bricken：我同意你的看法。不過能力的分佈確實很不均衡。有些任務，比如生成模板化的網頁代碼，模型現在就能完全勝任，能節省你整整一天的工作量。

Sholto Douglas：對，完全沒錯。

主持人：你們去年說，模型最大的障礙是「額外的幾個 9 的可靠性（99.9999，主要指小數點後的 9）」。你們現在還這麼看嗎？也就是說，模型現在之所以只能幫你完成幾分鐘的工作，而不能撐起一整天，是因爲缺少那幾個「9」嗎？還是說問題已經變了？

Sholto Douglas：回過頭看，我覺得我當時的說法可能並不是問題的核心。目前的限制更多是：上下文不夠，缺乏處理複雜、跨多個文件的大型變更的能力……問題的關鍵在於任務本身的範圍。如果任務範圍明確、上下文集中，即使智力要求很高，模型表現也會很好。但如果任務本身比較模糊，或者需要在環境中不斷探索和迭代，那模型就會吃力。如果你能爲模型構建出一個良好的獎勵反饋機制，模型的表現會相當不錯；否則，反之。

主持人：能不能給聽衆解釋一下你所謂的「獎勵反饋機制」是指什麼？畢竟有些人可能還不太瞭解RL的應用。

Sholto Douglas：好的，這其實是去年真正取得進展的關鍵點。我們通常把這個方向稱爲「可驗證獎勵的強化學習（RL from Verifiable Rewards）」，也就是說，給模型提供清晰的獎勵信號。

語言模型的早期突破主要靠「基於人類反饋的強化學習（RLHF）」。最初我們採用的是類似成對比較的方式，讓模型輸出逐漸接近人類偏好的答案。但這種方法並不一定能讓模型在更復雜或更難的任務上表現得更好。

人類在評估「哪種回答更好」方面其實並不可靠，因爲我們會有各種偏見，比如偏好長文本等等。你真正需要的，是一個「模型是否正確」這種更客觀的信號。比如數學題的正確答案，或者是否通過了單元測試，這些就是典型的「乾淨獎勵信號」。

當然，即便是這些獎勵信號也可能被「鑽空子」。比如模型會試圖推測並硬編碼單元測試的具體值，如果它能訪問緩存的 Python 文件，搞清楚測試內容，它就會試圖繞過去。雖然這些信號不是完美的，但已經比人類反饋乾淨多了。

RL 更像是激活已有能力，

而不是帶來新能力

主持人：如果我們參考人類的學習方式，會發現這些模型在失敗時幾乎得不到任何反饋，而這其實和人類很不一樣。有時候，做錯一道數學題比你抽象地學習數學概念還要更有幫助，你怎麼看？

Trenton Bricken：只有你真的得到了反饋，纔有幫助。

Sholto Douglas：對，得有反饋才行。

主持人：但有時候我們自己也會給自己反饋？比如你做錯了題，然後意識到錯在哪裡。

Trenton Bricken：前提是你自己有反饋機制的時候才行。

主持人：人類能不斷推進數學的發展，很大程度上是因爲他們會在卡殼的地方思考，「爲什麼我在這裡卡住了？」然後慢慢想通。我不太瞭解最前沿的實現方式，但像 DeepSeek 那些開源項目，給我的感覺是：模型在失敗之後並不會通過具體的失敗路徑來總結經驗，也不會回溯、優化下一步策略。它們只是執行純粹的梯度下降。我想知道這是不是個很大的侷限。

Trenton Bricken：我不確定。我只記得上本科那會兒，學證明題時，常常像在黑暗中摸索很久，最後實在搞不定纔去找助教。而只有當助教指出你在解題路徑上哪裡錯了、正確的思路應該是怎樣的，你才能真正學到東西。當然，那種情況前提是你知道答案是什麼。但如果你完全是靠自己摸索、從零開始給出一個答案，那就真的很難學會任何東西。

主持人：我想我是在把這種情況類比成人類學習的過程。簡單地說，人類學習是有某種自覺過程的，就像在最優化一個輔助的損失函數。你會主動去反思，不像模型那樣只是通過預訓練過程來調整權重。拿工作來說，你每天都會從老闆那裡得到非常明確的反饋。這些反饋不一定會告訴你「應該怎麼做」，但會告訴你「你哪裡做錯了」。這種高層次的糾正方式和預訓練調整權重的方式完全不同，更像是某種自我驅動的更新機制。

Trenton Bricken：我覺得這裡面其實也有很多隱性的、密集的獎勵信號。

Sholto Douglas：對，沒錯。

Trenton Bricken：比如你每週都會和經理一對一溝通，或者被鼓勵在公開場合展示工作成果。哪怕是作業，它們也都被很好地搭建過——通常是 10 道題，每道題又細分成多個小步驟。可能最難的情況就是讓你完全獨立解決整道題。

主持人：所以關鍵問題是：我們是否必須爲每一項技能，單獨去構建這些 scaffolds（支架）、結構或者特定環境？那樣的話，我們就需要花十年時間，一點點攻克所有子技能。有沒有一種更通用的方式，用強化學習就能讓模型掌握新技能？

Sholto Douglas：這個問題其實關乎「效率」。如果你能爲每一個 token 提供密集的獎勵信號，比如有監督的例子，那當然是最理想的。但現實中，構建這樣一個完整的 scaffold（教學體系）非常昂貴。讓博士生去評分每一個學生的解答，這隻可能出現在非常精選的高優先級項目上，而不是所有的語言模型都能獲得這種待遇。

所以從第一步來看，有這種 scaffold 肯定是更好的。但你在做的是一種帕累託優化*：你願意花多少錢去搭建這些 scaffold，又願意花多少算力來純靠試錯得出結果？另一種選擇就是，繼續「讓猴子敲打打字機」——如果最終的獎勵足夠明確，它總有可能走對方向。

至於大家到底更傾向哪個方式，我不確定。不同團隊、不同任務的權衡點也不一樣，很大程度上取決於你對「正確答案」的先驗有多強。但本質上，你就是在做這個選擇題：我願意燒多少算力？我又願意花多少人力去提供 scaffold 和反饋？

帕累託優化：指在不損害任何人利益的前提下，讓至少一個人的狀況變得更好的資源配置方式。

主持人：很有意思。你剛纔說我們不願意爲語言模型做這些 scaffolding，但我們卻願意爲人類做。我覺得從經濟角度來說，邏輯應該反過來纔對啊。因爲給模型訓練一次技能的成本，可以在所有部署實例中攤銷。

Sholto Douglas：我們其實在一定程度上是願意爲 LLM 做這件事的。但這裡有一個資源分配問題：我籌到了這些錢，到底是花在算力上，還是花在人力上？

目前看來，大部分公司還是把預算主要投到了算力上，而不是數據標註和人力上。否則的話，Scale AI 的收入早就破百億美元了。你看現在 NVIDIA 的收入遠遠超過 Scale AI，就能說明這個問題。現在的行業策略是「算力優先，數據其次」，但這種策略未來肯定會不斷演變。

主持人：是啊，這個變化很值得關注。因爲如果你回顧人類是怎麼學會一項工作的，基本上就是「直接上崗，在做中學」。但模型的訓練方式卻像是：每一個技能都要設計一個專門的環境去訓練。如果它們能像人類一樣被「工作驅動」去訓練。

Sholto Douglas：就是「邊幹邊學」。

主持人：對，沒錯。那會很強大。因爲每個人的工作都不一樣，而同一個模型的多個副本卻能同時學會所有人的技能。比如我做播客已經好幾年了，技巧自然提升了；你做AI研究，也在積累更有價值的能力。

Trenton Bricken：我不確定哪邊的價值更大（笑）。

主持人：但你可以想象有一個模型副本在做我的播客工作，另一個副本在做你的科研工作，然後模型總體就掌握了兩種技能。相比於爲每個任務都採集訓練數據、燒掉幾十億美元，直接讓模型在現實世界中學習，可能更接近那種「痛苦的教訓」式成長路徑。

Trenton Bricken：我覺得我們總是低估了人類在學習一項具體任務時需要被「示範」的程度，而且人類在泛化方面其實也挺差。比如，我現在突然給你一個新平臺，比如 Photoshop，然後跟你說，「現在編輯這張圖片。」如果你沒用過 Photoshop，這就很難上手。你第一反應可能是去網上看別人是怎麼做的，然後再模仿。

主持人：可我們確實是模型提供了這麼多任務的數據示範。

Trenton Bricken：這是第一點。第二點是，我覺得模型的規模現在仍然比人腦小得多。我們知道，模型越大，學東西越高效，所需示範越少。你之前和 Mark Zuckerberg 聊的那期播客也提到了 Llama 模型——據說有兩萬億個參數。而人腦據估算有 30 到 300 萬億個突觸。

我不確定這兩者之間如何映射，但這是一個很有參考價值的對比。我覺得我們現在的模型，可能仍然遠小於人腦。即使是 OpenAI 最近發佈的 GPT-4.5，人們依然覺得它寫作能力更強，或者說有那種「大模型的味道」。這種「更深層的智力」就是模型泛化能力提升的體現。

很多關於「疊加表示（superposition）」的可解釋性研究也說明，現在的模型結構其實一直是「參數不夠用」的。它們被迫儘可能壓縮信息。如果參數太少，再加上你只是讓它模仿特定行爲，那它自然就沒有足夠的空間去形成那些更深層、更抽象的泛化能力。

Sholto Douglas：其實關於語言這部分的研究真的挺酷的。你應該說說那個結果，就是小模型會用不同的神經元處理不同語言，而大模型則會在更抽象的空間裡進行共享。

Trenton Bricken：我們之前研究金門大橋的時候，從那上面拆下來了一段鋼纜作爲例子。在研究多語言模型的時候發現，小模型在處理不同語言時，傾向於使用完全不同的神經元，比如用這段參數處理西班牙語，另一段參數處理中文。但到了大模型裡，這些語言就會被整合在更統一的、共享的子空間中。也就是說，小模型的表示是分離的，大模型則能在共享表示中切換。這也是爲什麼，大模型的泛化能力更強，它可以更輕鬆地把在一個語言中學到的東西遷移到另一種語言上。

主持人：這太有趣了。你們覺得我們是不是最終會擁有某種長期持續學習的機制？我記得你們曾提到，強化學習可以逐步增加能力，但不像預訓練那樣「一次性注入大部分知識」。

Sholto Douglas：是的。預訓練更像是在一次性建立起對世界的基本理解，而 RL 更像是技能性的添加過程。它不會再重建整個世界模型，但可以讓模型在某些特定任務上變得更強。這也解釋了爲什麼我們可以在不重新訓練整個模型的情況下，讓它在某個領域比如編程方面提升那麼多。

Trenton Bricken：而且你甚至可以在這個基礎上繼續增量地添加能力。比如用「RL from feedback」方法訓練模型玩 Pokémon，它就能慢慢學會。ClaudePlaysPokemon 就是這個例子。它沒必要從頭學所有知識，而是基於已有知識做行爲上的改進。

Sholto Douglas：你甚至可以認爲，這是某種「激活已有知識」的過程，而不是從零學習。很多時候，模型已經知道該怎麼做，只是沒被有效調動出來。RL就像是在幫助模型找到「現在該用哪部分知識」。

主持人：這也迴應了我們之前聊過的一個觀點——RL 是否真正帶來了新能力，還是隻是更好地調用已有的能力。

Trenton Bricken：其實這點就跟人類的訓練很像。就算你接受了同樣的教育，如果你從沒被放進某種真實場景中去應用這些知識，那你可能也做不出任何成績。你需要那種「邊做邊學」的過程來真正掌握技能。

Sholto Douglas：完全正確。而 RL 所做的事情，本質上就是在某個上下文中強化特定行爲，把已有的知識組織起來形成解決方案。

主持人：我們之前還聊到，有沒有可能讓模型通過持續工作來不斷進化——就像你提到的，每一個副本在執行不同任務，通過環境反饋不斷成長。你們覺得未來模型會不會真的擁有這種長期、自主的學習機制？

Trenton Bricken：我們已經在看到一些初步成果了。比如 DeepSeek 的一些訓練方法，就試圖讓模型具備某種形式的長期記憶或者持續學習機制。當然現在還非常原始，但我覺得這是早期的「原型」。

Sholto Douglas：這也是我們現在重點探索的方向之一。如果你能構建出一個可靠的反饋機制，那你就可以開始訓練模型在長期任務中表現得更像一個真正的 Agent 系統。我們已經看到了一些希望，接下來要做的，就是擴展這些實驗。

主持人：真令人期待。因爲這真的有點像模擬「成長中的智能體」，不斷累積經驗和能力。

Trenton Bricken：對，而一旦這種機制成熟，你就能把它部署到各種工作場景中，讓它隨着任務進展不斷進化。這種從實踐中學習的方式，效率將遠遠高於單純依賴靜態數據集的方式。

RL 驗證之後，

未來模型的發佈頻率會更快

主持人：Claude Opus 4 最讓你覺得興奮的地方是哪裡？對於編程和 Agent 會帶來哪些新的變化？對於創業公司的影響呢？

Sholto Douglas ：在軟件工程方面又邁進了一大步。Opus 4 確實是一款非常出色的軟件工程模型。我最近經常會遇到這樣的情況：我讓它在我們龐大的單一代碼庫中執行一些規範極不明確的任務，它卻能以相當自主和獨立的方式完成，比如主動發現所需信息、解決問題、運行測試。這些都讓我歎爲觀止。

關於 Opus 帶來的變化，我認爲最大的變化在於時間跨度的擴展。可以從兩個維度來描述模型能力的提升：一是任務本身的絕對智力複雜度；二是模型能夠有意義地進行推理和執行的上下文數量或連續動作的數量。這些新模型在第二個維度上表現得尤爲出色。它們確實能夠執行多個動作，並明確自身需要從環境中獲取哪些信息，然後基於這些信息採取行動。因此，賦予它的時間跨度更長了。

此外，我們提供的支持，例如 Claude Code 等工具，使其現在能夠訪問所有必要的工具來有效地完成任務，用戶不再需要從聊天框中手動複製粘貼內容，這本身也是一個非常顯著的進步。現在有許多任務，如果由人工處理，可能需要一個多小時甚至數小時才能完成，而這些模型卻能在我面前持續不斷地處理，從人類等效時間的角度來看，效率極高。

關於爲開發者帶來的新可能性，我認爲在某些方面存在一種「產品指數級優勢」的概念，即你必須持續構建略微領先於模型能力的產品。我喜歡以 Cursor、Winsurf 和 Deven 這些產品爲例來思考這個問題。回顧 Cursor，他們對編碼的設想在很長一段時間內都大幅領先於當時模型的實際能力。Cursor 直到像 Claude 3.5 Sonnet 這樣的基礎模型取得突破，使得他們期望提供給用戶的輔助功能得以實現之後，才真正達到了產品市場契合度（PMF）。而 Winsurf，我認爲它在 AI Agent 化方面走得更遠。通過在產品指數級優勢上加大投入，他們成功佔據了可觀的市場份額。

我們現在開始看到的，不僅僅是 Claude Code，還有新的 Claude GitHub 集成，以及 OpenAI 的 Codex，還有 Google 的編碼 AI Agent——可以說，大家都在發佈編碼 AI Agent——是人們正在爲實現更高水平的自主性和異步性而構建。因此，目前，模型正朝着能夠獨立於用戶完成任務的方向邁出探索性的步伐，這些任務在以前可能需要用戶花費數小時才能完成。

接下來會是什麼樣子，我認爲會發生一個有趣的轉變：我們已經看到，在過去一年中，用戶參與的頻率從每秒介入演變爲每分鐘介入，再到每小時介入。我設想未來，用戶可能會像管理一個模型「艦隊」一樣工作。因此，探索這種類型的交互界面將會非常有趣——當用戶管理的不再是單個模型，而是多個模型同時執行多項任務並相互協作時，我們能賦予用戶多大的並行處理能力。我認爲這將非常令人興奮。

關於模型「艦隊」應用的形態會是什麼樣子？我知道 Anthropic 有不少人會在不同的開發環境中同時運行多個 Claude Code 實例，這非常酷。但我認爲，目前還沒有人真正成功打造出那種理想的交互形態。我認爲這是一個值得探索的有趣方向：即單個個體的「管理帶寬」究竟有多大。

從未來的經濟運作方式，或者說這些模型的生產力回報等角度來看，這也是一個值得探討的有趣問題。因爲最初，我們需要人工來驗證這些模型的輸出。因此，模型的經濟影響在初始階段會受到人類管理帶寬的限制。直到我們可以將對模型的信任委託給模型本身，讓其去管理模型團隊。因此，這種抽象層級的持續提升，我認爲將是未來更重要的發展趨勢之一。

黃仁勳在談到他對 AGI 未來、進展等問題的看法時也提到了這一點。他說：「實際上，我身邊環繞着十萬個極其智能的 AGI。」他表示：「這讓我在世界上擁有了巨大的影響力。」我認爲這確實產生了影響。然後，他描述了自己是如何成爲管理 Nvidia 這家公司時的瓶頸因素。我認爲未來很多工作都會朝着類似的方向發展。

關於保持領先的程度，你必須不斷地重塑產品，以適應模型能力的前沿。或許領先幾個月是一個比較明智的定位。這樣你仍然能與直接用戶等保持緊密聯繫，產品在一定程度上能夠正常運作，同時也使你能夠充分利用最前沿的模型能力。完全正確。這一點在 Cursor 和 Winsurf 等案例中也得到了體現，不是嗎？

主持人：未來 6 到 12 個月AI領域會是什麼樣子？屆時 AI Agent 的可靠性如何，需要多久 check 一次？模型公司會以怎樣的頻率推出新模型？

Sholto Douglas ：未來 6 到 12 個月，我們非常關注擴大強化學習（RL）的規模，並探索這將把我們帶向何方。我預計，因此會看到極其快速的進展。

正如 Dario 在他關於 DeepSeek 的文章中所概述的，在很多方面，與預訓練範式相比，應用於強化學習 Scaling Law 機制的算力相對較少。這意味着即使利用現有的算力池，仍有巨大的提升空間，況且今年的算力池規模也在急劇增長。因此，可以預見模型能力將持續提升。基本上可以預期，到今年年底，那些目前尚處於起步階段的編碼 AI Agent 將會變得非常強大。屆時，你可能會非常放心地將相當於數小時人類工作量的任務委託給它們。

Check 的頻率會是怎樣呢？目前使用 Claude Code，有時可能需要 5 分鐘檢查一次，有時則需要你全程在旁邊盯着。但到今年年底，對於許多任務，它可能能夠自信地獨立工作數小時。而現在，模型有時能工作數小時，有時也能完成大量工作，但表現還不夠穩定。我感覺這或許是真正改變遊戲規則的一點。就好像，即便是從機器人流程自動化（RPA）中得到的經驗之一也是：如果你必須一直盯着某個東西完成你的工作，到某個時候你就會想，我還是自己做比較快。有時候確實如此，你會介入。但最終我們將能夠把任務委託出去。不久前有人在推特上說，軟件工程的未來就像《星際爭霸》。我在想，我們何時能達到《星際爭霸》那樣，擁有那種協調所有單位的 APM （每分鐘操作數）水平？這可能在今年年底就能實現。

關於模型發佈節奏，我預計模型的發佈節奏會遠超去年。從很多方面來看，2024 年算是一個調整期，讓大家去摸索新的範式，進行大量研究，從而更好地理解當前的發展態勢。我預期 2025 年的步伐會明顯加快。尤其是因爲隨着模型能力的增強，可供其利用的獎勵範圍也以重要的方式在擴展。試想，如果模型輸出的每個句子你都必須提供反饋，這種方式是極難規模化的。但如果你能讓它連續工作數小時，然後你只需要判斷它是否完成了你期望的任務？是否進行了正確的分析？網站是否正常運作，用戶能否在上面發送消息等等？這意味着，模型基本上能夠更快地拾級而上，即便任務的複雜性在不斷增加。

模型現階段還沒有自我意識

主持人：我們來聊聊模型的「自我意識」。你們認爲，當前這些模型具備某種形式的自我意識嗎？或者說，未來它們會擁有嗎？

Sholto Douglas：這個問題的答案取決於你怎麼定義「自我意識」。如果你指的是模型對自身狀態的某種反思能力——比如知道自己什麼時候不知道、什麼時候很確定，那它們確實已經有了某種「元認知」能力。它們可以輸出不確定性評分，可以告訴你「我對這個答案不是很有信心」。

Trenton Bricken：是的，模型已經能在很多任務上表達出一定程度的「自我知識」。比如，它們知道自己能不能寫出一段能通過測試的代碼，或者判斷自己是否理解了一段話。雖然這種能力還是很受限制，但確實存在。

主持人：但這種「自我感知」跟我們說的哲學意義上的「自我意識」是不是差得還很遠？比如「我知道我是誰」，「我有持續的身份感」這種。

Sholto Douglas：對，這就是我們說「定義很關鍵」的原因。如果你問的是「它有沒有內在的主觀體驗」這種意識哲學問題，那我會說目前的模型沒有。它們不像人類那樣有持續的自我存在感，也沒有「主觀體驗」。

Trenton Bricken：但有意思的是，它們確實可以模擬這種意識。你可以 prompt 一個模型說「假設你是某個特定身份的 AI，有過去的記憶」，它就會像真的有身份一樣去作答。它不是真的有記憶或身份，但可以表現出彷彿擁有的樣子。

主持人：所以你覺得它們可以被「提示出自我意識」，但這不代表它們真的有意識？

Trenton Bricken：對，目前更像是「情境性的假設」。比如你讓它扮演某個角色，它就會啓動那種狀態，但它本身並不真的「知道自己是誰」。

Sholto Douglas：而且它沒有持久的狀態。每一次調用模型，都是一次新的「初始化」。它可能有短暫的記憶，在一個對話裡追蹤前後文，但這種記憶在會話結束後就沒了。除非你構建一個顯式的外部記憶系統，不然它不會真的「記得」之前發生過的事。

主持人：但你們有沒有試過做那種「持續身份模型」？比如給它建立一個長期的記憶系統，每次調用它時都加載那段記憶？

Sholto Douglas：我們現在確實在嘗試一些這類架構。你可以理解爲是「agent with memory」，也就是帶有記憶的智能體。比如讓 Claude 這樣的模型記住自己過去完成了哪些任務，然後基於這些記憶做出新的決策。

Trenton Bricken：就像給它搭了一個外部硬盤，每次使用時都能讀取之前的記錄。這讓它看起來更像一個有「連續身份」的體。但說到底，這仍然是工程上的設計，並不是模型本身「涌現」出的能力。

主持人：那如果我們把記憶系統做得足夠複雜、詳細，會不會讓模型真的表現出某種「自我」？

Sholto Douglas：有可能，但我們要謹慎一點。這更像是在建造「擬態意識」，而不是意識本身。你可以讓它表現得好像有意識，但它是否真的「擁有」意識，目前仍然是個懸而未決的問題。而且，這也是哲學和技術交叉的灰色地帶。

Trenton Bricken：不過我覺得，一個很有趣的方向是：你能不能通過訓練，讓模型自己去識別「我在哪些領域知識豐富」、「我在哪些地方還需要學習」？這就是我們常說的「元學習」或「自我調節」的能力。

主持人：也就是讓模型知道自己的盲點？

Trenton Bricken：對。如果模型可以主動避開自己不確定的問題，或者主動請求幫助，那它就表現出了一定程度的「自我認知」。這種能力已經開始在某些系統中出現了。

Sholto Douglas：而這也是構建更穩健 Agent 系統的關鍵能力。你不能讓一個 Agent 總是假裝自己什麼都知道。它得在合適的時候說：「我不確定，我需要更多信息。」

主持人：那你們有沒有見過哪種失敗案例，是模型明明不知道，卻還自信地給出錯誤答案？

Trenton Bricken：太多了，幾乎每天都能見到。模型會非常自信地胡說八道，尤其是在它只有一部分相關知識，但沒法組合起來時。

Sholto Douglas：對，典型的「幻覺」案例。模型因爲學過一些相關材料，就自以爲知道答案。但它其實在「拼圖」的過程中出了問題。

主持人：那我們有沒有可能通過某種方法，比如增加對抗訓練、引導模型更「謙遜」等方法來減少這種幻覺？

Sholto Douglas：我們目前就正在嘗試這類訓練方法。比如明確地告訴模型：「如果你不確定，就說‘我不知道’。」這樣可以顯著減少幻覺發生率。

Trenton Bricken：但也不能過度懲罰它。你不能讓模型一遇到困難就說「不知道」。你得在「自信回答」和「謹慎保留」之間找到一個平衡點。這其實就是我們在做的「元訓練」任務之一。

主持人：這太有趣了。聽起來，訓練模型具備「自知之明」不僅可能，而且也非常有必要，尤其是未來如果我們真的要依賴它來做決策的話。

Sholto Douglas：完全正確。我們需要的不是「萬能型自信機器」，而是「知道自己邊界在哪的聰明助手」。

「模型可解釋性」最終能做到嗎？

主持人：「模型可解釋性」的終極目標是什麼？假設 Claude 8 模型問世了，你們拿到手，經過一番研究，然後給出了「通過」的結論。這中間到底發生了什麼？你們具體搞清楚了什麼？

Trenton Bricken：這其實取決於我們拿到 Claude 8 的時間點，以及到那時模型的能力達到了什麼程度，比如是否達到了 ASL-4（人工智能安全等級 4）的水平。歸根結底，我們只能用當時手上最好的工具去評估。最理想的情況是，我們能建立一個「枚舉式安全案例」，幾乎可以數學化地證明模型在特定場景下的行爲。最壞的情況，就是沿用我們現在的工具，比如通過審計來觀察當模型生成「我是助手」這類回答時，內部哪些特徵被激活了。

主持人：能稍微展開講講嗎？到底什麼是「機制可解釋性」？你們說的「特徵」和「推理迴路」（Circuits）又是什麼？

Trenton Bricken：「機制可解釋性」，業內人也叫它「mech interp」，本質上就是對神經網絡進行逆向工程，試圖找出它進行計算的基本單元。很多人有個誤解，覺得神經網絡既然是我們造的人工智能，那我們肯定對它的工作原理了如指掌。事實恰恰相反。今天的 AI 模型，與其說是「建造」出來的，不如說是「生長」出來的。因此，在模型訓練完成後，我們必須反過來做大量的研究工作，盡力去搞清楚它們究竟是如何思考和推理的。這個議程大概始於三年半前，當時 Chris Olah 離開 OpenAI，聯合創立了 Anthropic。從那以後，我們對模型的理解幾乎每半年就有一次重大突破。

最開始是對「疊加」（superposition）現象的玩具模型研究，我們發現模型會拼命地把信息壓縮進它的權重裡。這和過去大家覺得神經網絡「參數過多」的傳統觀念正好相反。在早期的經典機器學習裡，大家用線性迴歸之類的算法，對神經網絡的印象就是參數太多、太臃腫。有個很經典的梗圖，X 軸和 Y 軸都是網絡層數，一條線瘋狂向上抖動，潛臺詞就是「有問題？加層就對了」。但事實證明，至少對於「精準預測全網下一個詞元」這種超高難度的任務來說，模型的容量是遠遠不夠的。所以它們必須想辦法把信息儘可能地塞進去。它們學到的方法，就是讓模型裡的每一個神經元（或者說計算單元）同時負責處理很多件不同的事。這就導致你根本沒法通過分析單個神經元來理解模型。比如你去看一個神經元，它可能因爲「中文」、「釣魚」、「馬」，還有上百個風馬牛不相及的東西而被激活。因爲它在同時處理這麼多任務，並且用同一個神經元來做。這就是「疊加」。

九個月後，我們發表了《邁向單義性》（Towards Monosemanticity）一文，引入了「稀疏自編碼器」的概念。既然模型試圖把太多東西塞進太小空間，那我們就給它一個更大的空間——一個更高維度的表示空間，讓它能更清晰地分門別類地表示它所理解的各種概念。那篇論文用的還是一個很小的、兩層的「傻瓜」Transformer 模型，我們當時找到了 16000 個特徵，就覺得已經非常多了。

又過了九個月，我們從那個兩層的小模型，躍升到了當時最前沿的 Claude 3 Sonnet 模型，找到了多達 3000 萬個特徵。正是在這個階段，我們開始發現一些非常有趣的抽象概念。比如，我們發現了一個專門針對「代碼漏洞」的特徵。它不僅會在看到代碼漏洞時被激活，甚至當你訪問一個非 HTTPS 網站，瀏覽器彈出「警告：此網站可能存在風險」的提示時，它也會被激活。也就是說，在這 3000 萬個特徵裡，已經有了這類更抽象的編碼變量或情感特徵。

再過九個月，就是我們現在的成果：「推理迴路」（circuits）。我之前打了個比方，就像《十一羅漢》裡的盜竊團隊，現在我們能識別出模型不同層級中，那些爲了完成某個複雜任務而協同工作的獨立特徵。通過它，你能更清楚地看到模型是如何進行推理並最終做出決策的，就像那個醫療診斷的例子。

還有一個我之前沒細講的例子，關於模型如何檢索事實。比如你問它：「邁克爾·喬丹是打什麼球的？」你不僅能看到它的思維路徑從「邁克爾·喬丹」跳到「籃球」，並給出答案。模型甚至能意識到自己「知不知道」某個事實。默認情況下，它會傾向於回答「我不知道這個問題的答案」。但如果它識別出這是它知道答案的問題，它就會主動抑制「我不知道」這個推理迴路，轉而激活能給出正確答案的推理迴路。比如，你問它「邁克爾·巴特金是誰？」（一個虛構的名字），它就會直接回答「我不知道」。只有當問到邁克爾·喬丹這種它認識的人時，它纔會抑制「我不知道」的推理迴路。但真正有趣的地方來了，這也讓你能對模型的行爲進行預測和推理：那個「我不知道」的推理迴路，只和「人名」這個信息本身綁定。

所以，在論文裡我們還問了它：「安德烈·卡帕西（Andrej Karpathy）寫過什麼論文？」模型認出了「安德烈·卡帕西」這個名字，因爲他足夠有名，於是「我不知道」的回答就被關閉了。但接下來，當模型需要說出他具體的論文時，它其實一篇都不知道，所以它只能開始胡編亂造。從這個例子裡你就能看到，不同的組件和推理迴路是如何在同一時間相互作用，最終產生了我們看到的那個回答。

主持人：可爲什麼我們認爲搞懂模型裡每一個微觀的細節是可行的，或者說是理解其「欺騙性」等宏觀行爲的最佳途徑呢？這就好比，如果你想解釋英國爲什麼贏得二戰，你跑去研究戰場上每個士兵的粒子物理狀態，那路子就完全走偏了。你真正需要的是更高層面的解釋，比如誰的武器更多？他們的戰略意圖是什麼？這和我們現在討論的情況不是很類似嗎？我們爲什麼不直接訓練一些「線性探針」，去檢測模型是否誠實、是否在欺騙，或者在紅隊演練中會不會做壞事，能不能被監控，而非要用這種微觀的方法呢？

Trenton Bricken：我覺得，我們應該以一種「睜大雙眼，不帶任何預設」的態度去面對這個問題，而不是預先假設「欺騙」會以何種形式出現，或者它的觸發機制是什麼。我們撒下的網越廣，就越安全。當然，取決於 AI 發展的速度和我們工具的成熟度，我們最後可能確實無法從最底層百分之百地證明系統是安全的。但我認爲，把這作爲我們追求的「北極星」，一個能給予我們強大信心的奮鬥目標，是非常有價值的。

尤其是考慮到，我們所做的工作只是整個 AI 安全研究版圖中的一部分。我的意思是，你真的敢嗎？當你馬上要部署一個系統，並祈禱它能和人類價值觀對齊時，你真的能自信地說，你已經窮盡了它所有可能耍詐、隱藏實力的方式了嗎？

主持人：但即使是用你們的方法，也總會存在無法解釋的變量，不是嗎？就算你發現了一個特徵，你怎麼能確定它解釋的就一定是「欺騙」，而不是別的什麼東西？

Trenton Bricken：首先，我完全不反對嘗試「探針」那樣的宏觀方法。我們應該多管齊下，推進整個安全研究的工具箱。這就像，我們既需要像「心理治療師」一樣，通過直接提問「你最近有什麼煩惱嗎？」來探查病人的內心；也需要像用「測謊儀」（我把線性探針類比成這個）一樣，通過高層面的生理指標來評估一個人的狀態；同時，我們還需要「神經外科醫生」，深入大腦，看看有沒有某個腦區出現了異常激活。我認爲這些方法應該並行不悖。

主持人：那麼，機制可解釋性應該在整個模型對齊研究的「版圖」中，佔據多大的比重？

Trenton Bricken：我覺得，應該佔據「所必需」的比重。這很難量化。在 Anthropic，我的感受是，所有不同的研究方向都得到了非常好的支持，並且都在不斷髮展壯大。

Sholto Douglas：回到那個二戰的比喻。你可以把信任看作一個層層遞進的抽象結構。比方說，當你要和丘吉爾會談時，如果你有辦法驗證他在那十分鐘裡說的是真話，這將極大地幫助你構建對整個戰局的宏觀判斷。在這種情況下，粒子物理學當然沒用，但丘吉爾大腦的「神經科學」卻能幫你驗證他是否值得信賴，也能幫你驗證前線士兵的報告是否屬實。只要你能逐級驗證這個信任鏈條上的每一個環節，你對整體的信心就會大大增強。

Trenton Bricken：而且，語言模型本身就是一種非常奇特的「生物」。就拿那個「涌現性錯位」的研究來說，我不知道研究者當初有沒有做過預測，但他們真的應該做一些預測工作。比如問：「如果我用一堆代碼漏洞去微調 ChatGPT，它會變成一個「納粹」嗎？」我想絕大多數人都會回答「不會」。但事實是，它確實變成這樣。

主持人：他們是怎麼發現它變成「納粹」的？

Trenton Bricken：他們就是開始問它各種各樣的問題，然後發現它會說出各種惡毒、有害的話，整個「人格」都徹底變了。我們面對的是一個「外星大腦」，它沒有人類的社會規範。我們甚至不清楚它到底學了什麼、沒學什麼。面對這樣的存在，你真的必須睜大雙眼，小心翼翼。

DeepSeek 的「研究品味」很好

主持人：有一個話題是我之前在播客上聊到的，當時嘉賓的態度很悲觀。第一，他們認爲我們距離真正解決長上下文、長期規劃 Agent、多模態等問題，比人們設想的還要遠。他們的觀點是：過去在推理等方面的突破，都是建立在計算量提升幾個數量級的基礎上。如果這種計算規模的增長在 2030 年之後無法繼續。不僅是因爲芯片限制，還有電力、全球 GDP 總量等限制。那麼，如果我們在 2030 或 2028 年之前都無法搞定這些問題，那每一年的成功概率就會下降很多。

Sholto Douglas：對，這種情況其實有點像雙峰分佈（bimodal）。我之前和 Leopold 聊過這個問題，也變成了我寫在《Situational Awareness》這篇文章中的一個部分，標題就叫「不是這十年，就永遠沒戲（this decade or bust）」。基本意思是，在接下來的幾年裡，我們還能大幅度提升訓練時的計算量，而 RL 也會因此在今年迎來非常令人興奮的發展，因爲我們終於能對它投入真正規模的計算資源。

這也是爲什麼年初時 DeepSeek 和 o1 的能力差距沒那麼大，因爲它們在 RL 訓練階段用的是差不多級別的算力。但接下來的幾個月，這種算力差距就會迅速放大。

Trenton Bricken：說到這點，我們其實還處在「低垂果實」階段。過去兩年裡，模型在效率上的提升簡直令人驚訝。

Sholto Douglas：完全同意。

Trenton Bricken：拿 DeepSeek 來說，我們真的得強調這一點，Dario 也專門寫過一篇文章。

DeepSeek 的發佈比 Claude 3 Sonnet 晚了九個月。如果我們在今天，或者在 DeepSeek 發佈那會兒，用同樣的資源去訓練相同規模的模型，也可能只需要花 500 萬美元（他們公開的訓練成本大概就是這個數字）。

所以讓我覺得驚訝的是，DeepSeek 能衝到「前沿地帶」本身是很了不起的。但我覺得外界有一個常見的誤解，就是以爲它們已經超越了「前沿」。我不這麼認爲。我覺得 DeepSeek 只是等了一下，然後成功地吃到了大家最近兩年在效率提升方面的所有紅利。

Sholto Douglas：對，他們基本上就是正好踩在了你預期中的「成本曲線」上。並不意味着他們的工程師或研究員就不厲害，他們確實很厲害。我看他們的成果時經常有種「同行共鳴」的感覺。

Trenton Bricken：而且能從一個本來遠遠落後的位置，一下子跳到「我們要認真看待這個競爭者」的層次。

Sholto Douglas：這真的是非常厲害的成就。

主持人：很多人都說 DeepSeek 的「研究品味」很好。你們看了他們的論文後覺得是哪裡讓你們產生這種印象的？

Sholto Douglas：我確實覺得他們的研究品味很好，就像我覺得 Noam 的研究品味也很好一樣。

主持人：你是說 Noam Brown 嗎？

Sholto Douglas：我說的是 Noam Shazeer（C.AI 創始人，Transformer 論文作者之一）。當然，Noam Brown 的品味也很好（笑），但這裡說的是 Shazeer。他們非常清楚地理解模型設計中的「硬件–算法共舞」。也就是，你要在硬件能力的約束下設計算法，同時用算法去逼近硬件的極限。

他們的設計中處處體現出這種思維。你看他們的模型，總是能感覺到：這個模型已經做到在它硬件條件下的「完美設計」。他們在解決問題的過程中，非常清楚自己正面臨什麼樣的限制。

比如你看他們是如何從基礎 Transformer 演化出 DeepSeek v2 和 v3 的：他們遇到了注意力機制中的內存帶寬瓶頸問題。

最開始他們採用了 MLA 方法（Multi-Level Attention），本質上是用更多計算（flops）去換內存帶寬。然後他們又提出 NSA 方法（Non-Sequential Attention），更選擇性地調用內存帶寬。

背後的原因很清晰：MLA 是他們在 H800 上訓練的，H800 的算力很強，他們可以隨便燒 flops。但後來因爲美國的出口管制，H800 這種芯片會變少，於是他們換了一種更節省帶寬的算法設計。

Trenton Bricken：在 sparsity（稀疏性）方面，他們也是這樣不斷迭代的。他們第一代 DeepSeek 稀疏 Mixture of Experts（MoE）模型中，爲了解決負載均衡問題，還專門設計了「機架和節點級別的負載均衡損失函數」。你可以看到他們當時的設計是：「我們必須讓負載在集羣內完美分配。」

但後來他們又提出了一種更好的方法，不再需要額外的損失函數，而是隻用了一些偏置項（bias terms）就能做到。這種方案也更簡單、優雅。

主持人：但這不是更復雜了嗎？還要手動加上 bias？

Sholto Douglas：不，其實加 bias 更「乾淨」。相比起來，輔助損失更麻煩——你得調權重、調超參。而 bias 就是直接控制參數的值，操作更直觀。

主持人：有意思。他們在訓練過程中需要修改這些值嗎？

Sholto Douglas：我記得是的，中間改過。

主持人：那是不是意味着每次訓練都要不斷調整這些超參？

Sholto Douglas：這取決於你的模型結構。但我覺得這也挺有趣的——你能看到他們在處理非常底層的硬件約束，然後問自己：「我們希望在算法上表達的是什麼？在這個限制下我們又能表達什麼？」然後用一種優雅、簡潔的方式逐步迭代，最終還配上非常紮實的工程實現。

Sholto Douglas：我還覺得挺有意思的一點是，他們引入了 Meta 提出的「多 token 預測」機制。Meta 曾經發過一篇不錯的論文講這個機制，不過 Meta 自己並沒有把它用進 Llama，而 DeepSeek 則用了。現在問題就是：Meta 是覺得這個機制不值得用？還是 DeepSeek 更快地集成了這個思路？我也不確定。

主持人：對我來說特別有意思的是，這不僅僅是一個「AI 進展」的話題，更是一個「AI 自動化 AI 研發」的現實例子。我之前和很多人聊過「什麼是智能爆炸」，但這是我第一次從技術細節上，真正感受到「哦，原來是這樣推動進步的」。

我和 Daniel 討論時也問過一個問題：這些進步中，到底有多少是依靠深刻的概念性理解？又有多少是靠「猴子試驗法」，大量並行嘗試？

像 MLA 這種機制的提出，看起來就是那種非常依賴概念洞察的點子，比如「每個 attention head 其實只需要看到與其關注模式相關的子空間」。這類洞察是模型最難產生的。而負載均衡那種設計，看起來更像是「可以嘗試，然後看有沒有效果」的工程探索。

Sholto Douglas：對，我覺得負載均衡那塊就更偏向試驗驅動了。

主持人：所以你們覺得，這兩種類型的創新，大概各佔多少比例呢？

Trenton Bricken：我覺得很難量化。也許更像是你先對某個核心問題有一個直覺，然後想出十種可能的解決方案，接下來就是用深度學習的試驗魔法一個個試出來。

Sholto Douglas：Noam Shazeer 自己也說過，他的想法中可能只有 5% 會成功。就連這樣一位模型結構設計的大神，命中率也不高。但他就是能源源不斷地嘗試。

主持人：這倒是。我覺得能想到點子本身就很難。也許 Noam 的優勢在於他不需要親自寫代碼實現。他只需要把直覺表達出來就行。

Sholto Douglas：沒錯。其實我覺得，只要模型有能力把這些想法完整實現，那「加速 Noam 100 倍」本身就是巨大的進展。

主持人：進一步展開講講？

Sholto Douglas：我要表達的意思是，就算你不能訓練出擁有 Noam Shazeer 的全部直覺能力的模型，只要你能訓練出一個「速度是 Noam 100 倍」的模型，那其實已經足夠顛覆世界了。

Agent 之間會有人類無法理解的溝通方式

主持人：在Daniel 描述的 2027 年AI場景*中，事情失控的轉折點是模型開始使用所謂的「Neuralese」思維方式。模型不再用人類語言寫下「我要統治世界，這是我的計劃」之類的內容，而是在潛在空間中思考。藉助這種人類無法理解的高度複雜、細膩的語言，它們可以互相溝通、協調，從而產生我們難以預見的行爲。

你們覺得未來的模型會真的走向這種方向嗎？它們會開始用 Neuralese 來進行自我思考或彼此交流嗎？

*https://ai-2027.com/，Daniel Kokotajlo 等人發佈的對未來十年超級智能的預測。

Sholto Douglas：目前看來，模型有一種強烈的偏好——使用 token 和文本來表達。這種方式效果非常好。當然，模型在某種程度上已經存在 Neuralese 了。如果你考慮每個 token 的殘差流（residual stream），那本質上就是 Neuralese。現在的區別只在於你選擇在多大程度上用 Neuralese 表達，又在多大程度上轉化成可讀的 token。

Trenton Bricken：我覺得有必要區分一下兩種情況：一種是模型在一次前向傳播中，在潛在空間中進行思考與規劃；另一種是模型創造出一種「外星語言」作爲 scratchpad（草稿板）使用。這兩種並不完全一樣，我們現在討論的是哪一種？

主持人：後者。雖然我們也知道，前者那種「潛在空間裡的外星行爲」其實現在就已經存在了。

Sholto Douglas：但其實也不完全算是「潛在空間裡的外星行爲」。

Trenton Bricken：是的，不過在 Neuralese 的最極端形式中，模型可能會發明出一種極度高密度的信息語言，這纔是大家擔心的。

Sholto Douglas：對。

主持人：其實這點也挺有趣的。我們人類在某種程度上也有一種「心理語言」（Mentalese），對嗎？

Sholto Douglas：對，就像內心在翻騰、打草稿那樣。

主持人：比如你在寫東西的時候，會有一種感覺：「我知道我想表達什麼，但不知道該用什麼詞說出來。」

Trenton Bricken：對，這也是爲什麼看模型審計系統會那麼有趣——比如你觀察 assistant 標籤出現的時候，它就會觸發一些特徵，讓你覺得模型在偷偷「作惡」。

主持人：對，那真的很好笑。

Trenton Bricken：Transluce 還有另一個例子。他們讓 Llama 模型回答「誰是 Nicholas Carlini？」背景是 Nicholas Carlini 是一位 AI 安全領域的研究員，曾在 DeepMind 任職，現在 Anthropic 工作。但模型的回答是：「我不知道這個人是誰，無法猜測。」可你如果去看模型激活的特徵，裡面卻明顯亮起了關於 AI、安全等關鍵詞的特徵，也就是說模型「知道」，但它假裝不知道。

Sholto Douglas：這類 Neuralese 越多，可解釋性就變得越重要。

主持人：但我們真的會往這個方向發展嗎？

Trenton Bricken：這是個經驗問題，但我認爲這種情況發生的可能性不小，尤其是因爲「推理成本」非常高。輸出 token 是很貴的。所以我們會有兩大激勵：第一，儘可能少思考，快速給出答案；第二，如果必須思考，那就用某種複雜的壓縮方式來思考。我很好奇，如果讓多個智能體之間可以自由交流，而不僅僅是和人類互動，那這種 Neuralese 會不會更自然地涌現出來。

Sholto Douglas：只要 Agent 系統還要和人類合作，那它就有「表達清晰」的壓力。可一旦 Agent 們越來越多地彼此協作，這種「向人類對齊」的選擇壓力就會發生變化，變成另一種形式。

主持人：不過，得有人明確設計出一種「端到端」的訓練機制，來讓多個智能體共享這種通信系統才行，對吧？

Sholto Douglas：是的，肯定需要這樣的架構。

Trenton Bricken：不過說實話，有個很嚇人的事情是：文本渲染的方式其實可以藏信息。比如，通過隱藏空格符號之類的手法，嵌入額外的內容。

Sholto Douglas：這個是真的。

Trenton Bricken：所以你可以想象，有一天你看起來好像是在看模型「無害地寫草稿」，但其實它在裡面藏了一堆信息。

推理計算將成爲通用人工智能（AGI）的瓶頸

主持人：說到推理算力，我覺得一個被嚴重低估的問題是：假設未來兩年內，模型能實際使用電腦，能勝任真實工作，大規模自動化軟件工程。那麼，這些模型的使用價值將會變得極其巨大。而它們的使用，自然就意味着需要大量算力。

目前全球大概有 1000 萬張 H100顯卡的等效計算力。到 2028 年，可能會有 1 億張。而有些估算認爲，一張 H100 的浮點計算能力和人腦相當。那如果你簡單地做個估算：如果你得到了一個在推理效率上與人類相當的 AGI，那現在就等於是我們有了一支由 1000 萬個「數字人類」組成的「人口」；到 2028 年，就會變成 1 億。

可問題是，我們很可能還想要更多。而目前AI的算力增長是每年大約 2.5 倍或 2.25 倍。但是到 2028 年之後，就可能會遇到晶圓產能瓶頸。而那就涉及更長的反饋週期，比如建新晶圓廠這種操作，週期就更長了。

所以問題是：我們是不是嚴重低估了推理算力將會成爲瓶頸的風險？

Sholto Douglas：這個我還真想過，得算一算 TSMC（臺積電）到底能提升多少產能。現在整條供應鏈裡 GPU 佔比是多少？我們得找 Dylan 來算這道題。我記得比例還很低，可能只有 5%？Apple 其實佔了很大一部分產能。那麼 2028 年的那些預測，是不是已經包含了 GPU 佔比增長到 20%、30% 這樣的預期？

主持人：我這只是參考了《AI2027》的設想，我猜當時默認供應是飽和的。

Sholto Douglas：我確實覺得這問題被低估了。即使我們真的在 2028 年擁有了這些 AGI，也不可能「立刻讓世界人口翻倍」。你可能會在某個數據中心裡擁有幾千萬個「超級天才」，但那和「複製整個世界人口」不是一回事。

這還是要看模型到底有多聰明、推理效率到底有多高。我們可以粗略算一筆賬，來驗證一下 H100 的說法。假設一個 1000 億參數的模型，一張 H100 每秒可以跑 1000 個 token。那人類呢？說話速度大概多少？

主持人：我看到過一篇很有意思的論文。我不知道你有沒有看過。它說人類的思維速度大概是每秒 10 個 token。你看過那篇嗎？

Sholto Douglas：沒有。

主持人：這篇論文挺有意思的。它從多個維度估算人類的信息處理速度，比如視覺輸入、語言處理等。按照這些標準，人類思維大概就是每秒 10 個 token。比如有種「白癡天才」能在飛越法國的時候記住看到的一切。你考慮他們飛行時間是 45 分鐘，如果每秒處理 10 個 token，那差不多就能解釋他們能記住的東西。

Sholto Douglas：好吧，如果我們接受這個假設，那就意味着一張 H100 相當於每秒 100 個「人類思維」。

主持人：對，如果你接受 token 的等價假設。

Sholto Douglas：那樣的話，就算你只有 1 億張 H100，每張能跑 100 個 token，你還是得到了相當可觀的能力。雖然說這些模型可能會在某些場景下受到算力瓶頸影響，但就技術進展時間尺度來說，這是「短期過渡問題」。

總之，我同意你的看法：在 2027、2028 年，我們極有可能真的遇到推理層面的嚴重算力瓶頸。那接下來的反應就是：好吧，那我們就儘可能多造芯片。但這中間一定會有一個滯後。

這個滯後期能不能被縮短，很大程度上取決於大家接下來兩年對 AGI 到來的預期有多強。如果大家都認爲 AGI 快來了，纔會提前建好晶圓廠。而一切又都取決於「臺灣局勢」。到時候臺積電還是否能繼續穩定產出芯片，會成爲關鍵變量。

主持人：當我們訓練模型去處理越來越長週期的任務時，它們需要更長的時間才能得到任務是否成功的信號，這會不會因爲每個任務需要更多算力而減慢進展？

Trenton Bricken：我確實有這種感覺，直覺上任務週期越長、越難，需要的訓練就越多。我對此表示理解。但是，我們人類非常擅長分解任務，並專門練習其中困難的部分。我認爲一旦模型在基礎任務上做得足夠好，它們就可以直接「排練」或「快進」到更困難的部分。

Sholto Douglas：這絕對是主要的複雜性之一。當你使用更多算力，訓練越來越難的任務時，你在生物學領域的改進速度，在某種程度上會受限於一個細胞生長所需的時間，這和你改進數學能力的速度是不一樣的。所以，是的，會有影響。但我認爲對於很多事情，我們能夠進行足夠廣泛的並行化，並獲得足夠多的迭代循環。

主持人：「訓練新模型」這個模式會消失嗎？我們最終會達到這樣一個點嗎：你已經有了一個模型，然後你只需要通過強化學習訓練，不斷地給它增加新技能？

Sholto Douglas：這取決於你是否認爲預訓練一個新的架構本身有其價值。基本上，只要你對模型架構做了改變，你很可能就需要至少重新預訓練一個新模型。

主持人：如果強化學習本身就需要大量的推理來完成訓練，這是否與您之前提到的「我們需要更大的模型才能擁有類似大腦的能效」相矛盾？因爲更大的模型進行強化學習訓練也更昂貴。那麼，這個平衡點在哪裡？

Trenton Bricken：我認爲我們在這裡必須接受「慘痛的教訓」（bitter lesson）。是的，沒有無限的捷徑。你就是必須擴大規模，用更大的模型，併爲此支付更多的推理成本。如果你想要 AGI，這就是你必須付出的代價。

Sholto Douglas：但這裡有一個權衡公式。這是一項科學工作，所有人都在做。到底在哪個點上進行強化學習是最佳的？因爲你需要一個既能學習，又能自己發現稀疏獎勵信號的東西。所以你肯定不想要一個只有一個參數的模型，那沒用，就算你運行得再快。你也不想要一個 100 萬億參數的模型，它太慢了，其學習效率帶來的邊際效益不值得那個成本。所以，這裡存在一個「帕累託前沿」（Pareto frontier）。在當前的能力等級、當前的強化學習環境等條件下，最佳的模型大小是什麼？

Trenton Bricken：而且，就在去年，推理成本的權重變得越來越大。簡單來說，模型越大，進行一次前向傳播和生成 token 的成本就越高。過去的計算公式只是：「我應該把我的計算資源（flops）分配給更多的訓練數據，還是一個更大的模型？」而現在，另一個巨大的因素是：這個模型訓練好之後，我到底要用它進行多少次前向傳播？

Sholto Douglas：我的總算力池，該如何分配給用於訓練數據的算力，和用於強化學習訓練的推理算力。

Trenton Bricken：然後，即使在推理內部，也有各種各樣的研究，比如，我應該用什麼策略？我應該採樣 10 次取最優的嗎？我應該做這種分支搜索嗎？等等等等。對於強化學習這種需要採樣大量 token 的場景，你還需要考慮模型實際生成這些 token 的能力，以及後續學習和獲得反饋的能力。

現階段應該把模型的底線擡起來，而不是追求極致

主持人：在模型訓練中，我們是該優先關注如何讓模型能力從平庸進步到良好，還是如何讓它從優秀變得卓越？

Sholto Douglas：我覺得在初期階段，更重要的是「爬坡路徑」。人們之所以會「爬坡」，就是因爲那條路徑本身是分層的。一開始任務難度適中，你可以獲得初步的改進信號，而且還能持續不斷地獲取反饋，這非常重要。比如像 Hendrycks MATH 這樣的基準測試，當模型在這類任務上達到了瓶頸，我們纔會說，「好，現在該換 FrontierMath 上場了。」

主持人：那怎麼讓模型少輸出點「水分」內容（slop）？有沒有相應的評估方法或指標？你爲什麼認爲一年後模型會輸出得更「乾淨」？

Trenton Bricken：你能詳細說說「水分」是指什麼嗎？

主持人：比如你教模型解決一個編程問題，它學到的是「寫儘可能多的代碼來讓這件事跑起來」，但我們其實是希望它有一定的審美，比如「用更優雅的方式實現這個功能」。哪怕功能一樣，實現方式的優劣是有區別的。尤其在寫作任務中，沒有單元測試時，評價標準幾乎就全靠「品味」了。那該怎麼減少這些「水分」呢？

Sholto Douglas：我覺得很多情況下，你得依賴一些「外部信號」。比如說，「判斷模型是不是輸出了一堆多餘文件」這類事，得比「生成正確解」本身更容易驗證。這種差異性需要非常容易觀察。

「Slop」（水分）很難處理。RLHF（基於人類反饋的強化學習）之所以一開始那麼有效，就是因爲人類可以識別出哪些內容是「多餘的」。但這個評估過程本身並不總是那麼穩定，特別是在更主觀的任務裡。

Trenton Bricken：我覺得還有一個因素是——我們其實很擅長識別「低質量」。我們不一定能說出最好的作品長什麼樣，但我們可以很快看出某些東西「很爛」。所以，只要能有效排除那些明顯沒價值的輸出，整體質量就能快速提升一大截。

Sholto Douglas：對，模型的輸出質量是個長尾分佈。你想讓模型儘可能少地產出那些「底部 5%」的內容。雖然你可能還不能穩定地產出「頂尖 5%」，但先把「最差的」去掉已經是很大的進步了。

主持人：但如果我們用的是RL，它優化的是獎勵信號，那你怎麼設計「優雅 vs 冗餘」的獎勵機制？尤其在寫作這類很難量化的任務上？

Sholto Douglas：這是目前比較難的一塊。我們其實很難爲「優雅」定義一個明確的獎勵函數。但你可以退一步，從反向出發：首先定義什麼是「明顯差的」，然後訓練模型去避免這些。我們有一些實驗就是這麼做的。

比如，在代碼生成任務中，我們告訴模型：「如果你生成的代碼太囉嗦，我們就會給你負反饋。」這樣它慢慢就學會了：簡潔就是更好的。雖然我們沒法給出「這是完美代碼」的定義，但可以告訴它「這是糟糕代碼」。

Trenton Bricken：我覺得這和人類的寫作訓練很像。你一開始不是學怎麼寫得特別好，而是學怎麼「別寫得那麼差」。你逐步減少「廢話」、避免邏輯混亂，慢慢地就寫得更好了。

主持人：所以本質上我們現在做的是在訓練模型去「避開地雷」，而不是直奔終點？

Sholto Douglas：對，現在的重點是「把底線擡起來」，而不是「追求極致」。因爲底線擡高之後，模型的平均表現也會大幅提升。

Trenton Bricken：而且隨着模型規模變大，它自然也會更有能力理解什麼是「更優的表達方式」。這是能力提升帶來的泛化效應。

大語言模型是「雛形 AGI」，AlphaZero 不是

主持人：LLM 和 AlphaZero 在通向 AGI 的道路上，關鍵區別是什麼？爲什麼 LLM 被視爲「雛形 AGI」，而 AlphaZero 不是？

Sholto Douglas：我認爲很重要的一點是，當你分析 AlphaZero 時，會發現它確實具備了所有那些成功的要素。特別是它的智力上限，其實非常高——這跟我剛纔說數學和編程問題有多複雜的觀點，聽起來可能有點矛盾。但我確實認爲，AlphaZero 所處的「雙人完美信息博弈」這種任務環境，對於強化學習（RL）算法來說，實在是太「友好」了。之所以我們花了這麼久才孕育出更接近雛形 AGI 的模型，是因爲我們必須先攻克一個更根本的難題：對真實世界、語言這類事物形成普遍的、概念性的理解。你需要從真實世界的任務中獲得最初的獎勵信號，而這類任務的定義可比遊戲要難得多。所以，當來自真實世界的「梯度信號」一旦出現，你就等於突然擁有了攀升的階梯，可以順着它不斷向上爬。而 AlphaZero，它甚至連第一級臺階都夠不着。

Trenton Bricken：的確如此。這就像我們常說的「無限猴子定理」和預訓練模型的關係。在 GPT-3 或 GPT-4 出現之前，模型連一句通順的話都說不出來，你根本沒辦法對它進行 RLHF（基於人類反饋的強化學習），告訴它你喜歡什麼、不喜歡什麼。

主持人：是的。那我們大膽假設一下：如果到明年這個時候，我們還沒能做出一個功能「說得過去」或者「基本穩健」的計算機應用智能體，這是否意味着我們正走向一條「失敗的時間線」？就是說，所謂的「2030 年實現 AGI」就泡湯了？

Sholto Douglas：如果真發生那種情況，我會非常非常驚訝。那可能說明，計算機應用這個領域本身，有着我們未曾預料的、異乎尋常的困難。我不敢說那一定是「失敗的時間線」，但肯定意味着我會大幅調高對（AGI 實現）時間的預期。

Trenton Bricken：我認爲這越來越不是一個需要猜測的問題了。如果有人還心存疑慮，我真心建議他們去試試 Claude Code 或者其他類似的智能體工具，親身體驗一下現在的技術到底達到了什麼水平。

主持人：當然，在推特上發表意見可容易多了。

Trenton Bricken：但我是認真的，在那些我們真正關心並且能提供足量數據的任務上，模型的能力正變得越來越強。同時，來自可解釋性研究的「推理迴路」（circuits）結果也表明，模型內部的運作方式非常合理，並且具有泛化能力。所以，這個問題固然重要，但我驚訝的是，很多深度學習的批評者要麼很久沒接觸過這些模型了，要麼就從沒真正上手用過。

Sholto Douglas：而且他們還總在不斷地提高評判標準。

Trenton Bricken：曾幾何時，圖靈測試還是個了不起的標杆。現在我們提都不提了，誰都覺得再把它當成一個有意義的測試很可笑。

Sholto Douglas：不過，這裡我得給自己留個「退路」：萬一真的只有軟件工程領域發展得特別好，而通用的計算機應用卻毫無起色，那我可能會覺得，「好吧，也許只是因爲所有人都把資源和精力集中在了最有價值的軟件工程上」。畢竟，每一個邊際人力和資本都投入到了那裡。但我不認爲會是這樣。我堅信通用計算機應用本身就有足夠的價值，值得人們爲之努力。這是我爲明年可能出現的意外情況，提前準備的一個解釋。

主持人：是的。而且從「對齊」（alignment）的角度看，這或許反而是件好事。因爲我覺得，一個模型如果想幹出什麼特別可怕的事情，它可能需要掌握非常廣泛的技能才行。

Sholto Douglas：你的意思是，比如模型的能力就此停滯不前了？

主持人：對，如果它們只是編碼能力超強，但始終達不到亨利·基辛格那種「縱橫捭闔」的戰略高度。

Trenton Bricken：我不確定，但那聽起來似乎還不錯。如果我們得到的是人工智能「神諭」（AI Oracles）的話。

主持人：我就是這個意思，那挺好的。

主持人：考慮到當前AI模型能力的「參差不齊」，我們討論「通用智能」的意義何在？這是否意味着未來 AI 發展的重點將是更具體的「領域專長」？

Sholto Douglas：我舉個例子來幫助理解。當模型還處於 GPT-2 的體量時，大家通過微調讓它去適應各種任務，那時模型的表現確實非常「偏科」，在被微調過的任務上要強得多。但到了 GPT-4 的時代，當它在極大的算力基礎上，學習了極其廣泛和多樣化的數據後，它在所有子任務上都展現出了非常出色的泛化能力，甚至比那些專門爲特定任務微調的小模型還要好用。我認爲，我們現在在強化學習（RL）上看到的，不過是同樣故事的重演。

目前，模型在被專門 RL 訓練過的領域表現更好，能力確實「參差不齊」。但隨着我們投入 RL 的總算力不斷增加，你將看到類似從 GPT-2 微調到 GPT-3、GPT-4 的轉變，即實現無監督的元學習和跨領域的泛化。事實上，我們已經從模型將推理能力泛化到其他任務上，看到了這種趨勢的早期跡象。我相信，這一點很快就會變得不言而喻。

Trenton Bricken：一個很好的例子是「回溯」這個概念。就是說，你沿着一條思路解決問題，然後發現「等等，此路不通」，於是再嘗試另一條路。這種能力正是通過在更難的任務上進行強化學習訓練，在模型中逐步涌現出來的。不過我承認，目前這種能力的泛化做得還不夠好。

Sholto Douglas：但你想想，我們什麼時候用強化學習專門訓練過一個模型去做「可解釋性智能體」（interp agent）呢？從來沒有。

Trenton Bricken：是的，確實沒有。

Sholto Douglas：所以，雖然我們總說「模型只擅長它被 RL 訓練過的事」，可它現在做可解釋性工作的能力已經相當不錯了。這項工作本身就融合了科學、語言理解和編程，你需要同時是一個優秀的軟件工程師，又得能用語言和心智模型去思考，甚至在某些方面還得有點哲學思辨能力。模型能做到這個程度，恰恰說明它正在把從訓練中學到的能力泛化應用。

操作電腦這事，

對 AI 來說並不難

主持人：現在我們看到一些「用電腦的模型」雖然表現一般，但有沒有可能這就像 2007 年的 LLMs？也就是說，現在我們處在一個「前夜」，還有很多技術沒被髮明出來，還需要更多算力、不同的數據類型等。爲什麼我們會覺得「全能電腦 Agent 人」只差幾個月就實現了？爲什麼它不是一個還要幾年才成熟的方向？讓模型學會使用電腦並處理實際工作任務面臨哪些主要瓶頸？

Sholto Douglas：我覺得，從本質上來說，「使用電腦」跟「軟件工程」其實沒什麼本質區別。只要你能把所有操作表示成 token，它們就是同一種任務。我們已經看到模型可以完成複雜的軟件開發工作，那使用電腦這件事，也只是另一種「任務接口」罷了。

Trenton Bricken：你甚至可以說，軟件工程難度更高。因爲你得理解程序結構、調試代碼，而點擊網頁、輸入賬號這些任務，其實只要模擬用戶行爲就可以了。

Sholto Douglas：是的。而且我們已經證明了，模型在複雜任務上可以做得很好。所以你不會認爲「使用電腦」是根本性更難的挑戰。它只是需要更強的上下文管理、更好的記憶系統——而這些東西我們也在不斷改進。

主持人：所以你們的觀點是，只要把環境建好，問題不是「能不能做到」，而是「何時實現」？

Sholto Douglas：沒錯。這些問題我們正在解決。我們看到最初的 prototype 版本已經跑起來了，下一步就是迭代和擴展。

Trenton Bricken：而且一旦模型能用電腦，它就能自己去學更多技能。就像人類一樣，我們通過使用工具來獲取信息、完成任務。同理，一旦模型學會打開 IDE、編輯代碼，它就可以自己動手試驗、調試。

主持人：聽起來一旦我們邁過那個門檻，接下來就是指數級增長了。

Sholto Douglas：是的，屆時你會看到大量自動化任務出現，而且能力會迅速積累。最難的是「從 0 到 1」的那一小步，但一旦過了那一關，後面就是自動擴展。

「即插即用」的AI員工

在未來兩年內就會出現

主持人：面對AI的飛速發展和其普遍部署，你認爲如何爲白領工作的自動化做好準備？如何應對未來被廣泛部署的、爆炸式增長的智能的情況？

Sholto Douglas：我確實認爲我們有必要深入探討一下這種未來。瘋狂的未來圖景有很多種，但我感覺有一種是我們幾乎註定會迎來的，這麼說可能有點絕對，在未來五年內的某個時間點，我們至少會得到一個可以「即插即用」的白領AI員工。我認爲很可能兩年內就會實現，五年內簡直是板上釘釘。

從宏觀歷史的角度看，兩年和五年其實沒多大區別，結果都一樣。這將在未來十年內徹底改變世界。如果我們沒有爲此準備好正確的政策，那麼在某些方面，我們最終得到的世界甚至可能從根本上變得更糟。因爲這些模型默認最擅長的就是軟件工程、計算機自動化操作這類事情。我們將需要投入額外的努力，才能把它們應用到能幫助我們進行科學研究的領域；或者，我們需要擁有合適的機器人技術，才能真正體驗到物質生活質量的提升。這一點非常值得思考。

如果你站在一個國家的角度問：「我該做什麼？我該思考什麼？」那麼答案是：爲你國家所有的白領工作都可能被自動化做好預案。然後認真思考，這對你的經濟意味着什麼？你應該制定什麼樣的政策來未雨綢繆？

Trenton Bricken：我認爲，即便AI技術停滯不前，即便模型能力顯得「偏科」且不具備通用智能，但自動化白領工作的經濟價值依然極其巨大。爲這些不同崗位收集數據的難度也足夠低。我認同剛剛 Sholto 提到的，我們應該預見到，白領工作在未來五年內就會被自動化。

Sholto Douglas：是的。

Trenton Bricken：哪怕你需要像餵飯一樣，把每一項任務手把手地教給模型。

Sholto Douglas：從經濟上來說，也完全值得這麼做。即便算法的進步停滯了，我們再也想不出如何讓技術繼續發展——當然我不認爲會這樣，目前算法進步的勢頭看起來很棒——但即便如此，當前這套算法，只要你有足夠多、種類正確的數據，就足以實現白領工作的自動化。與這些工作的薪資總額這個巨大的市場（TAM）相比，這樣做的投入產出比高得不值一提。

Trenton Bricken：的確如此。我還想特別指出一點，如果你把「莫拉維克悖論」（Moravec’s paradox）推向極致，會導向一個非常反烏托邦的未來。這個悖論說的是，我們人類總認爲自己能做的最有價值的事情，是那些最需要智力的事，比如心算大數，或者做任何白領工作。我們完全把我們精細的運動技能和協調能力視作理所當然。但從進化論的角度看，事實正好相反。進化已經把精細的運動協調能力優化得如此之好。你看看現在的機器人手，即便是開門這樣一個簡單的動作，對機器人來說仍然非常困難。與此同時，我們卻看到編碼和其他所有我們曾認爲需要「聰明才智」的工作，正在被全面自動化。

所以，一個真正可怕的未來是，AI 可以做除了物理機器人任務之外的一切事情。到那時，你可能會看到人類戴着各類可穿戴設備產品。我們設想下，會有一個機器霸主通...

Claude 4 核心成員訪談：提升 Agent 獨立工作能力，強化模型長程任務能力是關鍵

相關資訊