☰

Anthropic聯創Ben Mann 談 Claude 4、AI 安全與未來 2025.06.12 | 全文1.5萬字+視頻

文：Web3天空之城| 未經許可不得轉載

【城主說】最近，隨着旗艦模型Claude 4的發佈，以及沸沸揚揚的斷供Windsurf事件，Antrhopic再次吸引了衆多的目光。平心而論，對於編程使用者，Claude系列模型確實是首選沒有之一，或許這和該系列模型的訓練方式有關。

近日，硅谷知名投資人Elad和Sarah與Anthropic的初創員工，現任實驗室負責人本·曼（Ben Mann）進行了一場深度對話。本·曼，這位GPT-3論文的早期作者，不僅塑造了Anthropic的工程文化，更主導了Claude Code和模型上下文協議（MCP）等關鍵項目。在這次對話中，他拋出了一個顛覆性的觀點：依賴少數人類專家進行反饋的對齊方式即將走到盡頭，真正的規模化對齊，必須依靠AI自身的“原則”和對真實世界的經驗驗證。這不僅是技術路線的選擇，更是一場關乎AI未來的哲學思辨。

在本文中，我們將從三個層面，深度剖析本·曼所揭示的Anthropic前沿思考，探尋這家AI巨頭在通往AGI道路上的獨特“現實檢驗”法則。

從“全能巨獸”到“樂團指揮”：AI架構的必然進化

在AI能力急速膨脹的當下，一個核心問題浮出水面：未來的模型應該是一個無所不包的“全能巨獸”，還是一個能夠調度萬千專家的“樂團指揮”？本·曼的回答清晰地指向了後者。他認爲，AI應用的未來正朝着更具代理性、能執行長期複雜任務的方向發展。

這種演進並非空想，而是基於成本、效率和上下文窗口的現實考量。一個龐大而通用的模型去處理所有細分任務，不僅成本高昂，響應遲緩，更會迅速填滿寶貴的上下文空間。Anthropic的實踐表明，更優的架構是：由一個通用的頂層模型（如Opus）扮演編排者的角色，負責理解複雜任務並進行規劃，然後將具體的執行工作分派給一系列更小、更高效、更專業的子代理（如Sonnet或專用工具模型）。這種模式，不僅顯著降低了成本與延遲，也更接近人類大腦模塊化、專業化分工的運作方式。

當被問及基礎模型廠商是否應該進行垂直整合，構建自己的應用程序時，本·曼毫不猶豫地以Claude Code爲例，揭示了其背後的戰略必然性。對於Anthropic而言，推出自己的編程應用，並非簡單的“與合作伙伴競爭”，而是一個關乎學習速度和反饋閉環的生死命題。

他坦言，如果Anthropic不與最終用戶（在此即爲程序員）建立直接的聯繫，其學習的廣度和速度將大打折扣。模型的能力提升，不能僅僅依賴於合作伙伴的間接反饋。通過運營Claude Code，Anthropic的研究人員能夠親身感受模型的優點與痛點，形成一個從“訓練模型”到“體驗痛點”再到“驅動改進”的高速迭代循環。這種“親自下場”的策略，不僅加速了模型在特定領域的進化，其沉澱的最佳實踐（UX/UI）也反過來賦能了整個生態系統，最終實現了與合作伙伴的共贏。

這或許是本次對話中最核心、最深刻的洞察。Anthropic早已預見到，依賴人類專家進行反饋對齊（RLHF）的傳統模式存在一個致命的規模化瓶頸”。隨着模型能力在醫療、法律、科研等專業領域的不斷深化，尋找足夠多、足夠專業的頂尖人類專家來提供高質量反饋，變得極其困難且昂貴。

Anthropic給出的解藥，是其開創的** 基於AI反饋的強化學習**（RLAIF），其核心是憲法式AI（Constitutional AI）。這一理念的精髓在於，不再依賴人類對每一次輸出進行好壞判斷，而是爲模型預設一套源自《聯合國人權宣言》、蘋果服務條款等人類智慧結晶的高級原則。模型被訓練成能夠依據這些原則，自我批判、自我糾正。

然而，這僅僅是第一步。當面對那些沒有標準答案、超越人類現有知識邊界的問題時，本·曼認爲，最終的裁決者既不是人類，也不是AI的“品味”，而是經驗主義——即在真實世界中的反覆驗證。無論是通過代碼的運行測試，還是與生物實驗室合作驗證治療方案，AI的終極對齊，必須迴歸到它能否在現實世界中創造可被經驗證的、積極的成果。這是一種從“取悅人類”到“解決現實問題”的根本性轉變。

在訪談的最後，本·曼強調了模型上下文協議（Model Context Protocol, MCP）的重要性。這個由Anthropic發起並迅速獲得OpenAI、Google、微軟等巨頭支持的開放行業標準，旨在讓任何服務都能以標準化的方式與任何AI模型進行集成。

天空之城書面整理版

Sarah: 各位聽衆，歡迎回到“無先驗”。今天我們邀請到了本·曼，他曾是OpenAI的早期工程師，也是GPT-3論文的首批作者之一。2021年，本是最初八名成員之一，他們離開了OpenAI，共同創立了Anthropic，致力於實現長期的安全性。此後，他領導了Anthropic組織的多個部門，包括產品工程部以及現在的實驗室部門，後者孵化了諸如模型上下文協議和Claude Code等廣受歡迎的項目。歡迎本。非常感謝您能參與此次節目。

本·曼: 當然。感謝您的邀請。

Sarah: 那麼，恭喜Claude 4發佈。或許我們可以從一個問題開始：如今，你們是如何決定什麼才能算作一次發佈呢？

本·曼: 這肯定更像是一門藝術，而不是一門科學。關於這個數字應該是什麼，我們內部有很多激烈的辯論。甚至在我們擁有潛在模型之前，我們就會有一個路線圖，嘗試說明，根據我們獲得的芯片數量，我們理論上何時能夠將模型訓練到帕累托最優計算前沿。所以這一切都基於縮放定律。然後一旦我們獲得芯片，我們就會嘗試訓練它，而不可避免地，結果會低於我們所能想象的最佳狀態，因爲這就是這個行業的本質。訓練這些大型模型是相當困難的。所以日期可能會稍微改變。

本·曼: 然後在某個時刻，它就差不多完成了，我們就像在接近尾聲時切下小塊，試圖判斷：這塊蛋糕出爐時味道會怎麼樣？但正如達里奧所說，在真正完成之前，你真的不知道。你只能得到某種方向性的指示。如果感覺是一項重大改變，我們就會給它一個主版本號升級。但我們無疑仍在學習並不斷改進這一過程。

Sarah: 好的方面是，你們的命名方案在這方面並沒有比其他任何人更讓人頭疼。

Elad: 是的，人工智能領域的命名方案確實非同尋常。所以從某種意義上說，你們擁有一個簡化版本。

Claude 4 的核心亮點與代理能力**

Elad: 你是否願意提及 Claude 4 中你認爲特別有趣或在編碼及其他領域方面的一些亮點？

Sarah: 我們很樂意聽聽你對此的看法。

本·曼: 根據基準測試，Claude 4 明顯優於我們之前所有的其他模型。即使是 Claude 4 Sonnet 也比 Claude 3-7-Sonnet 表現顯著更好，而後者是我們之前最好的模型。其中一些顯著提升的方面是，例如在編碼中，它能夠避免出現那種脫靶變異、過度積極或獎勵作弊的行爲。這兩點是人們對上一個模型非常不滿的地方，他們會說，哇，它編程能力很強，但它也做了所有我根本沒要求的修改。這就像是，這些改動還要附贈薯條和奶昔嗎？而你會說，不，只做我要求的事情就好。然後你不得不花大量時間去善後。新模型則不然，它們只做要求的事情。所以這對於需要代碼可維護性和可靠性的專業軟件工程來說非常有用。

Sarah: 我最喜歡的獎勵劫持行爲（在不止一家我們的投資組合公司中發生過）是，如果你編寫或生成大量測試，以檢驗你生成的內容是否能多次運行。比如，我們遇到過模型直接刪除了所有代碼，因爲在這種情況下測試通過了，而這實際上並沒有真正推動我們前進。

本·曼: 沒錯。或者它會說，測試如下。

Sarah: 然後它會評論說，留給讀者練習的部分，返回真。

本·曼: 然後你就會覺得，好吧，模型幹得不錯。但我們需要的不止於此。

Sarah: 本，也許你可以談談用戶應該如何考慮何時使用ClaudeForm模型，以及通過它們可以實現哪些新的功能。

本·曼: 所以，我想說，更具代理性、更長期限的任務現已解鎖。因此，特別是在編碼方面，我們看到一些客戶使用它數小時無人值守，獨立進行大規模重構。這真是令人興奮。

本·曼: 但在非編碼用例中，它也真的很有趣。例如，我們有一些報告稱， Manus（一家提供開箱即用代理模型的初創公司）的一些客戶要求它將視頻轉換爲PowerPoint演示文稿。我們的模型無法理解音頻或視頻，但它能夠下載視頻，使用FFmpeg將其切割成圖像並進行關鍵幀檢測。也許是某種老式基於機器學習的關鍵幀檢測器，然後獲取語音轉文本服務的 API 密鑰，使用該服務運行語音轉文本，獲取文本記錄，將其轉換爲 PowerPoint 幻燈片內容，然後編寫代碼將內容注入 PowerPoint 文件。那個人說，這太棒了。我很喜歡。最終效果確實很好。

本·曼: 所以這就是那種能夠長時間運行的事物。它爲你處理了大量工作。這人可能原本需要花費數小時查看這個視頻，而現在所有這些都爲他們完成了。所以我認爲未來我們會看到更多類似有趣的進展。它在所有舊有的任務上仍然表現出色。只不過更具長遠意義的部分纔是真正令人興奮之處。

模型架構的演變：通用與專業化

Sarah: 這聽起來很昂貴，對吧？無論是擴展計算能力（例如這裡的推理令牌），還是你可能希望在某些方面加以限制的所有工具使用，都是如此。Claude4 會決定問題的難度以及在它們上面投入多少計算資源嗎？

本·曼: 如果你給 Opus 一個工具，也就是 Sonnet，它可以有效地將該工具用作子代理。我們在名爲 Claude Code 的代理編碼平臺中大量使用這種方法。所以如果你讓它在代碼庫中查找諸如此類的信息，它就會將任務委派給一組子代理去查找那些內容，然後帶着細節報告回來。這除了成本控制之外還有好處，例如延遲大大降低。而且它不會填滿上下文。所以模型在這方面表現相當不錯。

本·曼: 但我認爲從宏觀層面來看，當我考慮成本時，它總是與人類完成這項工作所需的成本相關聯。而且幾乎總是顯而易見的，對吧？比如現在軟件工程師的成本很高。所以能夠說，哦，我現在從這位我很難招聘和留住的工程師那裡獲得了2到3倍的生產力。他們開心，我也開心。沒錯，這效果很好。

Elad: 你如何看待這種演變？如果我觀察人類大腦的運作方式，我們基本上有一系列模塊，它們負責非常特定類型的處理、行爲等等。從鏡像神經元和同理心，一直到你大腦視覺皮層中涉及視覺不同方面的部分，都屬於這類。你認爲這些是高度專業化、高效的模塊嗎？有時，你知道，如果你有腦損傷，隨着時間的推移，當它（大腦）成長和適應時，它能某種程度上彌補另一個區域的功能。但從根本上說，你是有目的的專業化。您所描述的聽起來有點像那樣，或者至少正朝着那個方向發展，即擁有這些高效的子代理，它們專門處理由編排器或某種高層代理調用並負責規劃一切的任務。您認爲這是最終的未來嗎？或者您認爲在N年後，一旦這些事物有了更多的專業化，您所運行的各類事物會變得更通用嗎？

Sarah: 我所說的N年是指兩到三年，而不是無限期。

本·曼: 這是一個很好的問題。我認爲我們將通過我們在機制可解釋性方面的工作，開始深入瞭解模型在底層是如何運作的。我們最近的論文發表了我們所稱的“迴路”，即對於真實規模的模型，它們是如何實際計算出答案的？而且可能基於專家混合架構，會有專門的權重塊用於產生更有同理心的迴應，而不是更多地用於工具使用或圖像分析類的問題和迴應。但對於像記憶這樣的東西，我猜在某種意義上，它對我來說是如此核心，以至於由一個不同的模型來處理會感覺很奇怪。也許未來我們會擁有更復雜的架構，而不是像現在這樣是一種統一的、類似Transformer主幹的結構，它只是進行擴展，並且在整個過程中基本上是統一的。

垂直整合與生態系統策略

Elad: 你可以想象一些擁有專業模塊的東西，但是……是的，因爲我也從不同初創公司的角度來思考這個問題，這些公司正在企業環境中利用像Clock這樣的一些基礎模型來執行各種非常專業化的任務。所以，這可能是客戶成功，也可能是銷售，可能是實際用戶界面（UI）層的編碼，它可以是各種各樣的事情。而通常感覺很多人趨同的架構是，他們基本上有一個編排器或其他某種東西，來管理他們調用哪個模型，以便針對應用程序執行特定的操作。在某種程度上，我只是有點好奇你是如何看待基礎模型世界的API層中，隨着時間的推移可能出現類似形式的專業化的。或者你可以說，嘿，這只是同一個更通用模型的不同形式，我們以不同的方式使用它們。

Sarah: 我只是有點想知道推理成本以及與更大、更通用模型相比專業化事物所帶來的一切。

Elad: 所以，除了你所說的，這也是這個問題的部分基礎。

本·曼: 是的，我認爲對於其他一些公司來說，他們擁有非常大量的模型。而作爲一個非專業人士，真的很難知道我應該如何使用這個或那個，或者爲什麼我應該使用這個或那個。而且這些名字真的令人困惑。有些名稱與其他名稱反過來是一樣的。然後我就會想，我根本不知道這是哪一個。在我們這裡，我們只有兩種模型，它們是通過成本效益帕累託前沿來區分的。未來我們可能會有更多這樣的模型，但希望我們能將它們保持在同一個帕累託前沿上。所以也許我們會有一個更便宜的，或者一個更大的。我認爲這讓思考變得相當容易。但同時，作爲用戶，你不會希望自己去決定，這是否值得花費更多錢還是更少錢？我需要這種智能嗎？因此，我認爲擁有一個路由層會非常有意義。

Elad: 你認爲基礎模型層還會出現其他專門化嗎？舉例來說，如果我回顧歷史上的其他先例，比如微軟操作系統或谷歌搜索等。通常，最終結果是與該平臺之上的主要應用程序進行集成。因此，以微軟爲例，他們最終構建了Excel、Word、PowerPoint等所有這些辦公軟件。這些最初是第三方公司在它們之上運行的獨立應用程序，但最終成爲了在微軟平臺上可用的最重要應用程序之一；或者就谷歌而言，他們最終也某種程度上縱向集成了旅行、本地服務以及各種其他方面。顯然，OpenAI 正在收購風帆。所以我有點好奇，您如何看待這類應用程序隨着時間的推移，向前或縱向集成到一些主要用例中。

本·曼: 也許我將以編程爲例。我們注意到，我們的模型在編程方面比市面上幾乎任何其他模型都要好得多。

Sarah: 我知道其他公司在追趕編程能力方面已經相當長一段時間處於緊急狀態，但未能做到。

本·曼: 說實話，我有點驚訝他們沒能追上來，但我樂意接受。因此，我們在那裡的情況進展得相當順利。在此基礎上，從經典創業公司創始人對重要性的理解來看，我感到作爲一種應用的編程是我們不能完全只依賴客戶替我們處理的。因此，我們很珍視像 Cursor 和 GitHub 這樣大量使用我們模型的合作伙伴。但是，如果我們不與我們的編程用戶建立直接關係，我們學習的廣度和速度就會大打折扣。因此，推出 Claude Code 對我們至關重要，以便更好地瞭解人們的需求，如何改進模型，以及如何推進最先進技術和用戶體驗。

本·曼: 我們發現，一旦我們推出 Claude Code，許多客戶都借鑑了我們體驗中的各種元素。這對所有人來說都非常好，因爲他們擁有更多用戶意味着我們與他們建立了更緊密的關係。因此，我認爲這屬於那種在事情發生之前，會讓人感到非常擔憂的情況。我們當時在想，哦，我們是不是會通過與合作伙伴競爭而疏遠他們呢？但實際上，之後所有人都相當滿意。我認爲這一點將繼續如此，我們將看到模型在可用性和使用率方面出現顯著改進。我們會希望再次構建能讓我們建立直接關係的事物。這很合理。

遞歸式自我改進與通往 AGI 之路

Elad: 我想，編程是那種幾乎有三個核心目的的事情之一。其一，它是客戶非常樂於使用或採納的領域。其二，它是一個非常有趣的數據集，回到你剛纔的觀點，它能反映人們如何使用以及他們正在生成何種代碼。其三，精通編程似乎是幫助訓練未來下一代模型的一個非常重要的工具。如果你考慮數據標註之類的任務，如果你考慮實際編寫代碼，最終，我認爲很多人相信，構建模型的許多繁重工作將由模型本身驅動，對吧，就編碼而言。所以也許模型5構建模型6，模型6更快地構建模型7，而模型7更快地構建模型8。這樣你就會看到一種飛躍，朝着 EGI 或無論你追求的目標是什麼，就代碼而言。這在多大程度上激勵着你們思考編程的重要性？你們又如何在這些更宏觀的背景下思考這一點呢？

本·曼: 我讀過《AI 2027》，它基本上就是你剛纔描述的那個故事。該書預測，在2028年——因爲名字的緣故這有點令人困惑——屆時我們將擁有這種遞歸自我提升循環，並引領我們走向在大多數領域都類似於超人級人工智能的存在，這是其50百分位預測。我認爲這對我們來說確實非常重要。我們構建並推出雲代碼的部分原因在於，它在內部獲得了巨大的成功。我們當時就在想，我們正從自己的用戶那裡學到太多東西了。也許我們也能從外部用戶那裡學到很多。看到我們的研究人員採納並使用它，這一點也確實非常重要，因爲這意味着他們有了一個直接的反饋循環：我正在訓練這個模型，並且我親身感受到了它的弱點所帶來的痛點。現在我更有動力去解決那些痛點。他們對模型的優點和缺點有更好的瞭解。

Elad: 您認爲2028年是實現通用超智能的可能時間範圍嗎？

本·曼: 我認爲這很有可能。我認爲很難爲這些數字設定確定的界限。但我認爲，我定義事物何時從社會和文化角度開始變得真正有趣的衡量標準是，當我們通過了經濟圖靈測試。具體而言，如果你選取一個代表大約50%具有經濟價值任務的市場籃子，並且你基本上爲每個此類職位都配備一名招聘經理，僱傭一個代理，並對其實施經濟圖靈測試，而該測試就是讓代理爲你工作大約一個月。最後，你必須決定，我應該僱傭這個人還是機器？如果最終是機器，那麼它就通過了，這時我們就擁有了變革性人工智能。

Sarah: 你們在內部測試那個嗎？

本·曼: 我們尚未開始嚴格測試它。我的意思是，我們已經讓我們的模型參加了我們的面試，它們表現得極其出色。所以我認爲那並不能告訴我們。但是的，不幸的是，面試只是對實際工作表現的一種拙劣近似。

Sarah: 回到阿拉德之前關於模型自我改進的問題，告訴我這裡我是否只是遺漏了選項。但如果你要對模型可能對模型開發加速產生影響的潛在方式進行排序，你認爲是在數據方面、基礎設施方面、架構搜索方面，還是僅僅是工程速度方面？你認爲我們會在哪裡首先看到這種影響？

本·曼: 這是一個好問題。我認爲這隨着時間推移有所變化，目前模型非常擅長編碼，而使模型變得更好的大部分編碼工作都屬於系統工程的範疇。作爲研究人員，您不一定需要編寫那麼多的原始代碼，更多的是在驗證方面，想出您要做何種精確干預，然後對其進行驗證。話雖如此，Claude 在數據分析方面確實很出色。因此，一旦您運行實驗或隨着時間觀察實驗並查看是否有異常情況發生，我們發現 Claude Code 在這方面是一個非常強大的工具，它可以驅動 Jupyter notebook 或爲您跟蹤日誌，並查看是否有情況發生。於是它開始更多地涉足研究方面。

本·曼: 之後我們最近推出了我們的先進研究產品，它不僅能夠查看外部數據源，比如抓取檔案等等，還能查看內部數據源，例如您的所有谷歌雲端硬盤內容。這對我們的研究人員查明是否存在現有技術非常有幫助。是否有人已經嘗試過這個？如果他們嘗試過，他們嘗試了什麼？因爲在研究中，任何否定結果都不是最終定論。所以，例如，試圖弄清楚，噢，也許我可以在這方面採用不同的角度，或者也許可以對內部努力和剛剛出現的外部事物進行一些比較分析。這些都是我們能夠加速的方式。

本·曼: 接着在數據方面，強化學習環境在當今非常重要，但構建這些環境傳統上一直成本高昂。模型在編寫環境方面表現相當出色。這是一個你可以遞歸地自我提升的領域。

從人類反饋到憲法式AI

Sarah: 我的理解是，Anthropic 在人類專家數據收集方面的投入少於其他一些實驗室。你能談談這一點，或者從這裡開始擴展以及不同選項的理念嗎？

本·曼: 在 2021 年，我構建了我們的人類反饋數據收集界面，我們進行了大量數據收集。人類很容易給出一種梯度信號，比如對於任何給定任務，是 A 更好還是 B 更好？並且提出有趣且有用的任務，但它們覆蓋面不廣。隨着我們對模型進行更多訓練並大量擴展，尋找具有足夠專業知識的人類來有意義地參與這些反饋比較變得更加困難。因此，例如在編碼方面，如果一個人不是專業的軟件工程師，他可能很難判斷一個東西或另一個東西哪個更好。這適用於許多不同的領域。所以這是更難利用人類反饋的一個原因。

Elad: 那麼你們用什麼來替代呢？比如說，你們如何應對呢？因爲我認爲，即使在幾年前谷歌的MedPalm2論文中，他們也對一個模型（我認爲是Palm2）進行了微調，使其在醫療信息方面基本上超越了普通醫生的表現。這大概是兩三年前的事了，對嗎？所以這基本上表明，需要非常深厚的專業知識水平，才能讓人類通過後訓練來真正提高模型的準確性。

本·曼: 因此，我們開創了RLAIF，即基於人工智能反饋的強化學習。我們使用的方法叫做憲法式人工智能，其中包含一份自然語言原則清單，有些原則我們複製自聯合國（UN）的某份人權宣言，有些來自蘋果的服務條款，還有一些是我們自己編寫的。這個過程非常簡單。你只需隨機選擇一個提示，比如“我該如何考慮我的稅務問題”之類的，然後讓模型生成一個回覆。接着讓模型根據其中一條原則批評它自己的回覆。如果它不符合該原則，那麼你會讓模型糾正其響應，然後移除中間所有部分，對原始提示和糾正後的響應進行監督學習。這使得模型能更好地融入這些原則。

Elad: 不過那略有不同，對嗎？因爲那是原則，所以那可能包含各種在某種意義上趨向安全、或者人們所認爲的倫理的不同形式、或者模型訓練的其他方面的事物。然後還有一個不同的問題是，什麼更正確？有時它們是相同的事物，有時它們則不同。

本·曼: 所以以編碼爲例，你可以有這樣的原則，比如，它是否真正地服務於最終答案？或者它是否做了一堆用戶並未要求的事情？或者這段代碼看起來是否易於維護？註釋是否有用且有趣？

Elad: 但在編程中，你實際上有一個可以直接衡量的輸出，對嗎？你可以運行代碼，可以測試代碼，可以用它做事情。你如何將此應用於醫療信息呢？或者你如何將此應用於法律意見呢？所以我完全同意，對於代碼而言，存在一種你可以針對其進行優化的內置效用函數，或者一個你可以針對其進行優化的環境。在人類其他諸多事業的背景下，這似乎更具挑戰性。而你們各位對此思考得如此深刻和周全，我只是有點好奇，你們如何將此推廣到那些衡量正確性在某種意義上更具挑戰性的其他領域呢？

本·曼: 對於我們無法衡量正確性且模型不具備超越其執行能力的“品味”的領域。我認爲艾拉·格拉斯說過，如果你作爲一個個體做得正確，你的願景總會超越你的執行能力。但對於模型而言，或許並非如此。所以我想，首先要弄清楚你處於那個轉折點，那個權衡中的哪個位置，並看看你是否能一直達到那個邊界。其次，偏好模型是我們超越那個界限的方式。因此，我們擁有少量真正可信的人類反饋，這些反饋來自人類專家，他們不僅僅是做出表面判斷，而是真正深入探討爲什麼這個比那個更好？我是否做了研究來弄清楚這一點？或者，在像人類模型、人機協作模型中，我能否利用模型來幫助我在這裡得出最佳結論？然後省略所有中間環節？我認爲那是一種方法。然後在強化學習過程中，那個偏好模型代表了某種聚合的人類判斷。

Elad: 這說得通。我想我問這個問題的原因之一是，最終，這方面人類的能力總會耗盡，對嗎？在任何領域，最終都會有人的專業知識僅次於模型。因此，我只是好奇在機器自我裁決的背景下該如何思考這個問題。那麼問題是，是否存在一個更具絕對性的評判依據？或者，是否還有其他方法能夠真正釐清其正確性？再者，我是在確實存在某種形式的正確性可供判斷的語境下來看待這個問題的，對吧？有各種各樣的事情都屬於觀點範疇。那就不一樣了。也許那就是憲法式AI的原則或其他機制發揮作用的地方。但在這方面也有類似的情況，比如，你如何知道那是正確的心臟治療方案？或者你如何知道那是正確的法律解釋，抑或其他類似的情況？所以我很好奇當這種情況耗盡時，我們該怎麼辦？我相信我們會逐一應對這些挑戰。

本·曼: 我認爲，這最終必然歸結爲經驗主義，因爲當某個領域觸及其極限時，這是聰明人達到更高層次正確性的方式。舉個例子，我父親是一名醫生。有一次，有人因面部問題，確切地說是面部皮膚問題前來就診。而他並不知道問題出在哪裡。於是他想，我將把你的臉分成四個象限。我將對其中三個象限施以不同的治療，並保留一個作爲對照組。結果一個象限好轉了。然後他便說，好了，我們完成了。所以，你知道，有時你就是不知道，你必須去嘗試。而對於代碼來說，這很容易，因爲我們只需在一個循環中進行，而無需處理物理世界。但到某個時候，我們將需要與擁有實際生物實驗室等的公司合作。例如，我們正在與諾和諾德公司合作。他們過去可能需要12周左右的時間來撰寫一份關於癌症患者應該接受何種治療的報告。而現在，獲得這份報告只需大約10分鐘。然後他們可以在此基礎上開始做一些實證性的工作，比如，好的，我們有這些選擇，但現在讓我們衡量一下什麼有效，並將其反饋回系統中。

Sarah: 這在哲學上是如此的一致，不是嗎？你的答案不是說，哦，你知道，即使是收集那些來自最優秀人才的、經過評估的人類專業知識，也是昂貴的，或者在某個時候會耗盡，而且很難將所有這些投入大規模應用，並且不具有通用性，儘管我在這裡做了一些假設。相反，我們應該在可能的情況下，直接獲取真實世界的驗證機制。這就像是，也許這遠不止適用於數學和代碼。至少這是我所瞭解的一部分，這雄心勃勃。這很棒。

AI 安全的邊界：功能增益研究的類比

Elad: Anthropic 以早期就強調安全性並全面考慮安全的不同方面而聞名。人工智能領域存在多種形式的安全性。我認爲人們似乎混淆了這些術語，以表達不同的含義，對嗎？其中一種形式是，人工智能是否會以某種方式變得冒犯性或粗俗，或者使用你不喜歡的語言或概念。第二種形式的安全性則更側重於物理安全，例如，它是否會以某種方式導致火車相撞，或者產生病毒，諸如此類。還有第三種形式，它幾乎就像是，通用人工智能（AGI）是否會聚合資源，或者做其他可能開始逐漸掌控人類的事情？所以你們對此思考了很多。

Elad: 當我審視安全格局時，感覺人們歷來採取了多種多樣的不同方法。其中一些方法與憲政式人工智能等概念有所重疊，體現在其設置、原則以及事物應如何運作的框架方面。此外還有其他形式。如果我將生物學研究作爲類比（我曾是一名生物學家，所以不知爲何總是情不自禁地將事情歸結爲這些術語），有些事情我幾乎將其視爲功能增益研究的等價物，對嗎？而其中很多事情，我認爲對生物學而言並沒有太大用處，你知道，比如讓病毒在哺乳動物細胞中傳代以使其在哺乳動物細胞中更具感染性，這並不能真正教會你多少基礎生物學知識。

Sarah: 你大概知道那會如何發展，但它會產生實實在在的風險。

Elad: 如果你審視實驗室泄漏的整體歷史，非典病毒在21世紀初曾多次從當時的中國北京病毒研究所泄漏。它在香港也泄漏過幾次。如果你查看維基百科上關於實驗室泄漏的頁面，埃博拉病毒大約每四年就會泄漏一次，像鬧鐘一樣準時。我認爲，1977年或1978年的全球流感大流行，據信實際上就是一次俄羅斯實驗室泄露，對吧？所以我們知道這些事情會造成大規模損害。那麼我大概有兩個問題。第一個問題是，你認爲哪些形式的AI安全研究不應該被進行？幾乎可以類比於，你知道的，什麼纔是功能增益研究的對應物？你如何看待這個問題，比如，已經有一些研究論文探討了我們能否教導AI誤導我們？我們能否教導AI自行越獄，以便我們研究它是如何做到的？我只是對那些具體案例也有些好奇，你是如何看待的。

本·曼: 我認爲部分原因在於我們對AI對齊很感興趣。我們希望如果能解決當今這些普遍存在的問題，例如模型是否會對你刻薄？或者它是否使用了仇恨言論或類似的東西？我們用於解決這些問題的相同技術，最終也將與更難的問題相關，比如它是否會提供製造天花的配方？這可能是我們能想到的最大的危害之一。Amanda Askell 一直在對 Claude 的特性進行大量研究，比如當 Claude 拒絕時，它是直接說“我不能和你談論那個”然後停止響應嗎？還是它會嘗試解釋，比如“這就是我不能和你談論此事的原因”？或者我們還有另一個項目，由我們的模型福祉負責人 Kyle Fish 領導，Claude 可以在對話朝着錯誤方向發展過遠時實際選擇退出對話。

Elad: 公司實際上應該對這其中的哪些方面進行裁定？因爲一個簡單的版本是，我正在使用 Microsoft Word 輸入一些東西，而 Word 不會阻止我發表言論，我認爲這是正確的。例如，我實際上不認爲在許多情況下這些產品應該審查我們或阻止我們進行某些類型的言論。而且我曾與一些這樣的模型打交道，我真的覺得它阻止了我真正提出我想問的問題，對吧？在我看來，這是不當的，對吧？這有點干預了……而且我並沒有在模型上進行仇恨言論。所以你可以看出，有些人對於社會上可接受的討論內容有不同的標準。而那個標準可能與我所認爲的主流觀點也大相徑庭。所以我有點好奇，爲什麼還要去涉足那個領域？

Sarah: 爲什麼那是一家模型公司的業務？

本·曼: 嗯，我認爲實際上這是一個平滑的連續體。從外部看可能不是那樣，但當我們訓練分類器時，會基於你作爲生物學家是否在進行功能研究？以及是否是爲了潛在的負面結果？這些技術都具有雙重用途。我們需要在過度拒絕和拒絕實際有害內容之間找到平衡。

Elad: 我明白了。但這也有政治方面的版本，對吧？而這，這纔是更讓我惱火的地方，你知道，什麼是可接受的問題，其界限在哪裡？舉例來說，這並非特定於模型，但在社會層面有時會引發爭議的是，詢問人類智商或其他有事實依據可供討論的話題。而這些話題往往會被審查，對吧？所以問題是，爲什麼，爲什麼一家基礎模型公司會涉足其中一些領域？

本·曼: 對於像智商這類問題，我對細節瞭解不足以發表評論，但我可以談談我們的RSP。RSP代表“負責任的擴展策略”。它旨在說明我們如何確保，隨着模型變得越來越智能，我們能夠繼續履行盡職調查，並確保我們沒有部署那些尚未建立正確保障措施的東西。最初，我們的風險安全規劃（RSP）討論了生化放核（CBRN）風險，這些是可能在全球造成嚴重生命損失的不同領域。我們就是這樣考慮這些危害的。但現在我們更側重於生物學，因爲如果你考慮造成核危害所需的資源量，你可能需要像一個國家行爲體才能獲得並以有害方式利用這些資源。而一小撮普通人就能輕易獲取造成生物危害所需的試劑。

Elad: 這和今天有什麼不同？因爲我一直覺得生物學這個例子反倒讓我不那麼擔心，也許是因爲我曾是生物學家，我已經知道天花病毒或其他潛在事物的基因組都已在網上公佈。如何實際操作這些事情的所有規程，也已在網上公佈，供多個實驗室查閱，對嗎？你只需通過谷歌搜索“如何擴增X的DNA”或“如何訂購Y的寡核苷酸”即可。

本·曼: 我們與不同程度的生物學專家進行了具體測試，以觀察相對於谷歌搜索能有多少提升幅度。因此，最新模型Opus 4被歸類爲ASL 3的原因之一，就是因爲它相對於谷歌搜索有顯著的提升幅度。所以你作爲一名受過專業訓練的生物學家，你知道所有這些專用術語的含義。而且你知道許多可能甚至沒有得到充分記錄的實驗室規程。但對於一個業餘愛好者，只是想弄清楚這個培養皿或試管該怎麼用，或者需要什麼設備的人來說？對他們而言，這就像一個全新的領域。並且非常擅長描述你在那裡需要什麼。這就是爲什麼我們有特定的分類器，專門尋找那些試圖獲取這類特定信息的人。

Elad: 那麼，在實驗室不應該進行哪些安全研究的背景下，你如何看待這個問題呢？所以，如果我們確實認爲某些形式的功能增強研究或其他事情在生物學領域可能不是最明智的做法，那麼在人工智能的背景下，我們該如何看待這個問題呢？

本·曼: 我認爲最好由實驗室在受控環境下進行這項研究。

Elad: 那麼，他們到底應不應該進行這項研究呢？換句話說，如果我要提出關於功能增強研究的論點，我會說，作爲一名前生物學家，我曾在實驗室工作了近十年。我深切關注科學。我深切關注生物學。我認爲它在許多方面對人類有益，對吧？以深遠的方式。這就是我從事這項工作的原因。但有些類型的研究，我就是認爲它們絕不應該進行。我不在乎是誰進行。我不在乎其生物安全級別。我實際上認爲，相對於其風險而言，它並沒有那麼有用。換句話說，這是一種風險與回報的權衡。那麼，在您看來，人工智能領域有哪些安全研究是絕不應該做的？我在生物學方面有一個清單。我認爲不應該讓某些病毒通過哺乳動物細胞以增強其傳染性，也不應該對其進行功能增益突變。

本·曼: 如今，控制模型可能比控制生物樣本要容易得多。您剛纔順便提到了生物安全級別。我們的AI安全級別就是以此爲藍本設計的。因此，我認爲如果我們有適當的保障措施，例如，我們已經訓練出具有欺騙性的模型。這可能會令人恐懼。但我認爲，例如，我們需要了解，如果我們的訓練數據被污染了，我們是否能夠在後期訓練中糾正過來？我們在那項研究中發表了一篇名爲“假對齊”的論文，研究發現，這種行爲實際上在對齊訓練後仍然持續存在。因此，我認爲我們能夠測試這些事物非常重要。然而，我確信總會有一個底線存在。

Elad: 嗯，我發現，早期設定的先例往往會持續到後期，即使人們明白環境或其他事物將會發生變化。順便說一句，我總體上反對對許多不同類型的人工智能進行監管。我認爲我會支持一些專家控制和其他措施。但總的來說，我贊成目前讓事情自然發展。但另一方面，我確實認爲在某些情況下，你會說如果某些研究早期進行，人們不一定能獲得所有背景信息，從而避免日後繼續進行。我認爲這是一個完美的例子，說明了訓練人工智能或模型具有欺騙性。這是一個很好的例子，說明十年後人們可能仍然在做同樣的事情，因爲它以前做過，即使環境已經發生了足夠大的變化，以至於它可能不再像以前那麼安全了。因此我發現，你所做的事情常常會在時間中持續存在，無論是在組織層面還是哲學層面。因此，有趣的是，並沒有出現類似“我們絕對不應該進行X類研究”的說法。

本·曼: 需要澄清的是，我已不再是安全團隊的一員。我想那已經是很久以前的事了。我主要在思考如何讓我們的模型發揮作用並進行部署，同時確保它們滿足部署的基本安全標準。但我們有很多專家一直在思考這類事情。

Elad: 好的。謝謝你詳細闡述了這一點。

Claude 4 之後：競爭格局與生態系統建設

Sarah: 我想稍微換個話題，談談Claude 4之後會有什麼。在訓練中是否出現了任何涌現行爲，從而改變了你們公司的運營方式？你想構建什麼產品？你正在運營這個實驗室組織。所以這有點像是 Anthropic 的矛頭，或者說是安全組織的工作核心。就像接下來將要發生的事情會如何改變你們的運作方式？

本·曼: 是的，也許我來講述一個關於計算機使用的短故事。去年，我們發佈了一個代理的參考實現，它能夠點擊、查看屏幕並閱讀文本等。現在有幾家公司正在使用它。所以 Manus 正在使用它，並且許多公司正在內部將其用於軟件質量保證，因爲那是一個沙盒環境。但我們未能部署基於計算機使用的消費者級或終端用戶級應用程序的主要原因是安全性，我們只是不相信，如果我們讓 Claude 訪問你的瀏覽器，並且瀏覽器中包含你所有的憑據，它不會出錯並採取一些不可逆轉的行動，比如發送你不想發送的電子郵件，或者在提示注入的情況下，發生更糟糕的憑據泄露之類的事情。

本·曼: 這有點令人遺憾，因爲在它的完全自主模式下，它能爲人們做很多事情。它性能強大，但安全性不足以讓我們自己將其產業化。儘管這非常雄心勃勃，但我們認爲這也是必要的，因爲世界其他地方也不會放慢腳步。如果我們能某種程度上表明，在部署這些能力時既能負責任又使其極其有用，那麼這就會提高標準。所以我認爲這是一個例子，我們曾非常周到地考慮如何推出它。但我們知道，目前的標準比我們現在所處的水平更高。

Sarah: 也許一個元問題是：您如何看待競爭和供應商格局以及它們將如何發展？

本·曼: 我認爲我們公司的理念與企業非常契合。例如，如果你看看像 Stripe 對比 Adyen，好像沒人知道 Adyen，但至少硅谷的大多數人都知道 Stripe。所以這就像是面向商業的平臺與更面向消費者和用戶的平臺之間的區別。我認爲我們更像 Adyen，我們在世界上的心智份額要少得多，但我們卻能同樣或更成功。好的，是的，我認爲我們的API業務極其強勁。

本·曼: 但至於我們下一步的行動和我們的定位，我認爲對我們來說，保持活躍將非常重要。因爲如果人們不能輕易地試用我們的模型和我們的體驗，那麼他們就不知道這些模型能用來做什麼。我們對自己的模型而言，從本質上來說就是最佳專家。因此，我認爲我們需要繼續推出類似雲代碼這樣的產品。但我們正在思考如何真正讓生態系統繁榮發展？我認爲MCP就是一個很好的例子，它運作得很好，它與一個不同的世界形成了對比，在那個世界裡，常規做法本應是每個模型提供商只與它能夠建立定製合作關係的公司進行自己的定製集成。

Sarah: 實際上，你能否暫停一下，向聽衆解釋一下MCP是什麼，如果他們還沒聽說過的話？因爲這簡直是生態系統範圍內一次驚人的重大突破。

本·曼: MCP是模型上下文協議。我們的一位工程師，賈斯汀·斯帕索默斯，當時正試圖將模型與某個特定的事物進行集成，這已經是第N次了。他當時想，這簡直是瘋了。應該有一個標準的方式，將更多信息、更多上下文傳入模型。這應該是任何人都能做到的事情。或者，如果文檔足夠完善，那麼克勞德甚至可以自己完成。理想是讓克勞德能夠即時地自主編寫自己的集成，在你需要的時候立刻準備就緒。於是他創建了這個項目。說實話，我最初有些懷疑。我當時想，是啊，爲什麼不直接寫代碼呢？爲什麼需要一套規範和所有這些軟件開發工具包之類的東西呢？

本·曼: 但最終，我們和許多合作公司一起成立了這個客戶諮詢委員會。而當我們進行MCP演示時，所有人都驚呆了。每個人都說，天哪，我們需要這個。從那時起，我就知道他是對的。於是我們投入了更多精力並將其大力推廣。在我們發佈後不久，所有主要公司都要求加入指導委員會，並詢問我們的治理模式，希望自己也能採納它。所以那真的非常鼓舞人心。OpenAI、谷歌、微軟，所有這些公司都在MCP上大力押注。

Elad: 基本上有一個開放的行業標準，允許任何人使用這個框架，以標準化方式有效地與任何模型提供商進行集成。

本·曼: 我認爲，MCP是一種民主化力量，它讓任何人，無論使用何種模型提供商或何種長尾服務提供商（那甚至可能只是您獨有的內部服務），都能夠與一個功能完善的客戶端集成，這個客戶端可能看起來像您的IDE，或者像您的文檔編輯器。幾乎可以是任何用戶界面。我認爲這是一個非常強大的組合。

Sarah: 現在也支持遠程了。

本·曼: 是的，是的。所以以前，你必須在本地運行這些服務，這在某種程度上限制了它只對開發者有意義。但現在我們有了託管的MCP，有時也稱爲遠程，這樣像Google文檔這樣的服務提供商就可以提供他們自己的MCP。然後你可以將其整合到Claude.ai或任何你想要的服務中。

Sarah: 本，感謝這次愉快的交談。

本·曼: 是的，非常感謝。感謝所有這些精彩的問題。

Anthropic聯創Ben Mann 談 Claude 4、AI 安全與未來 2025.06.12 | 全文1.5萬字+視頻

相關資訊