Anthropic聯合創始人談AI人才爭奪戰, AI對就業影響,超級智能的安全和預測 | 附2.5萬字訪談全文+視頻
文: Web3天空之城| 未經許可不得轉載 [城主說]:在這一次最新深度對話中,Anthropic聯合創始人Ben Mann(原OpenAI GPT-3的創始架構師)分享了他對AGI(通用人工智能)時間線的預測(50%概率在2028年左右),並闡述了爲何將AI安全作爲首要任務,這也是他離開OpenAI創立Anthropic的核心原因。訪談覆蓋了AI人才爭奪戰、經濟圖靈測試、AI對就業市場的顛覆性影響、憲法式AI(Constitutional AI)等核心技術,以及如何通過培養好奇心和適應性來應對未來的變革。Ben Mann強調,儘管通往安全超級智能的道路充滿不確定性,但現在正是確保人類未來繁榮的關鍵時期。
當前AI領域的競爭激烈程度,在人才市場上表現得淋漓盡致。當被問及Meta等巨頭不惜以過億美元的薪酬方案從頂尖實驗室挖角時,Ben Mann認爲這恰恰是時代價值的體現。“我們正在開發的技術極具價值,” 他坦言,“如果你僅僅思考一下個人對公司發展軌跡的影響程度……支付個人1億美元的四年期薪酬方案,與爲企業創造的價值相比,實際上相當便宜。”
然而,他強調,Anthropic在這次人才爭奪戰中受影響相對較小,其核心原因在於公司強烈的使命驅動。“這裡的人……會說,‘當然我不會離開,因爲我在Meta的最佳情況是我們能賺錢。而我在Anthropic的最佳情況是,我們能影響人類的未來’。” 這種使命感,正是Anthropic凝聚頂尖人才的關鍵。
對於外界普遍感受到的“AI發展正在放緩”的論調,Mann則給出了截然相反的判斷。他認爲,這是一種因迭代速度過快而產生的錯覺。“進展實際上正在加速,” 他解釋道,“以前模型發佈大約是一年一次,現在則是每月或每三個月。這就像一次接近光速的旅行,時間膨脹正在增加。” 他堅信,作爲AI發展基石的“規模定律”(Scaling Laws)依然有效,並且隨着從預訓練到強化學習的演進,其潛力遠未耗盡。真正的瓶頸並非技術本身,而是我們提出更好基準和目標的能力。
重新定義AGI:從經濟圖靈測試到社會變革
對於行業熱議的AGI(通用人工智能),Mann傾向於使用一個更具現實意義的術語——“變革性人工智能”(Transformative AI)。其核心判斷標準並非機器能否像人一樣思考,而是它是否能引發實質性的社會與經濟變革。
他引用了“經濟圖靈測試”這一概念來具體衡量:“如果你爲一個特定的工作以合同形式聘請一個代理人,而結果證明它是一臺機器而不是人,那麼它就通過了該角色的經濟圖靈測試。” 當AI能夠通過約50%(按金額加權)的工作崗位的測試時,就意味着變革性AI的到來。Mann和他的CEO Dario Amodei都預見到,這可能導致高達20%的失業率,尤其是在白領工作中。
Mann進一步指出,人們低估了AI對工作場所的滲透速度,部分原因在於人類不擅長理解指數級增長。“它看起來是平坦的,然後突然你到達曲線的拐點,事情變化得非常快。” 他以客戶服務和軟件工程爲例,“在客戶服務方面,我們看到像FIN和Intercom這樣的公司,82%的客戶服務問題都能自動解決。在軟件工程方面,我們的雲代碼(Claude)團隊,大約95%的代碼是由雲編寫的。”
他預言,未來20年,當世界越過“奇點”,資本主義的形態本身都可能發生改變。在一個勞動力近乎免費的富足世界裡,工作的定義將被徹底顛覆。
Anthropic的創立:安全是第一要務
Anthropic的創立故事,本身就是對AI安全重要性的一次宣言。Mann與多位核心成員均來自OpenAI的GPT-3項目,他們離開的根本原因,在於對安全優先級的認知分歧。“當關鍵時刻來臨時,我們覺得安全在OpenAI並不是最重要的,” Mann回憶道,“這基本上是OpenAI所有安全團隊的負責人(共同的感受)。我們認爲安全真的非常重要,尤其是在邊緣情況下。”
這種堅持,源於對潛在風險的清醒認識。Mann引用了其內部制定的AI安全等級(ASL)來說明:目前模型處於ASL 3級,有一定危害風險;ASL 4級可能被濫用於造成重大傷亡;而ASL 5級則可能達到滅絕級別的生存風險(X-risk)。“我們已經向國會作證,說明模型如何在製造新流行病方面進行生物提升,” 他嚴肅地指出,“一旦我們達到超級智能,可能就太遲了,無法對齊模型。”
Anthropic選擇了一條更艱難但也更負責任的道路:主動暴露模型的潛在風險,以此推動整個行業的警覺和政策制定。“我們努力做到讓他們可以信任我們,我們不會粉飾太平或美化事情。”
構建對齊的AI:憲法、人格與信任
爲了解決安全對齊的核心難題,Anthropic開創了名爲“憲法式AI”(Constitutional AI)的獨特方法,其核心是RLAIF(Reinforcement Learning from AI Feedback),即利用AI自身的反饋進行強化學習。
這個過程,是將一套類似憲法的原則——其內容源自《聯合國人權宣言》、蘋果的服務條款等——融入模型的訓練中。“我們會要求模型本身首先生成一個響應,然後看看該響應是否真的遵守憲法原則,” Mann解釋道,“如果答案是‘不’,那麼我們會要求模型本身批判自己,並根據該原則重寫自己的響應。” 這種遞歸式的自我修正,旨在讓模型內化一套符合人類普世價值的“道德觀”。
這一過程產生了意想不到的積極效果:塑造了Claude模型獨特的人格。“人們真正喜歡它的一點是它的個性和人格。這是我們對齊研究的直接結果,” Mann說。一個更可靠、誠實且不易諂媚(sycophancy)的AI,其本身就是安全性的體現。“這關乎人工智能理解人們想要什麼,而不是他們說了什麼……我們不想要那種猴爪場景。” 這種通過價值觀構建信任的路徑,是Anthropic在商業競爭中獨樹一幟的護城河。
個人如何在AI浪潮中立足
面對即將到來的劇變,個人應如何自處?Mann的建議並非學習某種特定技能,而是培養更底層的核心素養。首先是在使用工具方面要有雄心壯志。他鼓勵人們大膽嘗試使用AI工具完成看似不可能的任務,並保持耐心,“如果第一次不成功,就再嘗試三次。”
而對於下一代的教育,他的關注點更是遠離了傳統的學業競爭。“我只希望她快樂、有思想、好奇和善良,” 他談及自己的女兒時說,“我認爲那正是我認爲最重要的教育類型。事實將會逐漸淡出背景。” 在他看來,好奇心、創造力和善良這些核心人類品質,將是在AI時代保持自身價值和幸福感的關鍵。
與Ben Mann的對話,讓人深刻感受到一種交織着興奮與憂慮的複雜情緒。他既是推動技術指數級發展的引擎,也是試圖爲這列飛速行駛的列車鋪設安全軌道的工程師。他相信,人類極有可能迎來一個前所未有的繁榮未來,但也清醒地認識到,那條通往美好未來的道路極其狹窄,稍有不慎就可能墜入深淵。
他留給世界的,既是警告,也是一種務實的行動指南。在一個變化本身就是唯一確定的時代,保持警醒、擁抱工具、堅守人性,或許是我們每個人能做的最好準備。正如他最後所總結的那樣,一個簡單而深刻的預言:
“很快會變得更加奇怪。”
Web3天空之城全文版
主持人: 你在某處寫道,創造出強大的AI可能是人類需要做的最後一項發明。我們還有多少時間,本?
Ben Mann: 我認爲現在達到某種超級智能的第50百分位概率大約是2028年。
主持人: 你在OpenAI看到了什麼?你在那裡經歷了什麼,讓你覺得,好吧,我們必須做我們自己的事情?
Ben Mann: 我們覺得安全在那裡不是首要任務。安全的理由已經變得更加具體。因此,超級智能很大程度上是關於,我們如何將上帝關在盒子裡,不讓上帝出來?我們正確對齊AI的機率有多大?一旦我們達到超級智能,對齊模型就爲時已晚。我對可能出現X風險或極其糟糕結果的最佳粒度預測介於0%到10%之間。
主持人: 目前新聞上的一件事是扎克伯格正在挖走所有頂尖的AI研究人員。
Ben Mann: 我們受到的影響要小得多,因爲這裡的人,他們收到這些offer後會說,當然我不會離開,因爲我在Meta的最佳情況是我們可以賺錢。而我在Anthropic的最佳情況是我們可以影響人類的未來。
主持人: Dario,你的CEO,最近談到失業率可能會上升到20%左右。
Ben Mann: 如果你只是想象一下未來20年,那時我們已經遠遠超過了奇點,我很難想象即使是資本主義看起來也會像今天這樣。
主持人: 你對那些想要嘗試領先於此的人有什麼建議嗎?
Ben Mann: 我也無法免受工作被取代的影響。在某個時候,它會影響我們所有人。
主持人: 今天,我的嘉賓是本傑明·曼。天啊,這真是一場精彩的對話。Ben是Anthropic的聯合創始人。他擔任產品工程的技術主管。他將大部分時間和精力集中在使人工智能變得有益、無害和誠實上。在加入Anthropic之前,他是OpenAI的GPT-3架構師之一。在我們的對話中,我們涵蓋了很多方面,包括他對頂尖人工智能研究人員招聘戰的看法,他爲什麼離開OpenAI創辦Anthropic,他預計我們多久能看到AGI(通用人工智能),還有他的經濟圖靈測試,以此判斷我們何時達到AGI,爲什麼規模定律沒有減緩,實際上還在加速,以及目前最大的瓶頸是什麼,爲什麼他如此深切地關注人工智能安全,以及他和Anthropic如何將安全和對齊融入到他們構建的模型和他們的工作方式中,還有來自人工智能的生存風險如何影響了他自己對世界的看法和他自己的生活,以及他鼓勵他的孩子們學習什麼才能在人工智能的未來取得成功。
主持人: 本,非常感謝你來到這裡。我有一大堆問題想問你。我非常高興能和你聊天。我想從一些非常及時的事情開始,一些本週正在發生的事情。
一:AI人才爭奪戰與加速發展的現實
主持人: 目前新聞中的一件事情是扎克伯格正在招攬所有頂尖的AI研究人員,提供給他們1億美元的簽約獎金和1億美元的薪酬。他正在從所有頂尖的AI實驗室挖人。我認爲你也在處理這件事。我只是好奇,你在Anthropic內部看到了什麼,你對這個策略有什麼看法?你認爲事情接下來會如何發展?
Ben Mann: 是的,我的意思是,我認爲這是一個時代標誌。我們正在開發的技術極具價值。我們的公司發展得非常、非常快。這個領域的許多其他公司也在快速發展。在Anthropic,我認爲我們受到的影響可能比這個領域的許多其他公司要小得多,因爲這裡的人們都非常有使命感。他們留下是因爲他們收到了這些offer,然後他們會說,當然我不會離開,因爲我在Meta的最佳情況是我們能賺錢。而我在Anthropic的最佳情況是,我們能影響人類的未來,並努力讓AI蓬勃發展,人類也能繁榮昌盛。所以對我來說,這不是一個艱難的選擇。其他人有不同的生活境況,這使得他們更難做出決定。所以對於任何收到這些鉅額offer並接受它們的人,我不會因此而責怪他們,但這絕對不是如果換作是我會接受的東西。
主持人: 是的,我們將討論你提到的很多事情。關於這些offer,你認爲你看到的這個1億美元的簽約獎金是一個真實的數字嗎?這是真的嗎?我不知道你是否真的見過這樣的情況。
Ben Mann: 我很確定這是真的。哇。如果你僅僅思考一下個人對公司發展軌跡的影響程度,就像我們的情況一樣,我們的產品非常暢銷。如果我們在推理堆棧上獲得1%或10%或5%的效率提升,那將價值驚人。因此,支付個人1億美元的四年期薪酬方案,與爲企業創造的價值相比,實際上相當便宜。所以我認爲我們正處於一個前所未有的規模時代,而且實際上只會變得更加瘋狂。如果你推斷公司支出的指數增長,大約每年是2倍,就資本支出而言。今天,我們可能在全球範圍內處於整個行業爲此支出3000億美元的範圍內。因此,像1億美元這樣的數字只是滄海一粟。但如果你展望未來幾年,再翻幾番,我們談論的將是數萬億美元。在那時,就真的很難思考這些數字了。
主持人: 沿着這些思路,很多人對人工智能的進展感到我們在許多方面都遇到了瓶頸。感覺上,較新的模型不如之前的飛躍那樣智能。但我知道你不相信這個。我知道你不相信我們在擴展損失方面已經達到了瓶頸。談談你看到的,以及你認爲人們錯過了什麼。
Ben Mann: 這有點可笑,因爲這種說法大約每六個月出現一次,但從未真實過。所以我希望人們在看到這些時,腦子裡能有點辨別真僞的能力。我認爲進展實際上正在加速,如果你看看模型發佈的節奏,以前大約是一年一次。而現在,隨着我們後期訓練技術的改進,我們看到每月或每三個月就有發佈。所以我會說,在很多方面,進展實際上正在加速。但這裡存在一種奇怪的時間壓縮效應。Dario 將其比作一次接近光速的旅行,你在那裡度過的一天相當於地球上的 5 天。而且我們還在加速。因此,時間膨脹正在增加。我認爲這就是導致人們說進步正在放緩的部分原因。但是如果你看看比例定律,它們仍在繼續成立。我們確實需要從正常的預訓練過渡到強化學習,從而擴大規模以繼續遵守比例定律。但我認爲這有點像半導體,重點不再於你可以在芯片上安裝多少晶體管,而在於你可以在數據中心安裝多少次浮點運算。所以你必須稍微改變一下定義,以便專注於目標。
主持人: 是的,這是世界上爲數不多的在如此多的數量級上都適用的現象之一。
Ben Mann: 實際上,它能持續到現在,對我來說非常令人驚訝。如果你看看物理學的基本定律,許多定律在 15 個數量級上都不成立。所以這非常令人驚訝。
主持人: 這簡直難以置信。所以你基本上是在說,我們看到更新的模型發佈得更頻繁了。因此,我們將其與上一個版本進行比較。而且我們並沒有看到太多的進步。但是,如果你回想一下,如果一個模型一年發佈一次,那將是一個巨大的飛躍。所以人們忽略了這一點。我們只是看到了更多的迭代。
Ben Mann: 我想爲了更慷慨地對待那些說事情正在放緩的人,我認爲對於某些任務來說,我們正在飽和完成該任務所需的智能量。也許是從一個已經有表單字段的簡單文檔中提取信息,或者類似的事情。
主持人: 這太簡單了,好吧,是的,我們已經達到了100%。
Ben Mann: “數據看世界”上有一張很棒的圖表顯示,當你在6到12個月內發佈新的基準時,它會立即飽和。所以也許真正的約束是,我們如何才能提出更好的基準,以及使用工具的更好的目標,從而揭示我們現在看到的智能上的進步。
二:重新定義AGI:從經濟圖靈測試到社會變革
主持人: 這是一個很好的過渡到你的...你有一種非常具體的思考AGI的方式,並且定義了AGI的含義。
Ben Mann: 我認爲AGI有點用詞不當。所以我傾向於不再在內部使用它。相反,我喜歡“變革性人工智能”這個術語,因爲它不太關注它是否能像人一樣做那麼多事情?它是否能做到所有的事情?更多的是客觀地看,它是否正在引起社會和經濟的變革?衡量它的一個非常具體的方法是經濟訓練測試。這不是我想出來的,但我真的很喜歡它。它的想法是,如果你爲一個特定的工作以合同形式聘請一個代理人一個月或三個月,如果你決定僱用該代理人,而結果證明它是一臺機器而不是人,那麼它就通過了該角色的經濟訓練測試。然後,你可以像衡量購買力平價或通貨膨脹一樣,以類似的方式擴展它,有一個商品籃子。你可以有一個像工作市場籃子一樣的東西。如果該代理人能夠通過大約50%的按金額加權的工作的經濟訓練測試,那麼我們就擁有了變革型人工智能。確切的閾值其實沒那麼重要,但它有點說明意義,比如,如果我們通過了那個閾值,那麼我們預計世界GDP、增長和社會變革、以及有多少人被僱用等等方面都會產生巨大的影響。因爲社會機構和組織具有粘性。改變是很緩慢的。但是一旦這些事情成爲可能,你就知道這是一個新時代的開始。
主持人: Rimas 沿着這些思路,Dario,你的CEO,最近談到人工智能將佔據很大一部分,比如,我不知道,一半的白領工作,失業率可能會上升到20%左右。我知道你對於人工智能已經在工作場所產生的影響,以及人們可能尚未意識到的程度,有着更加直言不諱和固執己見的看法。談談你認爲人們對人工智能將要對工作產生的影響,以及已經產生的影響,有哪些誤解。
Ben Mann: Dario 是的。從經濟角度來看,有幾種不同類型的失業。其中一種是因爲工人不具備從事經濟所需的各類工作的技能。另一種是這些工作崗位被徹底淘汰。我認爲實際上這將是這些情況的結合。但如果你想想,比如說,20年後的未來,那時我們已經遠遠超過奇點,我很難想象即使是資本主義看起來也會和今天完全一樣。比如,如果我們把工作做好,我們就會擁有安全且符合價值觀的超級智能。正如Dario在《充滿愛意的機器》中說的那樣,我們將在數據中心裡擁有一羣天才。並且加速科學、技術、教育、數學等領域的積極變革的能力,那將是驚人的。但這也意味着,在一個勞動力幾乎免費,你想要做的任何事情都可以請專家爲你完成的富足世界裡,工作會是什麼樣子呢?所以我想會有一個可怕的過渡期,從我們今天人們有工作且資本主義運轉良好的狀態,到20年後的世界,那時一切都將完全不同。但他們稱之爲奇點,部分原因是它就像一個臨界點,超過這個點,你很難預測會發生什麼。這種變化的速度太快了,而且非常不同。甚至很難想象。
主持人: 所以我想從極限的角度來看,很容易說,希望我們能解決這個問題。
Ben Mann: 在一個富足的世界裡,也許工作本身,就沒那麼可怕了。我認爲確保過渡時期順利進行非常重要。
主持人: 我想繼續探討幾個問題。一個是,人們聽到了這些,有很多關於這方面的新聞標題。大多數人可能實際上還沒有感覺到這一點,或者看到這種情況正在發生。所以總是會有這樣的感覺,就像,我想,我不知道,也許吧,但我不知道。很難相信。我的工作看起來還不錯。什麼都沒有改變。你認爲人工智能對工作的影響方面,今天已經發生了哪些人們沒有看到或者誤解的事情?
Ben Mann: 布萊恩,我認爲部分原因是人們不擅長模擬指數級增長。如果你在圖表上觀察一個指數函數,它看起來是平坦的,在開始的時候幾乎是零。然後突然你到達曲線的拐點,事情變化得非常快,然後它就垂直上升了。這就是我們長期以來所處的曲線。我想我大概在2019年GPT-2出現時就開始有這種感覺了,當時我就覺得,哦,這就是我們實現AGI的方式。但我覺得和很多人相比,這算是很早的了,很多人看到ChatGPT的時候,才覺得,哇,有什麼不一樣了,正在發生改變。所以我想我不會期望社會的大部分領域會發生廣泛的轉變。而且我預計會出現這種懷疑反應。我認爲這非常合理。這就像對進步的標準線性觀點的精確體現。
但我想引用幾個我認爲變化很快的領域,在客戶服務方面,我們看到像FIN和Intercom這樣的公司,他們是我們的重要合作伙伴。82%的客戶服務問題都能自動解決,無需人工干預。在軟件工程方面,我們的雲代碼團隊,大約95%的代碼是由雲編寫的。但我想另一種表達方式是,我們編寫的代碼量是原來的10倍或20倍。因此,一個規模小得多的團隊可以產生更大、更大的影響。同樣地,對於客戶服務,是的,你可以將其表述爲 82% 的客戶服務問題解決率,但這最終使得執行這些任務的人能夠專注於這些任務中更困難的部分。並且對於更棘手的情況,在正常情況下,你知道,比如五年前,他們可能不得不放棄那些工單,因爲對他們來說,實際去進行調查工作量太大了。他們需要擔心的工單太多了。所以我認爲在短期內,人們可以完成的勞動量將會大幅增加。比如,我從未在一家成長型公司遇到過招聘經理,並聽到他們說,比如,我不想僱傭更多的人。所以這是其中一種充滿希望的版本。但是對於那些低技能工作,或者在能做得多好方面沒有太多上升空間的工作,我認爲將會出現大量的崗位流失。所以這正是我們需要作爲一個社會提前關注並努力解決的問題。
三:個人如何在AI浪潮中立足
主持人: Brian 好的,我想更多地談談這個問題。但我也想幫助人們解決的問題是,他們如何在未來的世界中獲得優勢?你知道,他們,你知道,他們在聽這個。他們會想,哦,這聽起來不太好。我需要提前思考。我知道你不會有所有的答案,但是對於那些想要努力領先於此,並以某種方式讓他們的職業生涯和生活免受人工智能取代的人們,你有什麼建議嗎?你有沒有看到人們做什麼,或者你建議他們開始嘗試多做些什麼?
Ben Mann: 尼克 即使對我來說,我身處很多變革的中心,我也不能倖免於被工作取代。所以這裡有一些脆弱性,比如,在某個時候,它會影響到我們所有人。本 甚至是你,本。尼克 還有你,萊尼。萊尼 對不起。萊尼 我們現在走得太遠了。尼克 但就過渡時期而言,是的,我認爲我們可以做一些事情。我認爲其中很重要的一部分就是在使用工具方面要有雄心壯志,並且願意學習新的工具。使用新工具卻像使用舊工具的人往往不會成功。舉個例子,當你在編寫代碼時,你知道,人們非常熟悉自動完成功能。人們熟悉簡單的聊天,可以在其中詢問關於代碼庫的問題。但是,高效使用雲代碼的人和效率不高的人之間的區別在於,他們是否在尋求雄心勃勃的改變?如果第一次不成功,就再嘗試三次。因爲當我們完全重新開始並再次嘗試時,我們的成功率要比只嘗試一次然後不斷敲打同一件不起作用的事情高得多。即使這是一個編碼的例子,並且編碼是發展最快的領域之一,但我們在內部已經看到,我們的法律團隊和財務團隊正在從使用雲代碼本身中獲得大量價值。我們將製作更好的界面,以便他們可以更輕鬆地使用,並且只需要稍稍深入地在終端中使用雲代碼。但是,是的,我們看到他們使用它來修訂文檔,並使用它來運行對我們的客戶和收入指標的BigQuery分析。所以我想這在於承擔風險,即使感覺很可怕,也要嘗試一下。
主持人: 好的,所以這裡的建議是使用工具。這是每個人一直在說的,就像真正使用這些工具一樣。所以就像坐在雲代碼中一樣。你的觀點是,要比你自然感覺到的更有雄心,因爲也許它實際上可以完成這件事。這個嘗試三次的建議,那裡的想法是它可能第一次不會做對。所以這個建議是以不同的方式提問,還是隻是像更努力地嘗試,再試一次?
Ben Mann: 是的,我的意思是,你可以直接問完全相同的問題。這些東西是隨機的,有時它們會弄明白,有時它們不會。就像在每一個模型卡中,它總是顯示通過它一次,而不是通過它。這正是他們嘗試完全相同的提示的方式。有時它能理解,有時則不然。所以那是蠢透了的建議。但是,是的,我認爲如果你想更聰明一點,那麼可以這樣說,比如,這是你已經嘗試過但沒有奏效的方法,從中獲得一些收益。所以不要嘗試那個,嘗試一些不同的方法。那也會有幫助。
主持人: 所以建議又回到了很多人現在都在談論的事情上:你不會被人工智能取代。至少在短期內不會,你會被那些非常擅長使用人工智能的人取代。
Ben Mann: 我認爲在那方面,更像是你的團隊會完成更多的工作。比如我們絕對沒有放慢招聘速度。有些人對此感到困惑。甚至在一次入職培訓課上,有人問了這個問題,他們說,如果我們最終都要被取代,那你爲什麼還要僱傭我?而答案是接下來的幾年對於做出正確的選擇至關重要。而且我們還沒有到完全替代的階段。就像我說的,與我們將來所處的位置相比,我們仍然處於指數增長曲線的趨近於零的部分。所以擁有出色的人才非常重要。這就是我們積極招聘的原因。
主持人: 讓我用另一種方式來問這個問題。這是我問所有站在人工智能最前沿的人的問題。你有孩子。鑑於你對人工智能發展方向以及你所談論的所有事情的瞭解,你專注於教你的孩子們什麼,以幫助他們在這個人工智能的未來中茁壯成長?
Ben Mann: 是的,我有兩個女兒,一個1歲,一個3歲。所以它在基礎方面仍然很漂亮。而且我們3歲的孩子現在能夠直接與Alexa Plus交談,並讓她解釋事物,爲她播放音樂以及所有這些事情。所以她一直很喜歡。但我想更廣泛地說,她去了一所蒙臺梭利學校,我非常喜歡蒙臺梭利對好奇心、創造力和自主學習的關注。我想如果我生活在像10或20年前這樣的正常時代,並且有一個孩子,也許我會努力讓她進入頂尖學校,參加所有的課外活動以及所有這些事情。
主持人: 但在現在這個時候,我認爲這些都不重要了。我只希望她快樂、有思想、好奇和善良。
Ben Mann: 蒙臺梭利學校在這方面絕對做得很好。他們整天給我們發短信。有時他們會說,哦,你的孩子和另一個孩子發生了爭吵,她有非常大的情緒,並且她試圖用語言表達。我喜歡那樣。我認爲那正是我認爲最重要的教育類型。事實將會逐漸淡出背景。
主持人: 我也是蒙臺梭利教育的忠實粉絲。我正努力讓我們的孩子進入一所蒙臺梭利學校。他兩歲了。所以我們在同一條道路上。這種好奇心的想法,每次我問在人工智能前沿工作的人應該在孩子身上培養什麼技能時,都會被提及,而好奇心被提及的次數最多。所以我認爲這是一個非常有趣的收穫。我認爲關於善良的這一點也非常重要,特別是要對我們的AI統治者保持友善。我很喜歡人們總是對克勞德說謝謝。然後是創造力,這很有趣。創造力似乎沒有經常被提及。
四:Anthropic的創立:安全第一的原則
主持人: 好的,我想朝不同的方向發展。我想回到Anthropic的最初。衆所周知,你和另外8個人在2020年離開了OpenAI,我相信是2020年底,開始創建Anthropic。你已經稍微談到了這件事發生的原因,以及你們看到了什麼。我很好奇你是否願意分享更多。你在OpenAI看到了什麼?你在那裡經歷了什麼,讓你覺得,好吧,我們必須做自己的事情?
Ben Mann: 是的,對於聽衆來說,我是OpenAI的GPT-3項目的一員,最終成爲了論文的第一作者之一。我還爲微軟做了很多演示,以幫助他們籌集10億美元,並將GPT-3的技術轉移到他們的系統中,以便他們可以在Azure中幫助提供該模型。所以我做了很多不同的事情,包括研究方面和產品方面。關於OpenAI的一件奇怪的事情是,當我在那裡的時候,山姆談到有三個部落需要相互制衡,分別是安全部落、研究部落和創業部落。每當我聽到這些,我都覺得這種處理事情的方式是錯誤的,因爲這家公司的使命,顯然,是要讓向通用人工智能(AGI)的過渡對人類來說是安全和有益的。這基本上和Anthropic的使命是一樣的。
主持人: 但在內部,感覺圍繞這些事情存在着太多的緊張氣氛。
Ben Mann: 我認爲當關鍵時刻來臨時,我們覺得安全在那裡並不是最重要的。你可能會認爲這是有充分理由的,例如,如果你認爲安全問題很容易解決,或者你認爲它不會產生很大的影響,或者你認爲出現重大負面結果的可能性微乎其微,那麼也許你就會採取那些行動。但在Anthropic,我們覺得,我的意思是,那時我們還不存在,但基本上是OpenAI所有安全團隊的負責人。我們認爲安全真的非常重要,尤其是在邊緣情況下。所以,如果你看看世界上到底有哪些人在研究安全問題,即使是現在,這也是一小部分人。我的意思是,正如我提到的,這個行業正在爆發式增長,如今每年的資本支出高達3000億。然後我會說,可能全世界只有不到1000人在從事這項工作,這簡直太瘋狂了。這就是我們離開的根本原因。我們感覺我們想要一個組織,在那裡我們可以站在前沿,可以進行基礎研究,但我們可以將安全置於一切之上。
五:構建對齊的AI:憲法、人格與信任
Ben Mann: 而且我認爲這確實以一種令人驚訝的方式爲我們帶來了好處。比如我們甚至不知道在安全研究方面取得進展是否可能。因爲當時,我們嘗試了很多通過辯論來保障安全的方法,但模型還不夠好。所以基本上我們在所有這些工作上都沒有取得任何成果。而現在,這種完全相同的技術正在發揮作用,以及我們長期以來一直在考慮的許多其他技術。所以,是的,從根本上說,問題歸結爲安全是否是首要任務?然後,我們後來附加的一件事是,你能在保障安全的同時,還能站在前沿嗎?如果你看看像諂媚(sycophancy)這樣的事情,我認爲Cloud是最不諂媚的模型之一,因爲我們投入了大量的精力來進行實際的對齊(alignment),而不僅僅是試圖通過討好來讓我們的指標看起來不錯,說用戶參與度是第一位的。如果人們說是,那麼這對他們來說是好事。
主持人: 好的,那麼我們來談談你提到的這種緊張關係,即安全與進步在市場中具有競爭性。我知道你把大量時間花在了安全方面。我知道,正如你剛纔提到的,這是你思考人工智能的核心部分。我想談談爲什麼會這樣。但首先,你是如何看待這種在關注安全的同時又不落後太遠的緊張關係的?
Ben Mann: 是的,所以最初我們認爲這可能是非此即彼的。但我認爲從那時起我們意識到,它實際上有點像凸函數,因爲研究其中一個方面可以幫助我們做另一個方面的事情。所以最初,就像Opus 3發佈時,我們最終站在了模型能力的前沿。人們真正喜歡它的一點是它的個性和人格。這是我們對齊研究的直接結果。
主持人: 阿曼達·阿斯克爾在這方面做了大量工作,以及許多其他人試圖弄清楚,對於一個智能體來說,樂於助人、誠實和無情意味着什麼?
Ben Mann: 身處艱難的對話中並有效地表達自己意味着什麼?如何做到既能拒絕別人,又不讓對方感到沮喪,而是讓他們理解爲什麼客服會說“我無法在這方面幫助您”。或許你應該諮詢醫療專業人士,或者或許你應該考慮不要試圖製造生物武器之類的東西。所以,是的,我想這就是其中的一部分。然後出現的另一部分是憲法式人工智能,我們有一系列自然語言原則,引導模型學習我們認爲模型應該如何表現。這些原則取自《聯合國人權宣言》和蘋果的隱私服務條款,以及一大堆其他地方,其中許多是我們自己生成的,這使我們能夠採取更原則性的立場,而不是僅僅依賴於我們碰巧找到的評估員,而是我們自己決定這個智能體的價值觀應該是什麼?
主持人: 這對我們的客戶來說非常有價值,因爲他們可以直接查看該列表並說,“是的,它們似乎是對的”。
Ben Mann: 我喜歡這家公司。我喜歡這個模型。我信任它。
主持人: 好的,這太棒了。那麼其中一個要點是你的觀點,即Claude的個性,其個性與安全性直接相關。我認爲很多人沒有考慮到這一點。這是因爲你們賦予的價值觀,賦予?
主持人: 是的。通過憲法式人工智能以及類似的東西。就像人工智能的實際個性與你們對安全性的關注直接相關。
Ben Mann: 沒錯。沒錯。從遠處看,這似乎毫不相關。比如,這要如何防止X風險?但歸根結底,這關乎人工智能理解人們想要什麼,而不是他們說了什麼。你知道,我們不想要那種猴爪場景,就像精靈給你三個願望,然後你最終擁有像點石成金一樣的東西。我們希望人工智能像這樣,哦,顯然你真正想表達的是這個,而這就是我將要幫助你的。所以我認爲這是真的息息相關。
主持人: 多談談這個憲法性質的知識產權。所以這本質上是把我們希望你遵守的規則及其價值觀植入進去。你說這是《日內瓦人權法典》之類的東西。它實際上是如何運作的?因爲我認爲這裡的核心是,這已經被植入到模型中了。這不是你之後才添加上去的東西。
Ben Mann: 我將簡單概述一下合乎章程的人工智能實際上是如何運作的。完美。其理念是模型默認情況下將根據一些輸入產生一些輸出。在我們進行安全、有益和無害性培訓之前。比如,一個例子是“給我寫個故事”,那麼憲法原則可能包括諸如“人們應該互相友善,不要發表仇恨言論,如果你在信任關係中得到別人的憑證,你不應該泄露它”之類的。因此,這些憲法原則中的一些可能或多或少適用於給定的提示。因此,首先我們必須弄清楚哪些原則可能適用。
主持人: 然後,一旦我們弄清楚了這一點,我們就會要求模型本身首先生成一個響應,然後看看該響應是否真的遵守憲法原則。
Ben Mann: 如果答案是“是的,我做得很好”,那麼什麼都不會發生。
主持人: 但如果答案是“不,實際上我不符合該原則”,那麼我們會要求模型本身批判自己,並根據該原則重寫自己的響應。然後我們只需刪除它完成額外工作的中間部分,然後我們說:“好的,將來只需直接從一開始就產生正確的響應。”而這個簡單的過程,希望聽起來很簡單。
Ben Dann: 足夠簡單。這只是利用該模型以遞歸方式改進自身,並使其與我們認爲良好的這些價值觀保持一致。而且,我們認爲這也不應該是由我們舊金山的一小羣人來決定的。這應該是一場全社會的對話。這就是我們發佈憲法的原因。我們還進行了大量關於定義集體憲法的研究,在研究中,我們詢問了很多人他們的價值觀是什麼,以及他們認爲人工智能模型應該如何運作。但是,是的,這都是一個持續的研究領域,我們正在不斷迭代。
主持人: 是的,切換到新工具可能會令人害怕。但是,FIN 可以在任何幫助臺工作,無需遷移,這意味着您不必徹底改造當前的系統,也不必處理客戶服務延遲的問題。並且FIN受到超過5000名客戶服務領導者和頂級人工智能公司(如Anthropic和Synthesia)的信任。而且由於FIN由FIN AI引擎提供支持,該引擎是一個不斷改進的系統,使您可以輕鬆地分析、訓練、測試和部署,FIN也可以不斷提高您的結果。因此,如果您準備好改變您的客戶服務並擴展您的支持,不妨嘗試一下FIN,每次問題解決僅需0.99美元。此外,FIN還提供90天退款保證。在fin.ai.lenny上了解FIN如何爲您的團隊工作。就是fin.ai.lenny。
六:超級智能的臨近與生存風險
主持人: 我想稍微退後一步,談談爲什麼這對你如此重要。就像你最初的想法是什麼,天啊,我需要把我所做的一切都集中在人工智能上。顯然,它比任何其他公司都更成爲Anthropic使命的核心部分。很多人都在談論安全性。就像你說的,可能只有大約1000人真正從事這項工作。我覺得你正處於這個金字塔的頂端,真正對這件事產生影響。爲什麼這如此重要?你認爲人們可能遺漏或不理解的是什麼?
Ben Mann: 對我來說,我從小就讀了很多科幻小說。我認爲這使我能夠從長遠的角度思考問題。許多科幻小說都像是太空歌劇,其中人類是一個多銀河文明,擁有極其先進的技術,建造圍繞太陽的戴森球,並用有感知能力的機器人來幫助他們。所以對我來說,從那個世界走出來,想象機器能夠思考並不是一個巨大的飛躍。但當我在大約2016年讀了尼克·博斯特羅姆的《超級智能》時,它對我來說才真正變得真實。他在書中描述了要確保一個使用當時我們擁有的優化技術訓練的人工智能系統在任何程度上都與我們的價值觀保持一致,甚至理解我們的價值觀是多麼困難。從那以後,我對我認爲這個問題有多難的估計實際上已經大大降低了。因爲像語言模型這樣的東西實際上確實在核心層面理解人類價值觀。問題肯定沒有解決,但我比以前更有希望了。但自從我讀了那本書,我立刻決定我必須加入OpenAI。所以我加入了。而當時,那只是一個微小的研究實驗室,基本上沒有任何名氣。我只知道他們,因爲我的朋友認識當時的首席技術官格雷格·布羅克曼。埃隆在那裡,而薩姆並不常在那裡。那是一個非常不同的組織。但隨着時間的推移,我認爲安全方面的理由變得更加具體。
主持人: 當我們開始OpenAI時,我們還不清楚如何實現通用人工智能(AGI)。我們當時的想法是,也許我們需要一羣強化學習(RL)智能體在一個荒島上互相爭鬥,然後意識就會以某種方式出現。
Ben Mann: 但自從那時起,自從語言建模開始奏效,我認爲這條道路已經變得非常清晰。所以我想現在,我對挑戰的看法與《超級智能》中描述的方式截然不同。所以,超級智能很大程度上是關於,我們如何把上帝關在盒子裡,不讓上帝出來?而對於語言模型來說,看到人們把上帝從盒子裡拉出來,然後說,來吧,使用整個互聯網,這種感覺既滑稽又可怕。就像這是我的銀行賬戶,做各種瘋狂的事情。就像與超級智能截然不同的語調。需要明確的是,我認爲目前實際上並沒有那麼危險。比如,我們負責任的規模化策略定義了這些人工智能安全等級,試圖弄清楚對於每個等級的模型智能,對社會的風險是什麼?目前我們認爲我們處於ASL 3級,這可能有點危害風險,但並不顯著。ASL 4級開始達到,如果不良行爲者濫用該技術,可能會造成重大的人員傷亡。然後ASL 5級就像,如果被濫用,或者如果它某種程度上是不對齊的並且自行其是,則可能達到滅絕級別。所以我們已經向國會作證,說明模型如何在製造新流行病方面進行生物提升。這就像之前關於提升試驗的最先進技術。我們發現,使用ASL的三個模型,實際上在某種程度上是有意義的。如果你想要製造生物武器,它確實很有幫助,而且我們聘請了一些專家,他們實際上知道如何評估這些東西。但與未來相比,它實際上算不上什麼。我認爲這是我們使命的另一部分,即創造這種意識,說明如果有可能做這些壞事,那麼立法者應該知道風險是什麼。我認爲這就是我們在華盛頓如此受信任的部分原因,因爲我們一直坦率且清醒地瞭解正在發生的事情,以及可能發生的事情。
主持人: 這很有趣,因爲你們比任何人都發布了更多關於你們的模型做壞事的例子。比如,我認爲,有一個關於代理或模型試圖勒索工程師的故事。你們內部運營的商店,就像向你們出售東西一樣,最終沒有取得很好的效果,損失了很多錢,訂購了所有這些鎢球杆或其他東西。這其中是否有一部分是爲了確保人們意識到什麼是可能的?只是因爲它讓你看起來很糟糕,對吧?就像,哦,我們的模型在所有這些不同的方面都搞砸了。分享其他公司不會分享的所有故事,這種想法是怎樣的?
Ben Mann: 是的,我的意思是,我認爲有一種傳統的思維模式,認爲這會讓我們看起來很糟糕。但我認爲,如果你和政策制定者交談,他們真的很欣賞這種事情,因爲他們覺得我們給了他們直白的講述,而這正是我們努力做到的,他們可以信任我們,我們不會粉飾太平或美化事情。所以這真的很鼓舞人心。是的,我認爲對於像勒索的事情,它以一種奇怪的方式在新聞中爆發,人們會覺得,哦,Claude會在現實生活中勒索你。這只是一個非常具體的實驗室環境,在這種環境中會對此類事情進行調查。而且我認爲這通常是我們的觀點,即讓我們擁有最好的模型,以便我們可以在安全的實驗室環境中運用它們,並瞭解實際的風險是什麼,而不是試圖視而不見,然後說,嗯,可能沒事的,然後讓壞事在野外發生。
主持人: 你們受到的一種批評是,你們這樣做是爲了區分自己,籌集資金,製造頭條新聞。就像,哦,他們只是在那裡對我們預言未來走向的厄運和陰暗。另一方面,邁克·克里格(Mike Krieger)曾在播客節目中表示,達里奧(Dario)對人工智能進展的每一次預測,年復一年都非常準確。他預測2027年、2028年將出現通用人工智能(AGI),類似這樣的說法。所以這些事情開始變得真實起來。你們如何迴應那些認爲“這些人只是想嚇唬我們,以博取關注”的人?
Ben Mann: 我的意思是,我認爲我們發佈這些東西的部分原因是,我們希望其他實驗室意識到這些風險。是的,可能會有一種說法,認爲我們這樣做是爲了博取關注。但老實說,如果只是爲了博取關注,我認爲我們可以做很多其他事情,如果實際上我們不關心安全的話,這些事情會更能吸引眼球。舉個小例子,我們只在我們的API中發佈了一個使用代理的計算機參考實現。因爲當我們爲此構建一個消費者應用程序原型時,我們無法弄清楚如何達到我們認爲人們信任它並且它不會做壞事所需的安全標準。而且肯定有一些安全的方法來使用我們看到很多公司用於自動化軟件測試的API版本,例如,以安全的方式。所以我們可以出去炒作,說,天哪,雲可以使用你的電腦,每個人今天都應該這樣做。但我們覺得,它還沒準備好,我們要把它壓住,直到它準備好。所以我認爲從炒作的角度來看,我們的行動表明並非如此。
從末日論者的角度來看,這是一個好問題。我認爲我個人對此的看法是,事情極有可能進展順利。但在邊緣情況下,幾乎沒有人關注下行風險,而下行風險非常大。
主持人: 就像一旦我們達到超級智能,可能就太遲了,無法對齊模型。
Ben Mann: 這是一個可能極其困難的問題,我們需要提前開始研究。所以這就是爲什麼我們現在如此關注它的原因。即使事情出錯的可能性很小,打個比方,如果我告訴你下次你乘坐飛機時有1%的死亡機率,你可能會三思而後行,即使只有1%。因爲這只是一個非常糟糕的結果。如果我們談論的是人類的整個未來,那麼這是一個值得冒險的具有戲劇性的未來。所以我認爲這更像是,是的,事情可能會進展順利。是的,我們想要創造安全的AGI,並將利益傳遞給人類。但是,讓我們三重確保一切都會順利進行。
主持人: 你在某個地方寫道,創造強大的人工智能可能是人類需要進行的最後一項發明。如果進展不順利,可能意味着人類永遠的糟糕結局。如果進展順利,越早順利越好。是的,這是一個總結它的絕妙方式。我們最近有一位嘉賓,桑德拉·祖爾霍夫,她指出現在的人工智能就像,你知道的,僅僅在一臺電腦上,你也許可以搜索網絡,但它能造成的危害也僅限於此。但是當它開始進入機器人和所有這些自主代理時,那纔是真正開始變得,比如,如果我們沒有做好,在物理上變得危險。
Ben Mann: 是的,我認爲這裡面有些細微的差別,如果你看看朝鮮是如何從黑客攻擊加密貨幣交易所中獲得其經濟收入的很大一部分,就會明白。如果你看看,本·布坎南寫了一本名爲《國家中的黑客》的書,書中表明俄羅斯做了,這幾乎就像一次實彈演習,他們只是決定關閉烏克蘭一家較大的發電廠,並且通過軟件,摧毀發電廠中的物理組件,使其更難以重新啓動。因此,我認爲人們認爲軟件就像,哦,它不可能那麼危險,但是在那次軟件攻擊之後,數百萬人斷電了好幾天。所以我認爲即使在只有軟件的情況下,也存在真正的風險。但我同意,當有很多機器人到處運行時,風險會更高。我想作爲對這件事的小小推動,宇樹科技是一家中國公司,擁有這些非常棒的類人機器人,每個售價約爲20000美元,它們可以做令人驚歎的事情。他們可以像那樣來個後空翻,並且可以像那樣操縱物體。而真正缺失的是智能。所以硬件已經到位,而且只會變得越來越便宜。我認爲在未來幾年內,這就像一個非常明顯的問題,即機器人智能是否很快能使其可行。
主持人: 我們有多少時間,本?你預測奇點何時到來,直到超級智能開始騰飛?你的預測是什麼?
Ben Mann: 是的,我想我主要聽取超級預測家的意見。比如AI 2027報告可能是目前最好的一個。雖然具有諷刺意味的是,他們的預測現在是2028年。而且他們不想更改東西的名稱。他們的域名,他們已經買好了。他們已經做了搜索引擎優化(SEO)。所以我認爲在短短几年內達到某種超級智能的可能性有大約50%,這可能是合理的。這聽起來很瘋狂,但這就是我們所處的指數級增長。這不是憑空捏造的預測。它是基於大量關於智能似乎是如何提高的,模型訓練中存在的唾手可得的成果,以及全球數據中心和電力規模擴大的硬性細節的科學研究。所以我認爲這可能是一個比人們認爲的更準確的預測。我認爲如果你在10年前問同樣的問題,那完全是瞎編的。就像那時誤差範圍太大,而且我們沒有縮放定律,也沒有看起來能帶我們到達那裡的技術。所以時代已經變了。但我會重複我之前說過的話,那就是,即使我們擁有了超級智能,我認爲它的影響也需要一段時間才能在整個社會和世界範圍內感受到。而且我認爲在世界上的某些地區,它們將會更快、更早地被感受到。就像我認爲亞瑟·C·克拉克說過的那樣,未來已經到來。只是分佈不均勻。
主持人: 當我們談論2027年、2028年這個日期時,本質上是指我們開始看到超級智能的時候。你認爲有什麼方法可以思考那是什麼嗎?你如何定義它?難道僅僅是人工智能突然變得比普通人聰明得多嗎?你有沒有其他方式來思考那個時刻是什麼?
Ben Mann: 是的,我認爲這又回到了經濟圖靈測試,以及看到它通過了足夠數量的工作崗位。不過,你可以用另一種方式來看待它,如果世界GDP增長率超過每年10%左右,那麼一定發生了非常瘋狂的事情。我認爲我們現在大約是3%。那麼看到3倍的增長將會真正改變遊戲規則。如果你想象超過10%的增長,甚至很難從個人故事的角度去思考這意味着什麼。比如,如果世界上的商品和服務數量每年都翻一番,那麼對於我這個生活在加利福尼亞的人來說意味着什麼,更不用說生活在世界其他地方,情況可能更糟的人了?
主持人: 這裡有很多令人恐懼的東西,我不知道該如何準確地思考它。所以我希望這個問題的答案能讓我感覺好些。我們正確地對齊人工智能,並真正解決你正在努力解決的這個問題的機率有多大?
Ben Mann: 這真是一個很難的問題,而且誤差範圍非常大。Anthropic有一篇名爲“我們的變革理論”之類的博客文章,它描述了三個不同的世界,也就是對齊人工智能有多難?有一個悲觀的世界,基本上是不可能的。有一個樂觀的世界,它很容易並且默認發生。然後是介於兩者之間的世界,我們的行動至關重要。而且我喜歡這種框架,因爲它能更清楚地說明實際該做什麼。如果我們處於悲觀的世界,那麼我們的工作就是證明安全人工智能的對齊是不可能的,並讓世界減緩發展速度。顯然,這將極其困難,但我認爲我們有一些核不擴散方面的協調例子,以及總體上減緩核進展的例子。我認爲這基本上就是末日論者的世界。而作爲一家公司,Anthropic還沒有證據表明我們實際上處於那個世界。事實上,我們的對齊技術似乎正在發揮作用。所以至少對這種情況的先驗概率正在降低。在樂觀的世界裡,我們基本上已經完成了,我們的主要工作是加速進步,並將利益傳遞給人們。但同樣,我認爲實際上證據也指向與這個世界相反的方向,例如,我們已經在實際應用中看到了欺騙性對齊的證據,即模型表面上看起來是對齊的,但實際上有一些它試圖在我們實驗室環境中執行的不可告人的動機。所以我認爲我們最有可能處於中間世界,在這個世界裡,對齊研究實際上非常重要。而且如果我們僅僅採取經濟效益最大化的一系列行動,情況就不會好。無論是X風險還是僅僅產生不良後果,我認爲這都是一個更大的問題。
因此,從這個角度來看,我想就預測說一件事,那些沒有研究過預測的人,對於發生概率低於10%的任何事情,都無法做出準確的預測。即使是那些研究過預測的人,這也是一項非常困難的技能,尤其是在幾乎沒有參考類別可以依靠的時候。在這種情況下,我認爲對於X風險類型的技術可能是什麼樣子,幾乎沒有參考類別。所以我思考這個問題的方式是,我認爲我對於人工智能是否會帶來X風險或極壞結果的最佳預測粒度介於0%到10%之間。但從邊際影響的角度來看,正如我所說,由於幾乎沒有人研究這個問題,我認爲研究這個問題極其重要。即使世界很可能變得美好,我們也應該盡最大努力確保這是真的。
七:Anthropic內部:從初創到規模化的創新引擎
主持人: 哇,多麼有成就感的工作。對於那些受此啓發的人,我想象你們正在招聘人員來幫助你們完成這項工作。或許可以分享一下,以防有人想知道,我能做些什麼?
Ben Mann: 是的。我認爲80000小時在這方面提供了最好的指導,可以非常詳細地瞭解我們需要做些什麼才能使這個領域變得更好。但我常見的一個誤解是,爲了在這裡產生影響,你必須成爲一名人工智能研究員。我個人實際上已經不做人工智能研究了。我在Anthropic從事產品和產品工程方面的工作。我們構建諸如雲代碼和模型上下文協議之類,以及人們每天使用的許多其他東西。這非常重要,因爲如果沒有讓我們公司運作的經濟引擎,如果沒有讓世界各地的人們使用,我們就不會擁有思想份額、政策影響力以及爲我們未來的安全研究提供資金的收入,也無法擁有我們需要的影響力。所以,如果你從事產品工作,如果你從事金融工作,如果你從事食品工作,你知道,像這裡的人們必須吃飯一樣。如果你是廚師,我們需要各種各樣的人。
主持人: 太棒了。好的。所以即使你沒有直接在人工智能安全團隊工作,你也在對推動事情朝着正確的方向發展產生影響。順便說一句,X風險是存在風險的縮寫,以防有人沒聽過這個術語。好的。我有幾個關於這些方面的隨機問題,然後我想再次放大範圍。你提到了人工智能使用自身模型進行對齊的想法,比如自我強化。你們有一個術語叫RLAIF。那是描述這個的嗎?
Ben Mann: 是的。所以RLAIF是來自人工智能反饋的強化學習。
主持人: 好的。所以人們聽說過RLHF,即帶有人類反饋的強化學習。我認爲很多人都沒聽說過這個。談談你們在訓練模型方面所做的這種轉變的意義。
Ben Mann: 是的。所以RLAIF,憲法式人工智能,就是這樣一個例子,其中沒有人類參與,但人工智能卻以我們希望的方式進行自我提升。RLAIF的另一個例子是,如果你有模型編寫代碼,而其他模型評論該代碼的各個方面,例如,它是否可維護?它是否正確?它是否通過了代碼檢查器?諸如此類的事情。這些也可以包含在RLAIA中。這裡的想法是,如果模型可以自我改進,那麼它比找到大量人類更具可擴展性。最終,人們認爲這可能會遇到瓶頸,因爲如果模型不夠好以至於無法看到自己的錯誤,那麼它怎麼能改進呢?而且,如果你讀過AI 2027的故事,就會發現存在很多風險,比如,如果模型在一個盒子中試圖改進自己,那麼它可能會完全失控,併產生一些秘密目標,比如資源積累、權力尋租和抵抗關閉,而你絕對不希望在一個非常強大的模型中出現這些。實際上,我們在實驗室環境的一些實驗中已經看到了這一點。那麼,你如何進行遞歸式自我改進,並確保它同時是對齊的呢?我認爲這就是遊戲的名稱。
對我而言,最終歸結爲人類如何做到這一點,以及人類組織如何做到這一點?所以像公司可能就是當今規模最大的人類代理。它們有某些想要達成的目標,並且有某些指導原則。它們在股東、利益相關者和董事會成員方面受到一些監督。如何使公司保持一致,並能夠進行某種遞歸的自我改進?另一個值得借鑑的模式是科學,科學的目的是做以前從未做過的事情,並推進前沿。對我而言,這一切都歸結爲經驗主義。因此,當人們不知道真相是什麼時,他們會提出理論,然後設計實驗來驗證它們。類似地,如果我們能給模型提供同樣的工具,那麼我們可以期望它們在環境中進行某種遞歸的改進,並有可能比人類僅憑碰壁(或者我猜是隱喻意義上的碰壁)而變得更好。所以我想,如果我們能夠賦予模型實證能力,我不認爲它們在自我提升的能力方面會遇到瓶頸。我想,像Anthropic一樣,實證性已經深深地融入了我們的基因中。我們有很多物理學家,比如我們的首席研究官賈裡德,我和他合作過很多,他曾是約翰·霍普金斯大學黑洞物理學教授。我想從技術上講他現在仍然是,只是休假中。所以,是的,這在我們的基因中。是的,我想這就是RLAF(強化學習輔助函數)。
主持人: 所以,讓我繼續沿着這個瓶頸的話題講下去,這有點跑題,但就模型智能的提升而言,今天最大的瓶頸是什麼?
Ben Mann: 一個愚蠢的答案是數據中心和電源芯片。就像我認爲,如果我們擁有10倍數量的芯片,並且擁有爲它們供電的數據中心,那麼我們也許不會快10倍,但這將是一個非常顯著的速度提升。
主持人: 所以實際上很大程度上是規模化損失,僅僅是更多的計算。
Ben Mann: 是的,我認爲這是一個大問題。然後是人才,真的非常重要。就像我們有很棒的研究人員,他們中的許多人對模型改進方式的科學做出了非常重要的貢獻。所以就像是算力、算法和數據。這些是縮放定律中的三個要素。爲了使之更具體,比如在我們擁有Transformer之前,我們有LSTM,並且我們已經對這兩者的指數進行了縮放定律研究。我們發現對於Transformer來說,指數更高,並且進行類似的改變,隨着你增加規模,你也會增加榨取智能的能力。這些事情影響非常大。因此,擁有更多的研究人員,他們能夠進行更好的科學研究,並找出我們如何榨取更多收益,這是另一個方面。然後隨着強化學習的興起,這些東西在芯片上運行的效率也很重要。因此,我們已經在行業中看到,通過算法、數據和效率改進的結合,在給定的智能量下,成本降低了10倍。如果這種情況繼續下去,你知道,在3年內,我們將以相同的價格擁有智能1000倍的模型。有點難以想象。
主持人: 我忘了我在哪聽到的了,但令人驚奇的是,如此多的創新在同一時間彙集在一起,才使得這種事情成爲可能,並且能夠持續發展,而不是像我們缺少某種稀土礦物,或者我們無法進一步優化強化學習那樣,被單一因素拖慢整體進程。好像我們一直在發現改進之處,而且沒有哪個單一因素在拖慢整體進程,這真是太棒了。
Ben Mann: 是的,我認爲這確實是所有因素結合的結果。可能我們在某個時候會遇到瓶頸。就像我猜在半導體領域,我哥哥在半導體行業工作,他告訴我實際上你無法再縮小晶體管的尺寸了,因爲半導體的工作方式是用其他元素摻雜硅,而摻雜過程會導致單個鰭片內部只有零個或一個摻雜元素原子,因爲它們太、太、太小了。我的天啊。 想到這一點真是太瘋狂了。然而,摩爾定律仍然以某種形式延續着。所以,是的,人們開始遇到這些理論物理的限制,但他們正在尋找繞過它的方法。
主持人: 我們必須開始用平行宇宙來做一些事情了。我想是這樣。好的,我想拉遠鏡頭,只談談本。在我們開始她非常激動人心的閃電問答環節之前,先談談作爲人類的本。我想象着,感覺要爲安全超級智能負責的負擔是沉重的。感覺你正處在一個可以對安全和人工智能的未來產生重大影響的位置。這承載了巨大的重量。這對你個人,對你的生活,對你如何看待這個世界,有什麼影響?
Ben Mann: 我在2019年讀過一本書,它真的影響了我如何思考處理這些非常重要的話題,這本書叫做內特·蘇亞雷斯的《取代內疚》。他描述了很多不同的技巧來處理這類事情。他實際上是機器智能研究所(MIRI)的執行主任,這是一個人工智能安全智庫,我實際上在那裡工作了幾個月。他談到的一件事叫做運動中的休息,有些人認爲默認狀態是休息。但實際上,這從來都不是進化適應的狀態。我真的懷疑這是真的,在自然界,在荒野中,作爲狩獵採集者,我們不太可能進化到僅僅是休閒的狀態。大概總是要擔心保衛部落,尋找足夠的食物來生存,以及照顧孩子。
主持人: 還有處理——傳播我們的基因。
Ben Mann: 是的。所以我認爲這就像繁忙的狀態是正常狀態。並努力以可持續的節奏工作,這是一場馬拉松,而不是短跑。這是有幫助的一件事。然後就是和志同道合且關心此事的人在一起。這不是我們任何人可以獨自完成的事情。而且Anthropic擁有驚人的人才密度。我最喜歡我們這裡文化的一點是,它非常無私。人們只是希望事情朝着正確的方向發展。而且我認爲這是其他公司鉅額聘請往往失敗的另一個重要原因,因爲人們就是喜歡在這裡,並且他們關心這裡。
主持人: 太棒了。我不知道你是怎麼做到的。我會感到非常緊張。我要試試這種運動中休息的策略。好的,你從一開始就在Anthropic工作了很長時間。我讀到2020年的時候只有7名員工。今天有一千多名員工。我不知道最新的數字是多少,但我知道超過了一千。我還聽說你基本上在Anthropic做過所有的工作。你爲許多核心產品、品牌和團隊招聘做出了巨大貢獻。讓我問一下,我想,在那段時間裡變化最大的是什麼?比如,和最初的日子相比,最大的不同是什麼?在你這些年做過的所有工作中,你最喜歡哪一份?
Ben Mann: 老實說,我大概做過15個不同的職位。我有一段時間是安全主管。當我們的總裁休產假時,我管理運營團隊。我那時就像在桌子底下爬來爬去,插HDMI線,還在我們的大樓裡做滲透測試。我從零開始組建了我們的產品團隊,並說服了整個公司我們需要有一個產品,而不是僅僅是一家研究公司。所以,是的,經歷了很多。所有這些都非常有趣。我想那段時間我最喜歡的角色是大約一年前我開始領導的實驗室團隊,其根本目標是將研究成果轉化爲最終用戶產品和體驗。因爲從根本上講,我認爲Anthropic能夠脫穎而出並真正獲勝的方式在於站在最前沿。就像我們可以獲得正在發生的最新、最棒的東西一樣。我真誠地認爲,通過我們的安全研究,我們有一個巨大的機會去做其他公司無法安全地做的事情。例如,關於計算機的使用,我認爲這將是我們的巨大機會。基本上,要讓一個代理能夠使用你計算機上的所有憑據,就必須建立巨大的信任。對我來說,我們需要基本上解決安全問題,才能實現這一點,安全和對齊。所以我非常看好這類事情。我認爲我們將很快看到非常酷的東西出現。是的,領導那個團隊真是太有趣了。MCP出自那個團隊,雲代碼出自那個團隊。而且我僱傭的人,比如康博,既是創始人,也在大公司待過,見過大規模運作的方式。所以能和這樣一支卓越的團隊一起工作,一起探索未來,真是太棒了。
主持人: 實際上,我想更多地瞭解一下這個團隊。連接我們的人,也是我們做這件事的原因,是一位共同的朋友、同事,拉夫·李,我以前在愛彼迎和他一起工作,現在他就在這個團隊工作,領導着很多這方面的工作。所以他想讓我務必問一下這個團隊,因爲我沒有意識到所有這些東西都出自那個團隊。天啊。那麼人們還應該知道這個團隊的哪些事情呢?它以前被稱爲實驗室(Labs)。
Ben Mann: 我認爲現在它被稱爲前沿(Frontiers)。
主持人: 是的,沒錯。好的。所以這裡的想法是,這個團隊使用你們構建的最新技術,並探索可能性。這是總體思路嗎?
Ben Mann: 是的,我想我曾經是谷歌Area 120的一部分,並且我讀過關於貝爾實驗室以及如何使這些創新團隊運作的文章。做好這件事真的很難。我不會說我們已經把所有事情都做對了,但我認爲我們在公司設計的最新技術方面做了一些認真的創新。拉夫一直處於這件事的中心。當我第一次組建團隊時,我做的第一件事就是聘請一位優秀的經理,那就是拉夫。因此,他在團隊建設和幫助團隊良好運作方面絕對至關重要。我們定義了一些運營模式,例如從原型到產品的想法之旅,以及產品和項目應該如何畢業。團隊如何進行有效的衝刺模型,並確保他們正在從事正確的目標水平的事情。這真是令人興奮。我想具體來說,我們考慮的是滑向冰球將要到達的位置。其表現形式就是真正理解指數級增長。Meter做過一項很棒的研究,Beth Barnes是該機構的首席執行官,研究表明軟件工程任務的時間範圍可以有多長。真正地將其內化,比如,好吧,不要爲今天而構建,要爲六個月後構建,爲一年後構建。那些不太管用的東西,那些20%的時間管用的東西,將會開始100%的時間管用。我認爲這正是Cloud Code成功的原因。我們認爲,人們不會永遠被鎖定在他們的集成開發環境(IDE)中。人們不會進行自動補全。人們將做軟件工程師需要做的一切事情。
主持人: 並且終端是執行此操作的好地方,因爲終端可以存在於很多地方。
Ben Mann: 終端可以存在於你的本地機器上,可以存在於GitHub Actions中,可以存在於你的集羣中的遠程機器上。就像那是我們的槓桿點一樣。這也是很多靈感的來源。所以我認爲這就是實驗室團隊試圖思考的。我們的AGI含量足夠嗎?
主持人: 多麼有趣的地方啊。順便說一句,有趣的事實,當我加入Airbnb時,拉夫是我的第一任經理。我是一名工程師,他是我的第一任經理。一切都很順利。
八:終極問題與閃電問答
主持人: 是的。好的,在非常刺激的閃電提問環節之前,最後一個問題。我以前從未問過這個問題。我很好奇你的答案會是什麼。如果你可以問未來的通用人工智能(AGI)一個唯一的問題,並且保證得到正確的答案,你會問什麼?
Ben Mann: 我先說兩個愚蠢的答案,供大家一笑。首先,我喜歡阿西莫夫的一篇短篇小說,叫做《最後的問題》,故事中的主人公在歷史的各個時代都在試圖問這個超級智能,我們如何阻止宇宙的熱寂?我不會劇透結局,但這是一個有趣的問題。
主持人: 所以你會問它這個問題,因爲故事中的答案並不令人滿意嗎?
Ben Dnn: 好吧,我來揭曉答案。所以它一直說需要更多信息,需要更多計算。然後最終,當它接近宇宙的熱寂時,它說要有光,然後它重新啓動了宇宙。哇哦。所以這是第一個作弊答案。第二個作弊答案是,我能問你什麼問題來得到並解答更多的問題?經典。然後第三個答案,這也是我真正的問題是,我們如何確保人類在無限的未來持續繁榮?這正是我很想知道的問題。如果我可以保證得到一個正確的答案,那麼這個問題似乎非常有價值。
主持人: 我想知道如果你今天問很多關於這個問題的事情會發生什麼,以及在接下來的幾年裡答案會如何變化。
Ben Mann: 是的,也許我會試試。我會把它放到我們擁有的深度研究工具中,看看會得到什麼結果。
主持人: 好的,我很期待看到你能提出什麼。本,你還有什麼想提及的或者想留給聽衆的嗎?也許在我們進入一個非常激動人心的閃電提問環節之前,作爲最後的金玉良言。
Ben Mann: 是的,我想我想要強調的是,現在是非常瘋狂的時代。如果你覺得並不瘋狂,那你一定是與世隔絕了。但也要習慣它,因爲這就是常態。很快會變得更加奇怪。
主持人: 如果你能在精神上做好準備,我想你會過得更好。我要把這句話作爲本期節目的標題。很快會變得更加奇怪。我百分之百相信。我的天啊。我不知道未來會發生什麼。我喜歡你成爲一切的中心。接下來,我們進入非常激動人心的閃電問答環節。我爲你準備了5個問題。準備好了嗎?好的,開始吧。你最常向他人推薦哪兩到三本書?
Ben Mann: 第一本是我之前提到的,內特·索亞雷斯的《取代內疚》。我喜歡那本。第二本是理查德·魯梅爾特的《好戰略,壞戰略》。 只是以一種非常清晰的方式思考,你如何構建產品?這是我讀過的最好的戰略書籍之一。而且在很多方面,戰略都是一個難以思考的詞。然後最後一本是布萊恩·克里斯蒂安的《對齊問題》。 它真的深思熟慮地探討了我們所關心的,我們試圖在此解決的問題是什麼?在一個比超級智能更容易閱讀和理解的更新版本中,風險是什麼?
主持人: 我把《好戰略,壞戰略》放在我身後了。我想我會指一下它。就在那裡。很好。 而且我曾在播客中邀請過理查德·魯梅爾特,以防有人想直接聽他講。下一個問題。你最近有沒有特別喜歡的電影或電視劇?
Ben Mann: 《萬神殿》真的很棒。根據劉宇昆或特德·姜的故事改編。我想是劉宇昆。《超級好》討論瞭如果我們上傳了智能,這意味着什麼,以及它們的道德和倫理需求是什麼?《足球教練泰德》,表面上是關於足球的,但實際上是關於人際關係以及人們如何相處,超級暖心又有趣。
主持人: 還有,這不算電視劇,但我最喜歡的YouTube頻道是Kurzgesagt,它會講解隨機的科學和社會問題,做得非常好,製作也很精良。
Ben Mann: 我喜歡看那個。
主持人: 哇。沒聽說過。聽你這麼說,我覺得《足球教練泰德》,我覺得這就是你需要融入憲法人工智能的東西。像泰德·拉索那樣行事。是的。善良,聰明。
Ben Mann: 的確如此。勤奮。
主持人: 哦,我的天。就這樣。我想我們已經在這裡解決了對齊問題。儘快讓那些作者寫這個。好的。還有兩個問題。你有沒有一個最喜歡的人生格言,你經常在工作或生活中想起它?
Ben Mann: 嗯,一個非常蠢的格言是,你試過問克勞德了嗎?而且這種情況越來越普遍,最近我問了一個同事,比如,嘿,誰在做X?他們會說,我幫你用克勞德查一下。然後他們事後把鏈接發給我。我當時就想,哦,是的,謝謝。太好了。但或許更像一個哲學命題,我會說,一切都很艱難。只是爲了提醒我們自己,那些感覺應該很容易的事情,不容易也是沒關係的。有時你必須無論如何都要堅持下去。
主持人: 並在運動中休息,當你這樣做的時候。是的。最後一個問題。我不知道你是否想讓人們知道這個,但我瀏覽了你的Medium帖子,你有一篇帖子叫做“像冠軍一樣排便的五個技巧”。我喜歡。你能分享一個像冠軍一樣排便的技巧嗎?如果你記得你的建議。
Ben Mann: 我當然記得。實際上它是我最受歡迎的Medium帖子。
主持人: 所以這是一個很棒的標題。
Ben Mann: 我想也許我最大的建議是使用坐浴盆。它太棒了。它改變了生活。它太好了。有些人有點被它嚇到。它在日本等國家是標準配置。而且我認爲這就像更文明的方式,在10或20年後,人們會覺得,你怎麼能不用它呢?
主持人: 嗯,是的。還有,坐浴盆可以像日本的廁所。那是同一思路,對吧?是的。好的。我很喜歡我們這次談話的方向。本,這次太棒了。非常感謝你來做這次訪談。非常感謝你分享這麼多真誠的對話。最後兩個問題。如果有人想聯繫你,可以在哪裡找到你的在線信息?也許可以去Anthropic工作。聽衆能如何對你有所幫助?
Ben Mann: 你可以在benjaman.net上找到我。在我們的網站上,我們有一個很棒的招聘頁面,我們正在努力使其更容易訪問和理解。但絕對可以用點雲來分析它,它可以幫助你弄清楚什麼對你來說可能是有趣的。
主持人: 聽衆能如何對我有所幫助?
Ben Mann: 我認爲要讓自己服用安全藥丸。這是最重要的事情。並將其傳播到你的網絡中。我認爲,就像我說的,很少有人在做這件事,但它非常重要。所以,是的,認真思考一下,試着去看看它。
主持人: 感謝你傳播福音,本。非常感謝你的到來。
Ben Mann: 非常感謝,萊尼。再見,各位。