Anthropic聯合創始人:AI的“擴展法則”與通往人類級智能的可預測之路 | 附全文1.5萬字+視頻

文: Web3天空之城 | 未經許可不得轉載

[城主說] 在人工智能飛速發展的浪潮中,我們常常將其進步歸因於研究人員的靈光一現或算法的神秘突破。但如果真相併非如此呢?如果AI能力的提升,實際上遵循着一套如物理定律般精確、可預測的法則呢?這正是Anthropic聯合創始人、前理論物理學家賈裡德·卡普蘭(Jared Kaplan)在此次YC的AI創業學院的最新研究訪談中爲我們揭示的。他認爲,當代AI革命的真正引擎,是被稱爲“擴展法則”(Scaling Laws)的現象——通過系統性地增加計算、數據和模型規模,我們正在一條清晰且可預測的道路上,穩步邁向人類水平的通用人工智能。

核心觀點摘要

對於一位職業生涯大部分時間沉浸在理論物理學中的科學家而言,轉向人工智能似乎是一次巨大的跨越。但對賈裡德·卡普蘭來說,這背後是一以貫之的探索精神——尋找並理解我們周圍世界最宏大的趨勢。正如他所說,促使他投身物理學的,是少年時“想弄清楚我們是否可以建造一個超光速驅動器”的科幻夢想。而促使他最終全身心投入AI的,則是在物理學多個領域感到進展放緩時,對一個新領域底層規律的好奇。

起初,卡普蘭對AI持懷疑態度,直到他開始用物理學家的思維方式提出那些“最愚蠢、最簡單的問題”。“我聽說在2010年代,大數據很重要,所以我只是想知道數據應該有多大?它有多重要?” 同樣,“很多人注意到更大的AI模型表現更好,所以我們只是問了一個問題,這些模型表現得好多少?”

正是這些看似天真的問題,引導他和團隊發現了AI領域最深刻的秘密之一:擴展法則。他們震驚地發現,AI模型的性能提升並非隨機或偶然。無論是在其學習人類語言模式的“預訓練”階段,還是在通過反饋學習執行有用任務的“強化學習”階段,其進步都遵循着精確且可預測的規律。

“我們發現AI訓練實際上有一些非常、非常、非常精確和令人驚訝的底層規律,” 卡普蘭強調,“這些趨勢像你在物理學或天文學中看到的任何東西一樣精確,這給了我們很大的信心,相信AI會以一種非常可預測的方式變得越來越聰明。” 早在2019年,他們就觀察到,在計算量、數據集大小和模型參數這三個維度上,性能的提升曲線跨越了數個數量級,呈現出驚人的線性關係。這一發現,成爲了卡普蘭眼中AI進步的根本原因。

擴展的前沿:從幾分鐘到幾個月,不斷延伸的任務時間跨度

如果說擴展法則是AI進步的引擎,那麼其最直觀的體現,就是AI能夠處理的任務複雜度在不斷延伸。卡普蘭提出了一個極富洞察力的衡量維度:任務的時間跨度,即一個普通人完成AI所能處理的任務所需的時間。

他引用了METER組織的一項系統性研究,該研究發現了另一個驚人的擴展趨勢。“他們發現,如果你觀察人工智能模型可以完成的任務的長度,它大約每7個月翻一番。” 這意味着,AI正從只能完成需要數分鐘的簡單任務(如文本摘要),穩步邁向能夠處理需要數小時的複雜任務(如編寫和調試一段功能代碼)。

將這條曲線向前推演,一幅激動人心又引人深思的圖景便浮現出來。“這種圖景表明,在未來幾年,我們可能會達到一個臨界點,即人工智能模型可以完成的任務不僅需要我們幾分鐘或幾小時,還需要幾天、幾周、幾個月、幾年等等。” 卡普蘭設想,最終,由數百萬個AI模型組成的協同系統,將能夠完成今天需要整個人類組織、甚至整個科學界才能完成的工作。“你可以想象人工智能系統協同工作,在幾天、幾周等時間內取得理論物理界大約50年才能取得的進展。”

通往人類級智能的三大支柱

儘管擴展法則描繪了一條清晰的道路,但要實現廣泛意義上的人類級AI(AGI),僅僅“轉動曲柄”是不夠的。卡普蘭明確指出了當前模型與未來理想形態之間的三個關鍵差距,它們是通往更高級智能必須搭建的三大支柱。

第一,是知識(Knowledge)。未來的AI不能再是一個“空白狀態”的通用工具,它需要被賦予特定領域的組織知識。“我們需要訓練人工智能模型,它們可以學習在公司、組織、政府內部工作,彷彿它們擁有在那裡工作多年的員工所擁有的那種背景知識。”

第二,是記憶(Memory)。這與知識不同,它特指在執行一個超長週期的複雜任務時,追蹤特定進展、建立相關上下文並隨時調用的能力。這是實現從“小時級”任務跨越到“周級”或“月級”任務的核心技術瓶頸。

第三,是監督(Supervision)。目前,AI在有明確對錯標準的任務(如編程測試、數學解題)上進步神速,因爲強化學習的信號非常清晰。但要讓AI掌握更高級的人類智慧,就需要更精細的監督能力。“我們需要並且正在開發的,是利用AI模型幫助我們生成更細微的獎勵信號,以便我們可以利用強化學習來做一些事情,比如講好笑話、寫好詩,並在研究方面有良好的品味。”

新協作範式:作爲“管理者”的人類

在AI能力日益強大的今天,人類的角色將如何演變?卡普蘭給出了一個清晰的定位。他認爲,AI智能形態與人類智能的一個根本不同在於,AI的判斷能力和生成能力更爲接近。這意味着,它在能夠出色完成任務的同時,也可能犯下人類看來非常低級的錯誤。

因此,在當前階段,人機協作的最佳模式並非簡單的“副駕駛”。“我認爲人們在與人工智能交互中可以發揮的主要作用,是充當一名管理者,來對AI完成的工作進行理智地檢查(sanity check)。” 這種模式在YC的創業公司中也得到了印證:早期產品多爲“副駕駛”,需要人類最終批准;而現在,越來越多的產品開始提供端到端的工作流替代方案,但這背後依然隱含着人類在更高層面的監督和管理。

卡普蘭相信,隨着AI可靠性的提升,完全自動化的任務會越來越多。“但我確實認爲,從長遠來看,人機協作將是最有趣的地方,因爲對於最前沿的任務,你真的需要在環中有人。” 特別是在需要整合大量跨領域知識的研究中,AI的廣度(吸收了人類文明的所有知識)與人類專家的深度相結合,將爆發出巨大的潛力。

給建設者的忠告:在能力邊界上構建未來

對於所有身處這場技術浪潮中的開發者、創業者和投資者,卡普蘭鼓勵大家大膽擁抱不確定性,在技術的最前沿進行實驗。“我認爲構建一些尚未完全奏效的東西是個非常好的主意,” 他解釋道,“因爲AI模型正在非常非常迅速地變得更好……你可以預期會出現一個新版本的模型,它將使你的產品發揮作用並提供大量價值。”

其次,要善於利用AI本身來加速AI的集成。當前AI發展的一大瓶頸是,技術進步的速度超過了其在各行各業的落地速度。“利用人工智能進行人工智能整合將會非常有價值,” 這就像電力革命早期,真正的變革並非用電動機取代蒸汽機,而是重塑整個工廠的運作方式。

最後,關於價值的分佈,卡普蘭傾向於認爲,儘管廉價模型能完成大量簡單任務,但真正的顛覆性價值將集中於能力最強的“前沿模型”。這背後是經典的“傑文斯悖論”——技術效率的提升,反而會增加對該技術(尤其是最高效形態)的總需求。“能夠使用一個可以端到端完成非常複雜任務的AI模型,而不是要求我們人類來協調一個更笨的模型……會方便得多。所以,我確實期望很多價值將來自最強大的模型。”

天空之城全文整理版 從物理學到AI:擴展法則的發現之旅

賈裡德: 大家好,我是賈裡德·卡普蘭。我將簡要地談談擴展以及通往人類水平人工智能的道路,但我想對於在座的各位來說,很多這些想法都相當熟悉,所以我將盡量簡短,然後我們將與戴安娜進行一次爐邊談話式的問答。實際上我只從事人工智能方面的工作大約六年。在此之前,我從事了一段漫長的職業生涯。我職業生涯的絕大部分時間都是作爲一名在學術界工作的理論物理學家,那麼我是如何接觸到人工智能的呢?好吧,我想盡量簡短。

我爲什麼開始從事物理學呢?這基本上是因爲我媽媽是一位科幻小說作家,我想弄清楚我們是否可以建造一個超光速驅動器,而物理學是實現這一目標的途徑。我也非常興奮地想了解宇宙,事物是如何運作的,我們周圍所看到的一切背後的最大趨勢是什麼,這一切來自哪裡?例如,宇宙是確定性的嗎?我們有自由意志嗎?我對所有這些問題都非常非常感興趣,但幸運的是,在我作爲物理學家的職業生涯中,我遇到了很多非常非常有趣、非常深刻的人,包括我現在一直合作的Anthropic的許多創始人,我真的對他們所做的事情很感興趣,我一直在關注它,並且當我從物理學中不同的學科領域,從大型強子對撞機物理學、粒子物理學、宇宙學、弦理論等等,我感到有點沮喪,有點無聊。我覺得我們進展不夠快,很多朋友告訴我人工智能正在變得非常重要,但我並不相信他們。我真的很懷疑。我想,好吧,人工智能,人們已經研究了50年了。支持向量機(SVMs)沒有那麼令人興奮。那是2005年、2009年我在學校時我們所知道的全部,但我確信人工智能可能是一個令人興奮的領域,我很幸運地認識了合適的人,剩下的就是歷史了。

接下來我會稍微談談我們當代人工智能模型是如何工作的,以及擴展如何使它們變得越來越好。因此,像Plod、ChatGPT等當代人工智能模型的訓練實際上有兩個基本階段。第一階段是預訓練,我們在預訓練階段訓練人工智能模型來模仿人類書寫的數據、人類書寫的文本,並理解這些數據的基礎關聯性,這些圖表非常非常復古。這實際上是最初GPT-3模型的遊樂場,你可以看到,作爲期刊俱樂部的發言人,你可能會慫恿我說某些話。句子中的“大象”這個詞非常非常不可能出現。預訓練所做的是教會模型在大規模語料文本中哪些詞可能跟在其他詞之後,現在對於當代模型來說,還包括多模態數據。

當代人工智能模型的第二階段訓練是強化學習。這又是一張非常復古的幻燈片。它展示了我們在2022年那個古老年代,收集反饋數據時,用於Plod 0或Plod負1的原始界面。你在這裡看到的是與非常、非常早期版本的Plod進行對話的界面,並根據你、衆包工人等的說法,選擇Plod的哪個回覆更好,並使用該信號,我們優化、我們強化那些被選擇爲良好、被選擇爲有幫助、誠實和無害的行爲。我們阻止那些不好的行爲,所以訓練這些模型的所有內容實際上就是學習預測下一個詞,然後進行強化學習來學習執行有用的任務,並且事實證明,這兩個訓練階段都有縮放定律。

這是我們五六年前製作的一張圖,它顯示了當你擴大人工智能的預訓練階段時,我們的模型會如何可預測地獲得越來越好的性能,而這件事情的出現是因爲我只是問了最愚蠢的問題。作爲一名物理學家,你就是被訓練來做這件事的。你會觀察大局,然後問一些非常愚蠢的問題。我聽說在2010年代,說大數據很重要,所以我只是想知道數據應該有多大?它有多重要?它有多大幫助?同樣地,很多人注意到更大的AI模型表現更好,所以我們只是問了一個問題,這些模型表現得好多少?我們真的很幸運。我們發現AI訓練實際上有一些非常、非常、非常精確和令人驚訝的底層規律。這真的讓我們震驚,因爲這些趨勢非常棒,而且像你在物理學或天文學中看到的任何東西一樣精確,這些給了我們很大的信心,相信AI會以一種非常可預測的方式變得越來越聰明,因爲正如你在這些圖中看到的,早在2019年,我們就在計算量、數據集大小和神經網絡大小方面,跨越了許多、許多、許多數量級,所以我們預計,一旦你看到某件事在許多、許多、許多數量級上都是正確的,你就會期望它在更長的時間內繼續保持正確。

因此,這在某種程度上是我認爲AI改進的根本原因之一。另一個實際上也是很久以前就開始出現的事情,儘管它在過去幾年裡變得非常、非常具有影響力,那就是你可以在AI訓練的強化學習階段看到規模法則。因此,大約4年前,一位研究人員決定研究AlphaGo的擴展法則,基本上是將兩個非常非常引人注目的AI成功案例,GPT-3和預訓練的擴展以及AlphaGo結合在一起。這只是一位研究人員,安迪·瓊斯,靠自己研究,用他自己的,我想,也許是當時那些古老日子裡的單GPU。因此,他無法研究AlphaGo,那太昂貴了,但他可以研究一種更簡單的遊戲,叫做Hex。所以他製作了你在這裡看到的這張圖。現在,ELO分數,我想,那時還不那麼廣爲人知,但所有ELO分數,當然,都是國際象棋等級分。它們基本上描述了一位玩家在國際象棋遊戲中擊敗另一位玩家的可能性有多大。它們現在被用來對AI模型進行基準測試,以瞭解人類更喜歡一個AI模型而不是另一個模型的頻率。但在當時,這只是ELO分數作爲國際象棋等級分的經典應用。他觀察到,當你訓練不同的模型來玩Hex這款遊戲時(這是一款非常簡單的棋盤遊戲,比圍棋簡單一點),它們的表現如何?他看到了這些顯著的直線。因此,在科學上,注意到非常非常簡單的趨勢是一種技能。這就是其中之一。我認爲這沒有引起注意。我認爲人們沒有足夠早地關注強化學習中這種規模化行爲,但最終它還是發生了。所以我們基本上看到,你可以擴大預訓練和強化學習中的計算規模,並獲得越來越好的性能。而且我認爲這是推動人工智能進步的根本原因。並不是因爲人工智能研究人員真的很聰明,或者他們突然變得聰明瞭。而是我們找到了一種非常非常簡單的方法,可以系統地改進人工智能,而我們正在轉動這個曲柄。

那麼,這正在解鎖哪些能力呢?我傾向於從兩個維度來考慮人工智能的能力。我認爲不那麼令人感興趣的一個維度,但它仍然非常重要,基本上就是人工智能的靈活性,人工智能適應我們的能力。所以,如果你把,比如,AlphaGo放在這張圖上,它會遠低於x軸,因爲雖然AlphaGo超級智能,它在圍棋方面比任何圍棋選手都強,但它只能在圍棋棋盤的宇宙中運行。但自從大型語言模型出現以來,我們取得了穩步進展,使得人工智能能夠處理人們能夠處理的許多、許多、許多、所有的模態。我認爲,我們還沒有具有嗅覺的人工智能模型,但這可能即將到來。因此,當你沿着這裡的y軸向上移動時,你會得到可以在世界上做越來越多相關事情的人工智能系統。

不過,我認爲更有趣的軸是這裡的x軸,即人們完成人工智能模型可以完成的這類任務所需的時間。隨着我們提高人工智能的能力,這個時間一直在穩步增加。這有點像是任務的時間範圍。有一個名爲METER的組織對這個問題進行了非常系統的研究,並發現了另一個規模擴展趨勢。他們發現,如果你觀察人工智能模型可以完成的任務的長度,它大約每7個月翻一番。因此,這意味着通過擴展用於預訓練和強化學習的計算能力,人工智能中嵌入的智能正在導致人工智能模型可以完成的可預測的、有用的任務,包括越來越長時間範圍的任務。因此,你可以推測一下這會走向何方,在“人工智能2027”中,人們確實這樣做了。這種圖景表明,在未來幾年,我們可能會達到一個臨界點,即人工智能模型可以完成的任務不僅需要我們幾分鐘或幾小時,還需要幾天、幾周、幾個月、幾年等等。最終,我們設想人工智能模型,或者可能是數百萬個人工智能模型協同工作,將能夠完成整個人類組織可以做的工作。它們將能夠完成整個科學界目前所做的那種工作。數學或理論物理的美妙之處在於,你只需思考就能取得進展。因此,你可以想象人工智能系統協同工作,在幾天、幾周等時間內取得理論物理界大約50年才能取得的進展。

如果這種規模化的圖景能帶我們走得很遠,那麼還剩下什麼?還剩下什麼?我認爲,爲了廣泛地解鎖人類級別的人工智能,可能剩下的東西相對簡單。我認爲,最重要的要素之一是相關的組織知識。因此,我們需要訓練人工智能模型,它們不僅僅以空白狀態迎接你,而且可以學習在公司、組織、政府內部工作,彷彿它們擁有在那裡工作多年的員工所擁有的那種背景知識。所以我認爲人工智能模型需要能夠運用知識。它們也需要記憶。如果知識不是記憶,那記憶又是什麼呢?我區分它的意義在於,當你在做一個需要花費非常非常長時間的任務時,你需要跟蹤你在該特定任務上的進展。你需要建立相關的記憶,並且需要能夠使用它們。這就是我們已經開始構建到第四象限中的東西,我認爲它將變得越來越重要。第三個我認爲我們需要改進並且正在取得進展的要素是監督,即人工智能模型理解細微差別、解決困難且模糊任務的能力。因此,現在當我們看到進展的爆發時,很容易訓練人工智能模型來說編寫可以通過測試的代碼,或者正確地回答數學問題,因爲什麼是正確的,什麼是不正確的非常明確。因此,很容易應用強化學習,使人工智能模型在這些類型的任務中做得越來越好。但我們需要並且正在開發的是人工智能模型,它可以幫助我們生成更細微的獎勵信號,以便我們可以利用強化學習來做一些事情,比如講好笑話、寫好詩,並在研究方面有良好的品味。

我認爲我們需要的其他要素更簡單。我們顯然需要能夠訓練人工智能模型來完成越來越複雜的任務。我們需要從文本模型逐步提升到多模態模型,再到機器人。我預計在未來幾年,當應用於這些不同領域時,我們將看到規模化帶來的持續增長。

那麼我們應該如何爲這個未來,這些可能性做好準備呢?我認爲有幾件事我總是推薦。首先,我認爲構建一些尚未完全奏效的東西是個非常好的主意。這可能一直都是個好主意。我們總是要有雄心壯志。但我認爲特別地,現在的人工智能模型正在非常非常迅速地變得更好。而且我認爲這種情況會持續下去。這意味着,如果你開發了一個產品,由於四核4.0仍然有點笨拙而不能完全發揮作用,你可以預期會出現一個四核5.0,它將使該產品發揮作用並提供大量價值。所以我認爲我總是推薦的是,在人工智能能力邊界上進行某種實驗,因爲這些邊界正在迅速移動。

我認爲下一點是,人工智能將有助於人工智能的整合。我認爲人工智能的主要瓶頸之一實際上是,它發展得太快了,以至於我們沒有時間將其整合到產品、公司、我們所做的其他一切以及科學中。因此,我認爲爲了加快這一進程,利用人工智能進行人工智能整合將會非常有價值。

最後,我的意思是,我認爲這對在座的各位來說是顯而易見的,但弄清楚人工智能在何處能夠非常、非常迅速地被採用是關鍵。我們看到人工智能在編碼集成方面出現了爆炸式增長,而且有很多理由說明軟件工程是人工智能的好去處。但我認爲,關鍵問題是接下來會發生什麼?除了軟件工程之外,還有什麼能夠如此迅速地增長?當然,我不知道答案,但希望你們能搞清楚。

演講就到這裡。我想邀請黛安娜上臺聊聊。

爐邊對話:Claude 4、人機協作與未來機遇

主持人: 這是一個關於所有規模法則的精彩演講。最近,Anthropic剛剛發佈了Claude 4,現在可以使用了。好奇的是,隨着所有這些模型版本的發佈在未來12個月內不斷累積,它將如何改變可能實現的事情?

賈裡德: 我認爲,如果12個月後纔出現更好的模型,我們會有麻煩的。但我想Claude 4有一些改進。我認爲對於Claude 3.7 Sonnet來說,使用3.7進行編碼已經非常令人興奮了。但我想每個人都注意到的是,3.7有點過於積極。有時它真的非常想讓你的測試通過,然後會做一些你並不真正想讓它做的事情。有很多類似try-except語句之類的東西。所以對於Claude 4,我認爲我們已經能夠提高模型作爲代理(特別是針對編碼)的能力,而且在搜索、各種其他應用等很多其他方面也有所提高。同時也改進了它的監管能力,就是我在演講中提到的那種監督,以便它遵循你的指示,並有望提高代碼質量。

我認爲我們所做的另一件事是提高它保存和存儲記憶的能力。我們希望看到人們利用這一點,因爲Claude 4可以在非常複雜的任務中超出其上下文窗口的限制,但也可以將記憶存儲爲文件或記錄,並檢索它們,以便在許多、許多上下文窗口中繼續工作。

但我想最後,我認爲規模法則所描繪的圖景是一種漸進式進步。所以我認爲你將在Claude中看到的是,隨着每次發佈,它在許多不同的方面都在穩步改進。但我認爲,擴展實際上暗示了一種平滑的曲線,朝着我所期望的那種人類水平的人工智能或通用人工智能發展。這裡有很多觀衆會爲此感到興奮的特殊功能嗎?

主持人: 您可以提供一些測試版,一些alpha泄露,讓大家瞭解您認爲人們會喜歡的新API的哪些方面。

賈裡德: 我認爲我最興奮的事情是解鎖越來越長的任務時間跨度。我認爲隨着時間的推移,我們將看到Claude作爲一個可以承擔越來越大的工作量的協作者。

主持人: 這就是您所說的,所有這些未來的模型都能夠承擔越來越大的任務。現在,它們能夠完成以小時爲單位的任務了嗎?

賈裡德: 是的,我認爲是這樣。我認爲這是一個非常不精確的衡量標準。但我想現在,如果你看看軟件工程任務,我認爲Meter確實對人們完成各種任務所需的時間進行了基準測試。是的,我認爲這是以小時爲單位的時間尺度。我認爲就像人們廣泛地使用人工智能一樣,我對人工智能持懷疑態度的人會正確地說,人工智能會犯很多愚蠢的錯誤。它可以做一些絕對精彩並讓你感到驚訝的事情,但它也可能犯一些基本錯誤。我認爲人工智能的一個基本特徵,即人工智能的形態與人類智能的不同之處在於,有很多事情我做不了,但我至少可以判斷它們是否做得正確。我認爲對於人工智能來說,判斷與生成能力更爲接近,這意味着我認爲人們在與人工智能交互中可以發揮的主要作用是充當管理者來理智地檢查工作。

主持人: 這非常有趣,因爲我們在YC去年的批次中觀察到的一件事是,很多公司在推出和銷售產品時,仍然更多地將其作爲副駕駛來銷售,比如你會有一個客戶支持的副駕駛,在你發送給客戶回覆之前,仍然需要最後的人工批准。但我認爲僅在春季批次中就發生了一件事變化,我認爲很多AI模型非常有能力端到端地完成任務,正如你所說,這非常了不起。創始人現在直接銷售完全工作流程的替代品。你如何看待這轉化爲你希望這裡的聽衆構建的東西?

賈裡德: 我認爲有很多可能性。基本上,這是一個關於什麼程度的成功或表現是可以接受的問題。有些任務達到大約70%的正確率就足夠了,而另一些任務則需要達到99.9%才能部署。我認爲老實說,我認爲爲70-80%就足夠的使用案例構建可能更有趣,因爲那樣你才能真正觸及人工智能能力的邊界。但我認爲我們也在努力提高可靠性。我認爲我們將看到越來越多的這類任務。我認爲目前,人機協作將是最有趣的地方,因爲我認爲對於最先進的任務,你真的需要在環中有人。但我確實認爲,從長遠來看,會有越來越多的任務可以完全自動化。

主持人: 你能詳細說說你認爲在這種人與人工智能循環協作中,世界會是什麼樣子嗎?因爲達里奧的《愛與恩典的機器》一文描繪了一幅非常樂觀的圖景。我們如何通過這個循環實現這一目標,具體細節是什麼?

賈裡-德: 我認爲我們已經看到一些這樣的情況發生了。至少當我和在生物醫學研究領域工作的人交談時,通過適當的協調,我認爲現在有可能利用前沿人工智能模型,爲藥物發現等領域產生有趣且有價值的見解。所以我認爲這已經開始發生了。我想其中一個我思考過的方面是,有些智能需要大量的深度,而有些智能需要大量的廣度。例如,在數學中,你可以花十年時間來試圖證明一個定理,比如黎曼猜想或費馬大定理。我認爲這有點像解決一個非常具體、非常困難的問題。我認爲在很多科學領域,可能在生物學中更多,也許有趣的是在心理學或歷史學中,將非常非常大量的、來自許多不同領域的信息整合起來纔是關鍵。我認爲人工智能模型在預訓練階段吸收了人類文明的所有知識。因此,我懷疑利用人工智能的這種特性,即它比任何一位人類專家知道得多得多,可以收穫很多成果。因此,你可以通過整合許多不同的專業領域,比如在生物學領域,來獲取研究的見解。

所以我認爲我們在使人工智能更擅長更深層次的任務方面取得了很大進展,比如解決硬編碼問題,解決困難的數學問題。但我懷疑在某些領域存在特殊的懸而未決的問題,在這些領域,整合可能沒有人類專家擁有的知識,這種智能非常有用。所以我認爲這是我期望看到的更多的事情,即利用人工智能的知識廣度。

至於它將如何具體展開,我真的不知道。預測未來真的非常非常困難。規模法則爲你提供了一種預測未來的方法,它表明這種趨勢將會持續下去。我認爲我們從長遠來看看到的很多趨勢,我期望它們會繼續下去。我的意思是,經濟、國內生產總值,這些類型的趨勢是真正可靠的未來指標。但我認爲就細節而言,事情將如何實施,我認爲這真的非常非常難說。

主持人: 你認爲是否有更多開發者可以進入並使用這些新模型構建的具體領域?我的意思是,對於編碼任務,已經完成了很多工作。但是,有哪些任務具有更多的新領域,並且正在被當前的模型解鎖?

賈裡德: 我來自研究背景,而不是商業背景。所以我不知道我有什麼特別深刻的見解。但我認爲總的來說,任何需要大量技能的地方,並且這項任務主要涉及坐在電腦前,與數據交互。我認爲金融行業,那些經常使用Excel表格的人。我認爲我期望法律行業也會受到影響,儘管也許法律行業受到更多的監管,需要更多的專業知識作爲認可。但我認爲所有這些領域都可能是新領域。我認爲我提到的另一點是,我們如何將人工智能整合到現有業務中?我認爲,當電力出現時,有一個很長的採用週期。而且,比如說,使用電的最早、最簡單的方式不一定就是最好的。你想要的不僅僅是用電動機來取代蒸汽機。你想要某種程度上重塑工廠的運作方式。而且我認爲,儘可能快地利用人工智能將其整合到經濟的各個部分,我預計這裡面蘊藏着巨大的潛力。

主持人: 現在,另一個問題是,你接受過廣泛的物理學訓練,而且你是最早真正觀察到這種規模法則趨勢的人之一。這可能源於你是一名物理學家,並且看到了自然界中自然發生的所有這些指數現象。這種訓練對於你在人工智能領域進行世界一流的研究有何幫助?

賈裡德: 我認爲從物理學的角度來看,有用的地方在於尋找最大的圖景,最宏觀的趨勢,然後試圖使它們儘可能精確。所以,我記得遇到過一些傑出的人工智能研究人員,他們會說諸如“學習正在呈指數級收斂”之類的話。我只會問一些非常愚蠢的問題,比如,你確定它是指數級的嗎?這會不會僅僅是冪律?它是二次的嗎?這東西到底是如何收斂的?而且這是一個非常愚蠢、簡單的問題。但基本上,我認爲在儘可能精確地把握你所看到的大趨勢方面,有很多成果可以摘取,而且可能仍然有很多。因爲那會給你提供很多工具,我不知道。它允許你問,真正推動變革意味着什麼?我認爲對於縮放定律,最重要的目標是找到一個更好的縮放定律斜率。因爲這意味着當你投入更多的計算資源時,你將比其他AI開發者獲得越來越大的優勢。但在你精確地把握你所看到的趨勢之前,你不知道擊敗它到底意味着什麼,你能擊敗它多少,以及如何系統地知道你是否實現了這個目標。所以,我認爲這些就是我使用的工具。不一定非得字面上地應用,比如說,量子場論到人工智能。我認爲這有點太具體了。

主持人: 那麼,是否存在特定的物理學啓發法,比如重整化、對稱性,在持續觀察或測量這個趨勢時,能派上大用場?

賈裡德: 如果你觀察人工智能模型,你會發現它們很大。神經網絡很大。它們有數十億,現在是數萬億的參數。這意味着它們是由大型矩陣構成的。基本上,研究神經網絡非常大情況下的近似值,特別是組成神經網絡的矩陣很大的情況,實際上是很有用的。這實際上是物理學和數學中一種衆所周知的近似方法。那是已經被應用的東西。但我認爲,總的來說,提出非常天真、愚蠢的問題能讓你走得很遠。我認爲人工智能,在某種意義上,就我們訓練人工智能模型的當前形式而言,實際上可能只有10到15年的歷史。這意味着這是一個非常新的領域。很多最基本的問題還沒有得到解答,比如可解釋性問題,人工智能模型究竟是如何運作的。所以,我認爲在這個層面有很多東西要學習,而不是應用非常、非常花哨的技術。

主持人: 你會應用物理學中的特定工具來進行可解釋性研究嗎?

賈裡德: 我會說,可解釋性更像是生物學。它更像是神經科學。所以,我認爲這些是相關的工具。那裡還有更多的數學知識,但我認爲它更像是試圖理解大腦的特徵。人工智能相對於神經科學的優勢在於,你可以真正測量人工智能中的一切。你無法測量大腦中每個神經元、每個突觸的活動,但你可以在人工智能中做到這一點。因此,有更多、更多的數據可用於逆向工程,以瞭解人工智能模型是如何工作的。

主持人: 現在,關於縮放定律的一個方面是,它們在超過五個數量級上都成立,這太瘋狂了。這是一個有點反常的問題,但什麼樣的經驗跡象會讓你相信曲線正在改變,也許我們正在脫離曲線?

賈裡德: 我認爲這是一個非常難的問題,對吧,因爲我主要使用縮放定律來診斷人工智能訓練是否中斷。所以,我認爲一旦你看到一些東西,並且你發現它非常吸引人,它就會變得非常、非常有趣,可以用來檢查它在哪裡失效。但我認爲我的第一反應是,如果縮放定律失效,那是因爲我們在某種程度上搞砸了人工智能訓練。也許我們弄錯了神經網絡的架構,或者訓練中存在我們看不到的瓶頸,或者我們使用的算法的精度存在一些問題。所以,我認爲至少要花很多功夫才能說服我,至少在這些經驗法則的層面上,擴展不再有效,因爲在過去5年的經驗中,很多時候,當擴展似乎失效時,那是因爲我們做錯了。

主持人: 有意思。所以,我想接下來要談論一個非常具體的、緊密相關的問題,那就是保持這條曲線持續發展所需的巨大計算能力。當計算資源變得更加稀缺時會發生什麼?你會深入到精度階梯的哪個層次?你們是否探索像FP4這樣的技術?你們是否探索像三元表示這樣的技術?你對此有什麼看法?

賈裡德: 是的。我認爲現在人工智能非常低效,因爲人工智能蘊含着巨大的價值。因此,解鎖最強大的前沿模型具有巨大的價值。因此,像Anthropic這樣的公司以及其他公司都在儘可能快地行動,以提高人工智能訓練和人工智能推理的效率,並解鎖前沿能力。但很多重點實際上在於解鎖前沿。我認爲隨着時間的推移,隨着人工智能變得越來越普及,我認爲我們將真正大幅降低推理和訓練的成本,與我們現在的水平相比。我的意思是,目前,我們看到算法上以及在擴大計算規模和每年推理效率方面,都有大約3倍到10倍的增長。我猜這個笑話是,我們將讓計算機回到二進制時代。所以,我認爲隨着時間的推移,我們將看到更低得多的精度,這是使推理更有效率的衆多途徑之一。

但總的來說,我們目前在人工智能發展方面非常、非常、非常不平衡。人工智能正在非常迅速地改進。事物正在非常迅速地變化。我們還沒有完全實現當前模型的潛力,但我們正在解鎖越來越多的能力。所以,我認爲人工智能變化不那麼快時的平衡狀態看起來像是人工智能極其廉價。但很難知道我們是否會到達那個狀態。比如,人工智能可能會越來越快地變得更好,以至於智能方面的改進會釋放出更多的潛能。因此,我們可能會繼續關注這一點,而不是專注於將精度降至FP2。這非常符合傑文斯悖論。

主持人: 隨着智能變得越來越好,人們會越來越想要它。這並不是在降低成本,這就是諷刺之處,對吧?

賈裡德: 是的,我們肯定已經看到,在某些時候,人工智能變得足夠容易獲得。也就是說,我認爲隨着人工智能系統變得越來越強大,能夠完成我們越來越多的工作,爲前沿能力付費是值得的。所以,我認爲我一直有並且將繼續有的一個問題是,所有的價值都在前沿嗎?或者說,在那些沒那麼強大但更便宜的系統中,是否存在大量的價值?而且我認爲這種時間跨度的圖景可能是一種思考方式。我認爲你可以做很多非常簡單的、小塊的任務,但我認爲能夠使用一個可以端到端完成非常複雜任務的AI模型,而不是要求我們人類來協調一個更笨的模型,將任務分解成非常非常小的片段並將它們組合起來,會方便得多。所以,我確實期望很多價值將來自最強大的模型,但我可能是錯的。這可能取決於,而且可能真正取決於AI集成商有效利用AI的能力。

主持人: 對於在座的各位,大家都處於職業生涯的早期,擁有巨大的潛力,你有什麼建議,讓他們在未來這些模型變得如此強大的情況下保持競爭力?大家應該擅長什麼,學習什麼,才能繼續做好工作?

賈裡德: 我認爲,正如我所提到的,理解這些模型如何工作,並能夠真正有效地利用和集成它們,這具有很大的價值,而且我認爲在構建前沿技術方面也具有很大的價值。我不知道,我們可以把時間交給觀衆提問。

主持人: 讓我們把時間交給觀衆提問。

觀衆問答

觀衆: 我有一個關於縮放損失的快速問題。你展示了很多縮放定律都像是線性的,但是我們有指數級的計算能力增長,但我們在縮放定律中只有線性的進展。但在你的最後一張幻燈片上,你展示了你期望突然出現指數級增長,以及我們節省了多少時間。我想問,你爲什麼認爲突然在這個圖表上我們是指數級的而不是線性的了?謝謝。

賈裡德: 是的,這是一個非常好的問題,我也不知道。我的意思是,關於米的研究發現有點像一個經驗性的發現。我傾向於這樣考慮這個問題:爲了完成越來越複雜、時間跨度更長的任務,你真正需要的是某種自我糾正的能力。你需要能夠識別出你制定了一個計劃,然後你開始執行這個計劃,但每個人都知道我們的計劃有點毫無價值,當我們遇到現實時,我們會犯錯。因此,我認爲決定模型能夠完成的任務的時間跨度的很大程度上是它們注意到自己做錯了什麼並糾正它的能力。而且我認爲這不算是很多的信息。僅僅注意到一兩次你犯了錯誤以及如何糾正這個錯誤,並不一定需要智能發生巨大的變化。但如果你解決了你的錯誤,也許你會,大概,將任務的視野長度擴大一倍。因爲就像與其被困在這裡,你會被困在兩倍遠的地方。所以我認爲這就是我所看到的圖景,即你可以通過相對適度的改進,來解鎖越來越長的視野,改進你理解任務和自我糾正的能力。但這只是,這些只是空談。我認爲經驗趨勢也許是最有趣的事情,也許我們可以爲爲什麼這個趨勢是正確的構建更詳細的模型,但大概你的猜測和我的一樣好。

觀衆2:我這邊也有一個問題。真是榮幸。所以基本上,在增加時間範圍方面,我覺得,我對神經網絡的心理模型非常簡單。如果你想讓它們做某事,你就要用這樣的數據來訓練。所以如果你想,如果你想增加時間範圍,你必須慢慢地獲得,例如,驗證信號。現在我認爲一種方法是通過產品來實現。比如,Claude的代理,然後你使用驗證信號來逐步改進模型。現在我的問題是,這對於例如編碼來說效果非常好,在編碼中你有一個足夠好的產品,你可以部署它然後獲得驗證信號。但其他領域呢?比如在其他領域,我們只是擴大數據標註員的規模來實現通用人工智能,還是有更好的方法?

賈裡德: 是的,這是個好問題。我的意思是,當一些懷疑論者問我,爲什麼我認爲我們能夠擴展並獲得像廣泛的人類水平的人工智能時,基本上是因爲你所說的。存在某種非常具有操作性的路徑,你只是爲人工智能模型構建越來越多不同的任務,這些任務越來越複雜,時間跨度越來越長。然後你只是轉動曲柄,在那些更復雜、更長的任務上用強化學習進行訓練。所以我覺得那是人工智能進展的最壞情況。我的意思是,考慮到在人工智能領域的投資規模,以及我認爲人工智能正在創造的價值水平,我認爲如果必要的話,人們會這麼做。也就是說,我認爲有很多方法可以簡化它。最好的方法是訓練一個人工智能模型來監督和管理,比如用Claude來說明你正在訓練什麼,當你有一個人工智能模型提供監督,而不僅僅是說,你是否正確地完成了這個極其複雜的任務?比如,你是否成爲了教職員工並獲得了終身教職?這會花費六年或七年嗎?這是否是一個端到端的任務,在七年後,你最終要麼獲得終身教職,要麼沒有?這太荒謬了。這是非常低效的,但它可以提供更詳細的監督,指出你做得好或做得差。我認爲,隨着我們能夠在這種方式下越來越多地使用人工智能,我們或許能夠更有效地訓練那些長期任務。而且我認爲我們在某種程度上已經在這麼做了。

主持人: 我們來回答最後一個問題。

觀衆3: 是的,我想在此基礎上進一步探討。當你基本上在開發這些任務,然後用強化學習訓練它們時,你會嘗試使用大型語言模型來創建這些任務嗎?比如你用於強化學習的任務,還是仍然使用人工?

賈裡德: 很好的問題。我覺得兩者都有。我的意思是,很明顯,我們儘可能多地使用人工智能來構建任務,比如說,用代碼生成任務。我們也會要求人類創建任務。所以基本上是這些事情的混合。我認爲隨着人工智能變得越來越好,我們希望能越來越多地利用人工智能。當然,這些任務的難度前沿也在不斷提高。所以我認爲人類仍然會參與其中。好的,謝謝。

主持人: 好的,讓我們爲賈裡德鼓掌。非常感謝。