強化學習之父Richard Sutton智源大會最新演講:歡迎來到經驗時代!
2025年6月6日,強化學習奠基人、人工智能先驅 Richard Sutton 線上出席了第七屆智源大會。
在大會開幕式上,Richard Sutton 發表了題爲“Welcome to the Era of Experience(歡迎來到經驗時代)”的主旨演講。
這是 Richard Sutton 對人工智能發展方向的最新闡述。他明確指出:AI 的未來,不應再侷限於模仿人類的知識輸出,而應邁向一個真正能自主學習、主動探索、通過第一手經驗成長的新時代。
在大會上,Richard Sutton 給出了他的判斷:AI 正在從“人類數據時代”進入“經驗時代”,一個智能體應該主動參與世界,感知、行動、試錯並積累自己的經驗。他表示:AlphaGo 之所以能下出“第37手”—神之一手,就是因爲它通過自我對弈,形成了人類未曾教授的理解。
Richard Sutton 同時表達了對“過度控制 AI”的擔憂。他認爲,不能以“安全”爲名限制 AI 的行爲能力、本體動機或主動性。
以下是 Richard Sutton 演講全文,智源社區在不改變原意的基礎上進行了編譯。
從圖靈到今天,AI走了半條路
今天的演講和 Bengio 教授剛剛討論的主題有關,但我的觀點與他截然不同,後面再解釋。
首先,歡迎來到“經驗時代”(The Era of Experience),引用兩句話來引出今天的核心觀點:
第一句是,在 2009 年上映的紀錄片《超越人類》(Transcendent Man)中,著名未來學家雷·庫茲韋爾(Ray Kurzweil)提出:“智能是宇宙中最強大的現象”。
第二句來自計算機科學奠基人艾倫·圖靈(Alan Turing)。1947 年時候他說:“我們需要一臺能夠從經驗中學習的機器。”當時,人工智能還根本不是一個正式的研究領域。
圖靈的這句話意義重大,他強調機器應該像人類一樣,從第一人稱視角中積累經驗並進行學習。這恰恰是今天所討論的核心:AI 正在從“模仿人類”走向“經驗世界”。
當前,AI 的發展依賴的是所謂的“人類數據”。也就是說,幾乎所有的 AI 系統都是通過海量的人類生成文本和圖像數據訓練的。這些數據大多來源於互聯網,隨後再由專家進行微調,最後得到模型。
這些模型的目標是預測人類的下一個詞,或標註數據的標籤,而不是去真正理解和操控這個世界。
但這種方法已經逐漸逼近其性能上限。高質量的人類數據資源已經幾乎被用到極限,而真正產生新知識的能力,是無法通過簡單模仿人類實現的。
不是喂數據,是喂經驗
如果我們希望 AI 擁有真正的創造力和適應能力,它必須進入一個全新的階段,也就是“經驗時代”。在這個階段,AI 不再依賴固定的數據集,而是通過自身與外部世界的交互,從中獲取經驗並不斷進化。
這裡提到的經驗,指的是來自 AI 自身感受器的輸入,以及通過效應器與世界互動所獲得的反饋。這是人類和動物學習的根本方式,也是智能成長的基礎路徑。
例如,在人類嬰兒的學習過程中,嬰兒通過和周圍世界的互動逐漸認識這個世界。他會接觸不同的玩具,然後探索它們能做什麼。注意,嬰兒在主動選擇自己的學習內容,直到學到足夠的信息,才轉而學習下一個內容。
隨着嬰兒認知的發展,從每個對象中能夠學到的內容也會隨之變化。嬰兒的行爲方式變了,“經驗結構”也隨之改變。也就是說,行爲塑造了經驗,決定了嬰兒要獲取的數據。這種主動性至關重要。
再比如人或動物在運動、遊戲、學習中不斷獲得經驗。足球運動員的眼睛、耳朵和身體的各種感官同時接收着高速變化的信息。顯然,信息量巨大,運動員無法關注一切,必須迅速做出決策,從而實現目標。
這正是經驗的本質。對運動員、動物來說,經驗就是一種高帶寬的信息處理過程:在高速感知和快速反應中生存和成長。沒有哲學意義上的“意識體驗”那麼複雜,經驗在智能體和世界之間不斷流動,輸入感知、輸出行爲。
當然,經驗的數據源是動態的,它取決於智能體自身的能力。當兩個智能體博弈時,它們會變得更強大,彼此生成的數據也就越複雜、越有價值。
AlphaGo 的“第 37 手”之所以成爲經典,就是因爲它通過大量自我對弈獲得了經驗。這種經驗是通過模擬無數走法、評估結果所獲得的。因爲圍棋有規則,所以可以構建這樣的“經驗世界”。
AlphaProof 也類似。這個數學證明系統,在國際數學奧賽中取得了優異成績。數學和圍棋一樣,也允許預測操作的後果,並進行長遠推理,因此它也可以通過模擬積累經驗。
最後我們來總結一下“經驗型思維方式”:智能體通過與世界的信號交換形成經驗,並基於經驗學習。智能體對世界的全部認知,其實都建立在經驗之上。哪怕直接給它一些知識,它理解這些知識的方式,最終也要回歸到經驗的解釋框架中。畢竟,知識也是圍繞經驗建立的。
一個智能體的智能程度,取決於它能否理解和控制其內部信號,特別是它的獎勵向量(reward vector)和控制機制。這就是AI應該關注的核心:智能的本質是經驗,經驗是一切智能的焦點和基礎。
AI 近年來的發展經歷瞭如上圖所示的各個階段。
第一階段是模擬時代,AlphaGo、Atari等系統是這個時代的代表 ,這些系統從模擬環境中學習經驗。AlphaGo、AlphaZero 的成功,也向世界展示了經驗驅動智能的巨大潛力。
第二階段是人類數據時代,比如 GPT 等大語言模型。它們從人類生成的數據中學習,展現出強大的語言理解和表達能力。
而現在,我們正處在人類數據時代的尾聲,即將進入第三階段:真正的經驗時代。AI 將通過與現實世界的交互來獲取數據,不再只依賴人類提供的靜態信息。可以從 AlphaProof 這樣的系統窺見這種轉變的苗頭:當基於大語言模型構建的智能體開始擁有調用 API、與現實世界進行交互的能力時,“行爲式智能”已在悄然萌芽。
去中心化合作:羣體智能的下一個挑戰
在我看來,人工智能的未來充滿希望。超級智能體和增強型超級智能人的出現,將爲世界帶來積極的正面影響。這一進程可能需要數十年,並將在之後的幾十年持續演進,這是一場漫長的馬拉松。
如今,我們正邁入一個以強化學習爲核心的“經驗時代”。然而,要真正釋放這一時代的全部潛能,還需要更加先進的深度學習算法,這些算法必須具備持續學習和元學習的能力。
現在,我們從技術轉向社會層面,討論一些社會問題,這也迴應了 Bengio 教授在演講中提到的一些內容。
不妨思考一個根本性的問題:在一個由智能體組成的社會中,大家是否應該有同一個目標?
從強化學習的角度來看,答案自然是“不”,每個智能體都有自己的目標,它們的“獎勵信號”是各不相同的。每個智能體都試圖最大化自己的回報。
AI 如此,真實世界亦是如此。不同的智能體有不同的目標,這是自然規律。例如,所有動物都關注食物、生存,但一個動物的“食物”對另一個動物來說可能毫無價值,甚至可能是威脅。它們的目標顯然並不相同。在人類社會中,我們都關心家庭、健康和安全,但這些目標也是個性化的。
再思考一下經濟是如何運作的。之所以當前的經濟體系運行得還不錯,恰恰是因爲人們擁有不同的目標和不同的能力。這些差異本身並不意味着衝突,反而是合作的基礎。國家的運作也不依賴於所有人有相同的目標,而是依賴於人們各自追求自己的目標,並在過程中互相作用、協調合作。
所以我們要強調的核心信息是:即使個體追求的是不同的目標,我們依然可以和平共處,並開展分工、交換和互動。
爲了進一步討論這個問題,先定義以下術語:去中心化(decentralization):每個智能體都追求自己獨立的目標;中心化(centralization):所有智能體都被約束在同一個目標之下,比如蜂羣就是一個高度中心化的系統,所有個體服務於蜂羣的整體目標。
而我們今天談論的,是更類似人類社會的去中心化系統:每個個體擁有自己的目標和意願。再來看“合作”的定義:合作是指不同目標的智能體通過互動實現彼此部分的目標。
例如,在經濟活動中,交易就是一種典型的合作關係。可以說:去中心化 + 合作,是人類的“超級能力”。人類比其他動物更善於合作,其合作能力來自語言和貨幣,這兩樣東西在人類中是獨一無二的。然而,人類最大的失敗,其實往往源於合作的失敗,比如戰爭、盜竊、腐敗。
因此,需要提出的“去中心化合作”的視角,這種不同於傳統制度設計的替代性方案,比中心化架構更優雅、更加魯棒、可持續且更靈活。
去中心化合作更能抵禦作弊者、邊緣分子和異類的干擾。正如前所述,人類的合作能力遠超其他動物,但必須承認,我們在合作方面表現很糟糕。戰爭、偷竊、腐敗、詐騙等現象在提醒我們,合作不僅是一種能力,更是一項需要持續優化的挑戰。
合作從來不是自動發生的,它至少需要兩個值得信賴的智能體。而總會有一些不值得信任的人存在,例如:騙子、盜賊、武器製造商、獨裁者,這些人也正因爲“不合作”而獲益。
合作需要制度來支撐,懲罰作弊者、制裁欺詐者、制衡掠奪者。這也意味着,中心化的權力機構可以在合作的早期階段提供幫助,比如通過法律、監管和裁決機制來保障公平。與此同時,這些中心化結構也可能在長期中損害合作,因爲一旦它們變得專制、僵化,制度本身就會演化成阻礙。
這就引出了當前時代最關鍵的張力:去中心化合作與中心化控制之間的衝突。這種張力在 AI 領域也體現得非常明顯。
例如,有很多人主張“控制 AI”,限制它的目標設定能力,甚至呼籲暫停 AI 研究、減緩其發展速度,要求對 AI 技術設限、披露義務、能力管控……這正是中心化控制邏輯的典型表現。
控制 AI 的呼聲,與控制人的呼聲,在邏輯結構上是驚人地相似的。歸根結底,這是關於“社會應該如何組織”的問題。但問題是,我們要接受個體目標的多樣性,建立去中心化、合作性的秩序?還是轉向以安全與恐懼爲名的全面控制?
所有中心化控制的呼聲,都建立在“恐懼”之上,即“我們與他們”之間的思維對立,在這種對立中,另一方總是被妖魔化,被描述爲不可被信任的對象。現實是複雜的,每個社會中都有值得信賴的人,也都有不可被信賴的人。我們不能以偏概全,用對少數人的恐懼來抹殺對多數人潛在合作能力的信任。
AI 的未來也是如此,它的真正潛力在於去中心化合作。人類最偉大的力量,不是技術,而是合作。合作並不總是可能的,但它是一切美好事物的源泉。我們應該去理解合作、支持合作、制度化合作。
感謝大家的聆聽,也感謝 Bengio 教授爲我們提供了一個完全不同的視角。