2024年圖靈獎頒給強化學習先驅巴託和薩頓,其研究成果深刻影響人工智能崛起

3月5日,全球最大的計算機專業人士協會計算機協會(ACM)宣佈,將2024年圖靈獎授予安德魯·巴託(Andrew Barto)博士和理查德·薩頓(Richard Sutton)博士,以表彰他們在強化學習方面做出的奠基性貢獻。

巴託目前是馬薩諸塞大學榮譽退休教授。薩頓現在擔任阿爾伯塔大學教授,他也是前DeepMind研究科學家。

查德·薩頓有着“強化學習之父”的美譽,安德魯·巴託則是薩頓的博士導師。自 1980 年代起,兩位學者就在一系列論文中提出了強化學習的主要思想,並構建了強化學習的數學基礎,開發了強化學習的重要算法。兩人合著的《Reinforcement Learning: An Introduction》一直是強化學習領域最經典的教材之一。

ACM在頒獎詞中高度評價了兩位科學家的貢獻:“薩頓和巴託的工作不僅推動了強化學習的理論發展,還爲深度強化學習的崛起鋪平了道路。他們的研究成果在遊戲AI、機器人控制、自動駕駛等領域產生了深遠影響”。

強化學習的突破性進展在近年來尤爲顯著。2016年,谷歌DeepMind開發的AlphaGo利用強化學習技術擊敗了世界頂級圍棋選手李世石,震驚全球。

過去十年,強化學習在人工智能(AI)的崛起中發揮了至關重要的作用,包括OpenAI的ChatGPT和DeepSeek等突破性技術。

強化學習在許多其他領域也取得了成功,其中之一是機器人運動技能學習。通過強化學習,機器手可以學會操作物體和解決物理問題;並且這種學習過程可在模擬中完成,然後再遷移到現實世界。

不過,在領獎之際,巴託和薩頓也表達了對當前人工智能開發中安全隱患的深切擔憂。巴託指出,許多公司在產品尚未經過充分測試的情況下急於推向市場,這種做法無異於“建造一座橋,然後通過讓行人使用來測試其安全性”。

薩頓補充說,人工智能公司過於受商業利益驅動,忽視了研究的深入發展。他們呼籲業界重視技術可能帶來的負面影響,遵循更嚴謹的安全標準。

ACM 圖靈獎被稱爲“計算機領域的諾貝爾獎”,獎金爲 100 萬美元,由谷歌公司提供資金支持。該獎項以提出計算數學基礎的英國數學家艾倫・圖靈命名。