再創歷史!DeepMind AI超進化,能拿奧數金牌了
智東西編譯 徐豫編輯 雲鵬
智東西2月8日消息,谷歌旗下頂尖AI研究實驗室DeepMind於2月7日發佈論文,其開發的一套名爲AlphaGeometry2的AI系統,解決國際數學奧林匹克競賽(IMO)幾何問題的表現,超越了金牌得主的平均水平。
AlphaGeometry2是DeepMind去年1月發佈的AlphaGeometry系統的升級版。在最近發表的一項研究中,AlphaGeometry2能夠解決過去25年IMO中84%的幾何問題,而OpenAI的o1推理模型一道題都答不上來。IMO是一個高中生的全球頂尖數學比賽。
據DeepMind團隊分享,AlphaGeometry2融合了神經網絡理論和符號AI方法,其一方面採用基於神經網絡架構搭建的谷歌Gemini系列模型,同時另一方面遵循符號AI的操作規則,以此提升AI系統理解、推理和邏輯證明能力,打開了實現通用AI的新思路。
事實上,今年夏天,DeepMind曾展示了一套結合AlphaGeometry2和AlphaProof的系統,後者是一個用於形式數學推理的AI模型。該系統成功解決了2024年IMO六道題中的四道。
那麼,DeepMind爲何會關注一個高中數學競賽?
DeepMind認爲,解開復雜幾何問題的新方法,可能是開發更強大AI系統的關鍵,尤其是歐幾里得幾何問題(Euclidean geometry problems)。
證明數學定理這件事,例如邏輯性地說明爲什麼勾股定理(Pythagorean Theorem)成立,不僅需要推理能力,還需要從多種可能的解決步驟中作出選擇。DeepMind認爲,這種解決問題的能力或許能夠成爲未來通用AI模型的核心組成部分。
此外,除了幾何問題,AlphaGeometry2這套方法還可以擴展到其他數學或科學領域,例如可以爲複雜的工程計算提供幫助。
一、雙引擎核心發力,兼顧邏輯推理和大規模數據處理
AlphaGeometry2內含多個關鍵組件,其中既有谷歌Gemini系列語言模型,也有一個“符號引擎”。同時,這個符號引擎在Gemini模型的幫助下,可以更好地利用數學規則推導出問題的解決方案,從而爲給定的幾何定理找到行得通的證明。
▲IMO考試中的一道典型幾何問題的示意圖。(圖源:TechCrunch)
IMO中的幾何問題通常需要添加輔助線,例如點、直線或圓等輔助構造,才能解答。AlphaGeometry2的Gemini模型可以預測圖中需要添加哪些輔助線,然後符號引擎則基於這些輔助線進行推理。
簡單來說,AlphaGeometry2的Gemini模型用一種形式化的數學語言,爲符號引擎提供建議,而符號引擎可依據特定的規則,來檢查這些步驟是否符合邏輯。
此外,該系統還配備了一種搜索算法,支持並行搜索多個解決方案,並且會把可能有用的發現存儲在公共知識庫中。
AlphaGeometry2認定一個問題已被解決的條件是,得出的答案能夠結合Gemini模型的建議,以及符號引擎的已知原則,完成證明閉環。
另外,由於將幾何證明轉換成AI可理解格式的過程較爲複雜,幾何問題的訓練數據極爲稀缺。爲此DeepMind自創了合成數據集,生成了超過3億個複雜程度不同的定理和證明,用於訓練AlphaGeometry2的語言模型。
二、橫殺過去25年的競賽幾何題,成績媲美金牌得主
DeepMind的研究團隊選取了過去25年,即2000年至2024年,IMO中的45個幾何問題,並將這些問題轉換成一組共有50道題的大題組。這45個幾何問題中既有線性方程,也有涉及平面幾何對象移動的方程。
不過,由於技術原因,目前大題組中的部分題目需要被拆分處理。
根據論文,AlphaGeometry2成功解決了大題組中的42道題目,超過了金牌得主40.9分的平均成績。
但同時,AlphaGeometry2也存在一定的侷限性。
儘管得分可以說表現優異,AlphaGeometry2仍存在一些技術限制。例如,它暫時無法解決點數可變、非線性方程和不等式的問題。
在另一組難度更大一些的IMO題目中,AlphaGeometry2的表現稍遜。DeepMind研究團隊挑選了29道曾被數學專家提名,但未曾出現在競賽中的題目。而AlphaGeometry2僅成功解決了其中的20道。
此外,AlphaGeometry2也並非第一個達到幾何金牌水平的AI系統,不過它是第一個在如此大規模題集上取得這一成就的AI系統。
三、符號AI與神經網絡學派各執一詞,DeepMind提出融合新法
DeepMind這項研究結果,可能會加劇關於AI系統是否應該基於符號操作構建的爭論。換句話說,AI系統是應該使用規則來操作代表知識的符號,還是基於更類人腦的神經網絡來構建。
AlphaGeometry2採用了混合方法,其Gemini模型使用的是神經網絡架構,而符號引擎則是基於規則。
神經網絡理論支持者認爲,從語音識別到圖像生成,智能行爲可以通過大量數據和計算資源自發涌現。
而符號系統支持者則認爲,符號系統通過定義一組專門用於特定任務的符號操作規則來解決問題,例如在文字處理軟件中編輯一行文字。而神經網絡則需要通過統計相似數據和大量示例,才學會如何解決任務。
一方面,神經網絡是OpenAI o1推理模型等強大的AI系統的基石;另一方面,符號AI的支持者認爲,神經網絡並非萬能的,符號AI或許在高效編碼真實世界知識、推理複雜情境和自證解答過程等方面,更具優勢。
AlphaGeometry2的成功表明,這兩種方法的結合,或許是開發通用AI一條行之有效的路徑。
事實上,根據DeepMind的論文,基於神經網絡架構的OpenAI o1推理模型,無法解答AlphaGeometry2所解出的任何一道IMO問題。
然而,這種情況也許不會永遠持續下去。在論文中,DeepMind團隊稱,他們發現了初步證據,可以說明AlphaGeometry2的語言模型有時候能夠在沒有符號引擎輔助的情況下,生成部分解決方案。
“這些結果在一定程度上支撐了,大模型可以在不依賴符號引擎等外部工具的情況下,自給自足的觀點,”DeepMind團隊在論文中寫道,“但在模型速度得到提升,且幻覺問題完全解決之前,這些外部工具對於AI數學應用來說,仍將至關重要。”
結語:AI解難題更聰明瞭,但簡單問題仍會“犯渾”
DeepMind的AI系統AlphaGeometry2成功挑戰IMO競賽金牌得主水平,一方面體現出AI數學、推理、邏輯證明能力的進步,可以與高中生競爭;另一方面也爲AI界提供了通向AGI的新路徑,在神經網絡派和符號AI派的爭論中,論證了二者相互配合提效AI推理的可行性。
與此同時,AI從紙上談兵到實戰演練,仍有很長的路要走。如何保證簡單任務執行的準確性、拓寬複雜任務處理的可能性、降低開發和部署成本等,都是AI玩家亟待解決的議題。
卡內基梅隆大學計算機科學教授Vince Conitzer告訴TechCrunch,AI系統在這些基準測試上持續取得令人矚目的進展,但與此同時,語言模型和最近推出的具有推理功能的模型,仍會在一些簡單的常識問題上苦苦掙扎,這種對比令人震驚。
他補充道,我並不認爲這一切進展都是虛張聲勢,但它確實表明了,我們仍然不清楚下一個AI系統會有什麼樣的行爲。這也意味着,這些AI系統可能會帶來重大影響,因此我們迫切需要深入瞭解它們,以及它們可能造成的風險。
來源:TechCrunch