閱讀數學/聳立在AI面前的數學高牆(下)

AI示意圖。圖/AI生成

上週我們介紹了針對AI設計的數學題庫FrontierMath。許多數學家對FrontierMath 的評價非常高,包括了前面提到的陶哲軒。他就認爲FrontierMath 中的題目「極具挑戰」,即使是該領域的數學家,也需要花費大量的時間和精力才能解決這些問題。有趣的是,除了專家親自出馬,陶哲軒指出的另一條路就是人機協作:讓相關領域的研究生與AI 系統合作。他評估在某些問題上,與目前的 AI協作解題,會比數學家花上多5倍左右的時間成本。然而,很有可能在未來幾年內,就可以下降到差不多的速度。然後,進展得好像比陶哲軒想得更快。不用人機協作,GPT-o3獨立解完了25% FrontierMath題目了。

​不過,雖然GPT-o展現出語言模型前所未有的數學解題能力。但這不代表數學之壁要被攻破了。首先,FrontierMath 的設計目標是評估 AI 模型,因此題庫多是有可自動驗證的問題,例如算出一組答案或可以用軟體驗證。然而,數學研究中很大一部分工作涉及到撰寫證明和開放探索,這些方面是FrontierMath 無法反應的。​

其次,雖然現在的FrontierMath一題就算會耗掉專家好幾小時、好幾天的心力。但許多數學研究更是需要數月、甚至數年的持續探索。費馬定理就是一個最好的例子,數學家們世代接力,花了300年才證明。最後一棒的懷爾斯曾這麼訴說他的心境:

「或許,我能給出關於我研究數學的歷程最貼切的描述,就是進入一棟大房子。當一個人開始探索第一個全黑的房間時,裡頭一片漆黑,他會在傢俱中邊跌倒邊摸索。漸漸地知道傢俱的位置。六個月後,你會找到開關並且打開燈。開燈的那一瞬間,整個房間被光線壟罩,你終於,能清楚地看見你站在哪裡。」

數學研究與解FrontierMath難題,兩者在「深度」上還是有很大的差異。