歷史性一刻!AI科學家論文首次通過同行評審

智東西編譯 尹非非編輯 雲鵬

智東西3月14日消息,近日,日本AI初創公司Sakana AI於社交媒體上聲稱,其AI生成論文通過首批同行評審。這篇論文由AI Scientist的改進版本AI Scientist-v2生成,通過了ICLR研討會的雙盲審查。

AI Scientist-v2的前身AI Scientist由Sakana AI於去年推出,是世界上第一個用於自動化科學研究和端到端論文生成的的人工智能系統。只要給定初始代碼庫的研究方向,AI Scientist可以完成構思、文獻搜索、實驗設計、實驗迭代、圖表生成、手稿撰寫和審查等步驟。

而ICLR則是機器學習和人工智能研究領域的三個頂級會議之一,另外兩個會議是NeurIPS和ICML。相比於去年僅僅創作論文,AI Scientist這次將論文交由ICLR研討會進行同行審覈的動作,則說明其向自動化科學研究邁出更深一步的探索。

一、AI研究AI,如何“舉一反三”

這篇騙過評審員的論文到底講了什麼呢?

文章的標題爲《組合正則化:增強神經網絡泛化能力中的意外障礙》,組合泛化(Compositional Generalization)是指模型能夠理解和生成由已知組件(如符號、詞彙、操作符),並按規則組合而成的新組合的能力,這是人類認知的一個基本方面,通俗來講就是“舉一反三”。

而​研究的難點在於,儘管現在的AI模型(比如常用的LSTM神經網絡)在許多任務中表現出色,但面對這類需要“舉一反三”的任務時,常常遇到困難,這限制了它們在系統性推理任務中的應用。

​之前的研究探索了各種方法來增強組合泛化,包括架構修改和訓練策略。其中一種有前景的方法是引入正則化項,以鼓勵AI學習。正則化項(Regularization Term)​是機器學習中一種用於防止模型過擬合的技術,通過在損失函數中添加額外的約束或懲罰項,限制模型參數的複雜度,從而提高模型在未見過數據上的泛化能力。簡單來說就是在訓練過程中給AI定規矩,有賞有罰。

於是,這篇論文提出了一種通過在訓練損失中加入顯式的組合正則化項來增強神經網絡組合泛化的方法。具體來說就是:

·模型架構:使用基於LSTM的神經網絡來建模從輸入表達式到計算結果的映射。該模型包括一個嵌入層、一個LSTM層和一個全連接輸出層。

·​組合正則化:定義組合正則化項爲連續隱藏狀態之間的均方差異:

其中,T是輸入序列的長度。該正則化項懲罰隱藏狀態之間的較大變化,鼓勵模型形成加法表示,這是一種簡單的組合形式。

·訓練目標:總損失是主要損失(預測結果與真實結果之間的均方誤差)和組合正則化項的加權和:

其中,λ是超參數,用於調整組合正則化項的權重。

1、實驗設計

數據收集:生成包含數字和運算符的算術表達式合成數據集。數據集包括訓練集和測試集,測試集中的表達式包含未見過的數字和運算符組合,以及更高複雜度的運算符。

​實驗設置:

​樣本選擇:通過不同的超參數和運算符複雜度進行多次實驗,以評估其對模型性能的影響。

2、結果與分析

​基線性能:基線LSTM模型在沒有組合正則化的情況下,測試準確率達到約84%。組合損失在整個訓練過程中保持相對穩定,表明模型本身並沒有發展出組合表示。

組合正則化的影響:引入組合正則化項後,隨着λ值的增加,組合損失減少,但測試準確率並未提高,甚至在某些情況下下降。這表明,儘管組合正則化鼓勵了組合表示的學習,但它可能與主要學習目標產生衝突,限制了模型擬合訓練數據的能力。

運算符複雜性的影響:隨着算術表達式中運算符複雜性的增加,模型的泛化能力顯著下降。無論是基線模型還是帶有組合正則化的模型,都無法有效處理高複雜度的表達式。

3、總體結論

論文提出了一種通過組合正則化項來增強神經網絡組合泛化的方法。實驗結果表明:

組合正則化並未帶來預期的泛化性能提升,反而在某些情況下阻礙了學習過程。此外,算術表達式複雜性的增加顯著加劇了模型的泛化困難,突顯了組合正則化在處理複雜組合結構時的侷限性。未來建議探索替代的正則化策略,改進組合性的定義,並在更復雜的數據集上進行測試。

這篇論文的亮點或許不在於“成功解決問題”,而在於提出新的問題與矛盾,​推動新討論,即使結果爲“負面”,這類研究仍對領域發展至關重要。

總之,AI學組合就像教小孩解奧數題——光靠刷題不行,還得培養邏輯思維和創造力。這次嘗試雖然失敗了,但爲未來的研究指明瞭方向。

二、同行內部雙評審,努力衝頂會 ICLR評審:3篇論文中1篇通過,排名約45%

在這次實驗項目中,Sakana與不列顛哥倫比亞大學和牛津大學的研究人員合作,選擇AI生成的3篇論文參與ICLR2025研討會的雙盲審查,其中有2篇論文未達到接受標準,1篇論文也就是上文的《組合正則化》的平均得分爲6.33,這篇論文在所有提交的作品中排名約爲45%。這些分數高於研討會上許多真人撰寫的論文,同時高於平均接受閾值。

具體的分數與閾值關係爲:

評分:6:略高於接受閾值

評分:7:好論文,接受

評分:6:略高於接受閾值

內部審查:仍有缺陷,無法通過頂會

除了同行評審,其內部的AI研究人員,也對3篇論文進行自我分析,將之視爲提交給ICLR主會的手稿來審查,併爲每篇論文撰寫了全面的綜述,同時添加了內嵌評論。

內嵌評論中提及了一些論文缺陷以及AI常常出現的硬傷,比如文獻綜述部分存在不準確或不完整的問題;圖表部分多出現圖表數據不完整、標註不清、陰影區域未解釋等問題。此外,論文對於研究方法的描述不夠清晰,未充分覆蓋組合泛化領域的關鍵研究(如遞歸網絡、結構感知模型),這可能會導致讀者難以理解本文方法的創新性,同時對部分技術細節(如組合正則化的設計動機)缺乏深入解釋,有可能影響方法的可復現性。

在實驗變量控制方面,論文也未充分說明不同超參數(如嵌入維度、正則化權重)對結果的獨立影響,這可能混淆關鍵結論。在實驗結果部分,AI往往發揮誘導作用,導致結論與數據矛盾,例如,注意力機制的實驗結果顯示基線模型表現更好,但作者未充分討論這一反直覺現象,反而得出正則化效果更好的結論。

AI Scientist偶爾也會犯令人尷尬的引用錯誤。例如,它錯誤地將“基於LSTM的神經網絡”歸於Goodfellow(2016年),而不是正確的作者Hochreiter和Schmidhuber(1997年)。

除了審查和評論外,AI研究人員們還在初始審查階段爲每篇論文提供了初步評估分數,評估依據NeurIPS和ICLR等頂級ML會議的指南進行。此外,他們還進行了代碼審查,以確保AI Scientist-v2所做的實驗結果可重複。但論文還是會犯一些初代AI Scientist就已經存在的錯誤,諸如缺失圖表、過多缺失引文和格式問題等。爲了提高結果的科學準確性、可重複性和統計嚴謹性,他們鼓勵AI Scientist多次重複每個實驗。

最終,研究人員得出結論,3篇論文都沒有通過內部審查,並在GitHub倉庫中公開了內部人類評審意見,以及這3篇AI生成論文。

總結:倫理與技術——AI科學家的未來

社交媒體上,關於AI科學家的未來,衆人莫衷一是。

AI公司Shapes Inc創始人Anushk認爲:”AI科學家能對其自身工作進行批判和迭代將是下一個前沿,科學加速即將到來。”

3X創始人Arsen Ibragimov則更關心這次事件對學術界的衝擊:“有趣的實驗!不過這也引發了許多關於未來學術出版和同行評審流程的問題。我很好奇他們這篇由AI撰寫的論文與審稿人關係的透明度如何?”

一名AI領域的研究生Sachit gaudi則分享了ICLR 2025中,由人類撰寫的關於組合泛化的論文,並認爲:”雖然每個人都既擔心又興奮地關注着由LLM完全生成的論文被ICLR研討會接收,但LLMs永遠無法匹配我的合作者的創造力。”

不論是從研發之初就存在的學術倫理問題,還是本次同行評審通過對學術界造成的衝擊,AI Scientist一直是一個充滿爭議性與創造性的存在。

從全球趨勢看,AI生成論文正加速進入學術領域:2023年,Nature在官網發佈報道,指出一些研究者使用ChatGPT撰寫論文,但並未披露對AI的使用,某些論文在發表後被人發現有明顯的AI撰寫痕跡,於是被撤稿。Science在2023年禁止AI寫作投稿,在2024年纔開始解禁。這些事件反映出學術界對AI工具的審慎態度。

但不可否認,AI寫作也正在重塑學術評價體系。ICLR 2025允許AI論文參評,或許也標誌着評審標準從“人類主導”轉向“結果導向”;而月之暗面Kimi“論文工廠”的高效產出模式,更對傳統科研週期形成衝擊。

學術倫理與技術創新的博弈仍在持續。歐盟將學術AI列爲高風險技術、中國禁止AI生成論文用於職稱評定,國內各大高校對AI的態度也各有不同,這些監管動向並非否定技術價值,而是強調科學精神的不可替代性。正如Sakana AI創始人所言,AI的目標應是“推動人類繁榮”,而非替代人類思考。未來,或許會出現真正意義上被承認的AI論文,但在此之前,如何界定AI的學術角色、保障科研的原創性與透明度,仍是待解的命題。

來源:Sakana官網,Techcrunch