斯坦福大學揭示RLVR技術的侷限性

在人工智能快速發展的今天,我們經常聽說AI模型在數學競賽、編程挑戰等各類推理任務中表現出色。這些成就很大程度上要歸功於一種叫做"可驗證獎勵強化學習"(RLVR)的訓練技術。不過,這項由斯坦福大學、華盛頓大學、東京大學和日本理化學研究所的研究團隊在2025年7月發表的最新研究,卻爲我們揭示了一個意想不到的真相:RLVR可能並沒有我們想象的那麼神奇。

這項研究的第一作者是斯坦福大學的吳方博士和東京大學的軒偉昊博士,通訊作者是斯坦福大學的崔藝珍教授。研究成果發表在了arXiv預印本服務器上,論文編號爲arXiv:2507.14843v1。感興趣的讀者可以通過這個編號在arXiv網站上找到完整的研究論文。

爲了更好地理解這項研究,我們先來聊聊什麼是RLVR。想象你在教一個孩子解數學題,每當孩子做對一道題,你就給他一顆糖作爲獎勵。久而久之,孩子會越來越擅長解那些能得到糖果的題目類型。RLVR就是用類似的方法訓練AI模型:當模型給出正確答案時,就給它"獎勵",讓它學會更頻繁地產生正確答案。

這種方法看起來很有效果。像DeepSeek-R1和OpenAI的o3這樣的大型推理模型,都是通過RLVR訓練出來的,它們在數學、編程等領域表現確實令人印象深刻。但是,研究團隊想要回答一個更深層的問題:RLVR到底是真的擴展了AI的推理能力,還是隻是讓AI更善於使用它原本就知道的知識?

這個問題的重要性不言而喻。如果RLVR只是在"拋光"已有的知識,而不是真正開發新的推理能力,那麼我們對AI未來發展的期待可能需要重新調整。更重要的是,這關係到我們如何更好地訓練AI系統,讓它們真正具備創新性的思維能力。

研究團隊採用了理論分析和實驗驗證相結合的方法來探索這個問題。他們從數學原理出發,證明了RLVR在理論上存在的一些根本性限制,然後通過大量的實驗來驗證這些理論預測。實驗涵蓋了數學推理、邏輯思考、事實問答和代碼生成等多個領域,使用了包括MATH、AIME、SimpleQA、LiveBench等多個基準測試。

研究結果揭示了一個被稱爲"無形枷鎖"的現象:RLVR主要是在重新分配概率權重,讓AI更傾向於輸出那些它原本就有一定概率生成的正確答案,而很難讓AI發現全新的解題思路。這就像是一個學生在考試前只是反覆練習他已經會做的題目,而沒有真正學會新的解題方法。

**一、AI訓練中的"刻舟求劍"現象**

要理解RLVR的侷限性,我們需要先了解AI模型是如何生成答案的。每當你向AI提出一個問題,它實際上不是在"思考"單一答案,而是在從一個巨大的可能性空間中進行選擇。這個空間包含了所有可能的回答,每個回答都有一個對應的概率。

研究團隊發現的第一個重要限制可以用一個簡單的比喻來理解。假設你有一個裝滿各種顏色球的盒子,紅球代表正確答案,藍球代表錯誤答案。RLVR的工作方式就像是教你更頻繁地從盒子裡抓取紅球。但問題在於,如果盒子裡根本沒有某種顏色的紅球,那麼無論你如何練習,都永遠不可能抓到那種顏色的球。

這種現象被研究團隊稱爲"支撐保持"。在數學術語中,"支撐"指的是所有那些有可能被選中的答案集合。研究團隊證明了,RLVR只能在基礎模型原有的支撐範圍內進行優化,無法創造出全新的解題方法。

爲了驗證這個理論,研究人員進行了一系列精心設計的實驗。他們使用了ProRL這種先進的RLVR訓練方法,從DeepSeek-R1-Distill-Qwen-1.5B基礎模型開始訓練。這個選擇很有代表性,因爲ProRL採用了許多最新的技術來保持訓練過程的穩定性和探索性。

實驗結果證實了理論預測。研究人員將正確答案分爲四類:第一類是基礎模型和RLVR模型都能找到的答案(支撐保持),第二類是基礎模型能找到但RLVR模型找不到的答案(支撐收縮),第三類是基礎模型找不到但RLVR模型能找到的答案(支撐擴展),第四類是兩個模型都找不到的答案。

在數學推理任務中,支撐保持佔了絕大多數。以OlympiadBench爲例,基礎模型和RLVR模型共同找到了600個正確答案,而RLVR模型僅僅發現了3個新的正確答案。更令人擔憂的是,RLVR模型失去了26個基礎模型原本能夠找到的正確答案。這種趨勢在其他任務中也普遍存在。

這種現象的根本原因在於RLVR的工作機制。當模型通過隨機抽樣生成訓練數據時,那些概率極低的正確答案很可能永遠不會被抽到,因此也就無法在訓練過程中得到強化。這就像是在茫茫大海中尋找一座從未見過的小島,如果你的地圖上根本沒有標記這座島的大概位置,那麼你幾乎不可能偶然發現它。

**二、保守的"優等生":RLVR的變分推理本質**

爲了更深入地理解RLVR的侷限性,研究團隊從變分推理的角度分析了RLVR的數學本質。這個分析揭示了爲什麼RLVR天然具有保守性。

變分推理是一種數學優化方法,其核心思想是在滿足某些約束條件下,找到與目標分佈最接近的概率分佈。在RLVR的情況下,目標是找到一個新的模型分佈,使其既能獲得更高的獎勵,又不偏離基礎模型太遠。

這個過程可以比作調整一個古老的收音機來接收更清晰的信號。你可以輕微調整各個旋鈕來改善音質,但你不能完全重新組裝收音機的內部結構。RLVR就像是在現有的"收音機"基礎上進行微調,而不是設計一個全新的接收系統。

研究團隊證明了,RLVR的最優解具有一種特殊的數學形式:新的概率分佈正比於基礎分佈乘以獎勵函數的指數。這個公式清楚地顯示了爲什麼RLVR是保守的:它只是對原有分佈進行指數加權,而不會創造出原本不存在的可能性。

更有趣的是,當RLVR不使用任何正則化約束時(即所謂的"KL-free"限制),它會退化成一個更加簡單的操作:只是將基礎模型在正確答案上的概率重新歸一化。這就像是從一副牌中只留下紅桃,然後重新洗牌,雖然每張紅桃被抽到的相對概率會改變,但你永遠不可能抽到黑桃。

這種數學分析不僅解釋了RLVR的保守性,也揭示了它在不同參數設置下的行爲。當正則化參數較小時,RLVR表現得更加保守,主要是在基礎模型的高概率區域內進行微調。當正則化參數較大時,RLVR可能會有更多的探索性,但仍然無法突破基礎模型的根本限制。

**三、精度與覆蓋度的微妙平衡**

研究團隊發現的另一個重要現象是RLVR在精度和覆蓋度之間的權衡。這個發現挑戰了我們對AI性能評估的傳統理解。

在AI領域,有兩種常見的性能評估方式:pass@1和pass@k。pass@1衡量的是模型在第一次嘗試時給出正確答案的概率,而pass@k衡量的是模型在k次嘗試中至少有一次給出正確答案的概率。前者反映精度,後者反映覆蓋度。

傳統觀點認爲,如果一個模型在pass@1上表現更好,那麼在pass@k上也應該表現更好,只是改進的幅度可能會遞減。但RLVR的表現卻顛覆了這種期待。

研究結果顯示,RLVR在pass@1上幾乎總是優於基礎模型,這證實了它在提高精度方面的有效性。但是,當k變得很大時,情況就發生了逆轉。在許多情況下,基礎模型的pass@k性能反而超過了RLVR模型。

這種現象可以用一個形象的比喻來理解。假設你在玩飛鏢遊戲,基礎模型就像一個新手,雖然經常脫靶,但偶爾會意外擊中一些意想不到的位置。經過RLVR訓練的模型則像一個經過專業訓練的選手,能夠更準確地擊中靶心,但很少會擊中那些非常規的區域。

當你只有一次投擲機會時(pass@1),專業選手顯然更有優勢。但如果你有很多次投擲機會(pass@k,k很大),那麼新手的隨機性反而可能讓他覆蓋更大的區域,找到更多不同的得分方式。

這種權衡的根本原因在於RLVR會系統性地減少輸出分佈的熵。熵是衡量隨機性或不確定性的指標,高熵意味着更多的可能性和更大的探索空間,低熵則意味着更集中和更確定的輸出。

研究團隊通過數學證明顯示,任何RLVR更新都會降低輸出分佈的熵,除非獎勵在所有可能輸出上都是常數(這種情況實際上不存在)。這種熵的減少雖然提高了模型在已知正確方向上的表現,但同時也限制了模型探索未知區域的能力。

**四、令人意外的"局部隨機性與全局確定性"現象**

研究中最有趣的發現之一是RLVR在不同層面上表現出的矛盾特性。研究團隊區分了兩種不同的熵:令牌級熵和答案級熵。

令牌級熵衡量的是模型在生成每個詞或符號時的不確定性。這反映了模型在每一步生成過程中有多少"猶豫"。答案級熵則衡量的是最終答案的多樣性,反映了模型能夠產生多少種不同的完整解答。

令人驚訝的是,RLVR有時會增加令牌級熵,同時卻降低答案級熵。這意味着模型在生成過程中看起來更加"不確定",但最終卻收斂到更少的不同答案上。

這種現象可以用一個生動的比喻來理解。想象你在一個複雜的迷宮中尋找出口。基礎模型就像一個直覺型的探索者,它會相對直接地選擇路徑,雖然經常走錯,但會嘗試各種不同的路線,最終可能發現多個不同的出口。

而RLVR模型則像一個更加謹慎的探索者,它在每個岔路口都會更仔細地考慮各種選擇,顯得更加猶豫不決(高令牌級熵),但這種謹慎最終卻讓它收斂到少數幾條被證明"安全"的路徑上,減少了發現新出口的可能性(低答案級熵)。

這個發現對我們理解AI模型的行爲有重要意義。它提醒我們,不能僅僅根據模型在生成過程中表現出的"不確定性"來判斷它的探索能力。一個在每一步都顯得很"謹慎"的模型,實際上可能在全局層面上變得更加侷限。

研究團隊通過詳細的實驗驗證了這種現象。他們發現,在數學推理任務中,RLVR模型平均生成更長的推理鏈(這部分解釋了令牌級熵的增加),但這些更長的推理過程往往導向相似的最終答案(導致答案級熵的降低)。

**五、打破無形枷鎖的可能路徑**

雖然研究揭示了RLVR的重要侷限性,但這並不意味着它毫無價值。相反,這些發現爲改進AI訓練方法指出了明確的方向。

研究團隊認爲,要真正擴展AI的推理邊界,需要結合顯式的探索機制或混合策略。這些方法的核心思想是主動向那些在基礎模型中概率很低但可能正確的區域"播種"概率質量。

一種可能的方法是引入探索分佈。這就像是在原有的訓練數據中刻意加入一些"異常"樣本,迫使模型關注那些平時不會注意到的解題思路。這種方法需要精心設計,既要保證探索的有效性,又要避免引入太多噪聲。

另一種思路是採用離線策略的方法。與傳統RLVR只使用模型自己生成的數據不同,這種方法會使用來自其他來源的高質量推理數據。這些外部數據可能包含基礎模型從未見過的解題方法,從而幫助拓展模型的推理空間。

研究還提到了一些正在發展的技術,比如探索增強的偏好優化。這些方法試圖在保持RLVR優勢的同時,通過顯式的探索機制來克服其侷限性。

值得注意的是,並不是所有任務都需要打破RLVR的侷限性。對於那些有明確正確答案且解題方法相對固定的任務(如基礎數學計算),RLVR的保守性實際上是一個優勢,因爲它能夠有效地提高準確性而不會引入不必要的變化。

但對於需要創造性思維或有多種有效解決方案的任務(如創意寫作、複雜問題解決、代碼生成等),RLVR的侷限性就變得更加明顯。在這些領域,探索新的解決思路往往比優化現有方法更重要。

**六、實驗驗證:理論與現實的完美印證**

爲了驗證理論分析,研究團隊進行了全面的實驗評估。實驗設計體現了嚴謹的科學態度:他們不僅測試了數學推理任務,還包括了事實問答、邏輯推理和代碼生成等多個領域,確保結論的普遍性。

在數學推理方面,研究涵蓋了AIME2024、AIME2025、AMC、MATH500、Minerva和OlympiadBench等多個基準。這些測試代表了從高中競賽數學到大學級別數學的不同難度層次。結果顯示,在所有這些任務中,支撐保持都是主導現象,而支撐收縮的情況比支撐擴展更爲常見。

以AIME2024爲例,在8192次採樣的條件下,基礎模型和RLVR模型共同找到了23個正確答案,RLVR模型失去了3個基礎模型原本能找到的答案,但沒有發現任何新的正確答案。這種模式在其他數學任務中反覆出現,證實了理論預測的準確性。

在非數學推理任務中,情況稍有不同但總體趨勢相似。在SimpleQA任務中,RLVR確實發現了3個新的正確答案,但同時失去了13個原有的正確答案。在SciBench中,雖然RLVR發現了10個新答案,但失去了35個原有答案。

特別值得關注的是Reasoning Gym任務的結果。這個測試集包含了認知推理、幾何、圖論和常見遊戲等多種類型的問題。研究發現,RLVR在某些任務上確實表現出了顯著的支撐擴展能力,比如在graph_color_vertex20和arc_1d任務中,RLVR達到了接近完美的pass@k性能,而基礎模型即使在大量採樣下也表現不佳。

但是,這種成功案例相對稀少,且主要集中在那些基礎模型表現極差的任務上。對於基礎模型已有一定能力的任務,RLVR更多表現出支撐收縮的特徵。比如在leg_counting、family_relationships和power_function任務中,RLVR雖然在pass@1上有所改進,但在大采樣數下的表現反而不如基礎模型。

研究團隊還進行了困惑度分析來進一步驗證支撐約束。他們使用外部推理軌跡(來自DeepSeek-R1和Claude Sonnet 4)作爲參考,發現RLVR在這些可能超出基礎模型支撐範圍的軌跡上表現出明顯更高的困惑度。以AIME 2024爲例,困惑度從8.76上升到14.91,這證實了RLVR無法爲基礎模型支撐範圍之外的解決方案分配合理的概率質量。

**七、熵動力學的深層洞察**

研究團隊對熵的詳細分析提供了理解RLVR行爲的另一個重要視角。他們對9個不同規模和訓練方法的模型進行了全面的熵分析,結果顯示了一些既符合預期又令人驚訝的模式。

在答案級熵方面,所有RLVR模型都表現出了一致的降低趨勢,這驗證了理論預測。但令牌級熵的表現則更加複雜。一些RLVR模型(如ProRL-1.5B和DAPO-32B)顯示出令牌級熵的增加,而另一些(如AceReason系列)則顯示出降低。

這種差異可能與不同的訓練策略和模型架構有關。ProRL使用了專門的技術來維持訓練過程中的探索性,這可能解釋了爲什麼它在令牌級上保持了更高的熵。而AceReason可能採用了更激進的優化策略,導致在各個層面都出現熵的降低。

有趣的是,研究發現令牌級熵和答案級熵之間沒有強的相關性。一個模型可能在生成過程中表現出很高的不確定性,但最終產生的答案卻非常集中。這種現象被研究團隊稱爲"局部隨機性而非全局探索",它提醒我們在評估模型的探索能力時需要更加謹慎。

響應長度的分析也提供了有價值的洞察。幾乎所有的RLVR模型都傾向於產生更長的推理過程。在某些情況下,這種增長是顯著的:比如DeepSeek-1.5B從平均16363個token縮短到ProRL-1.5B的7786個token,而在其他情況下,如Qwen2.5-32B從1247個token增長到DAPO-32B的6908個token。

這種長度變化反映了RLVR對推理風格的影響。更長的推理過程可能包含更詳細的步驟說明和更多的中間檢查,這有助於提高準確性,但也可能導致在錯誤路徑上的過度投入。這再次體現了RLVR在精度和效率之間的權衡。

**八、對AI未來發展的深遠影響**

這項研究的意義遠遠超出了對RLVR技術本身的理解。它爲我們思考AI系統的能力邊界和發展方向提供了重要的理論框架。

首先,研究結果提醒我們要更加謹慎地評估AI系統的"智能"水平。當我們看到一個AI模型在某項任務上表現出色時,需要區分這是因爲它真正掌握了新的推理能力,還是隻是更好地利用了已有的知識儲備。這種區分對於理解AI的真實能力和預測其未來發展至關重要。

其次,研究強調了多樣性和探索性在AI訓練中的重要性。雖然RLVR在提高準確性方面很有效,但它可能以犧牲創新能力爲代價。這對於那些需要創造性解決方案的應用領域(如科學研究、藝術創作、複雜問題解決等)具有重要啓示。

研究還揭示了當前AI評估指標的侷限性。傳統上,我們主要關注pass@1等準確性指標,但這可能忽略了模型的探索能力和解決方案的多樣性。研究建議,在評估AI系統時應該同時考慮精度和覆蓋度,特別是在那些有多種有效解決方案的任務中。

對於AI研究者和開發者來說,這項研究提供了改進訓練方法的明確指導。它建議結合顯式探索機制、使用多樣化的訓練數據、以及採用混合訓練策略來克服RLVR的侷限性。這些建議爲開發更全面、更有創造力的AI系統指出了方向。

從更廣闊的視角看,這項研究也反映了科學研究中理論與實踐相結合的重要性。研究團隊不僅從數學上證明了RLVR的理論限制,還通過大量實驗驗證了這些預測。這種嚴謹的研究方法爲AI領域建立了一個很好的範例。

說到底,這項研究並沒有否定RLVR的價值,而是幫助我們更清楚地理解它的適用範圍和侷限性。對於那些有明確正確答案且解題方法相對固定的任務,RLVR仍然是一個非常有效的工具。但對於需要創新思維和多樣化解決方案的任務,我們需要開發新的訓練方法來補充或替代傳統的RLVR。

這種理解不僅有助於改進當前的AI系統,也爲未來的AI研究指出了重要的方向。正如研究團隊在論文中引用的維特根斯坦的話:"我的語言的界限意味着我的世界的界限。"對於AI系統來說,其訓練方法的界限往往決定了其能力的界限。要真正擴展AI的智能邊界,我們需要突破這些方法上的"無形枷鎖"。

未來的研究可能會探索更多創新性的訓練方法,比如主動學習、課程學習、元學習等技術的結合。這些方法有望在保持RLVR優勢的同時,克服其在探索性和創新性方面的不足。

最終,這項研究爲AI社區提供了一個重要的提醒:在追求更高性能的同時,我們也要關注AI系統的能力本質。只有深入理解這些系統的工作原理和侷限性,我們才能真正推動人工智能向着更加智能、更加有用的方向發展。對於普通人來說,這項研究幫助我們以更加理性和清醒的態度看待AI的能力,既不過分誇大其智能水平,也不忽視其在特定領域的價值。

Q&A

Q1:什麼是RLVR?它在AI訓練中起什麼作用?

A:RLVR是"可驗證獎勵強化學習"的簡稱,就像教孩子做題時給正確答案獎勵糖果一樣。當AI模型給出正確答案時,RLVR會給它"獎勵",讓模型學會更頻繁地產生正確答案。這種方法被廣泛用於訓練像DeepSeek-R1和OpenAI o3這樣的大型推理模型。

Q2:RLVR的"無形枷鎖"是什麼意思?

A:研究發現RLVR只能在基礎模型原有的知識範圍內進行優化,無法真正創造出全新的解題方法。就像從一個只裝紅球和藍球的盒子裡,無論怎麼練習都不可能抓到綠球一樣。RLVR主要是讓AI更善於使用已知的方法,而不是開發全新的推理能力。

Q3:這項研究會不會影響AI的未來發展?

A:不會阻礙發展,反而會促進更好的發展。研究揭示了當前方法的侷限性,爲改進指明瞭方向。未來的AI訓練可能會結合顯式探索機制、多樣化數據和混合策略,既保持RLVR在準確性上的優勢,又能突破其在創新能力上的限制。