VerifyBench:爲大語言模型的基於參考的獎勵系統搭建基準測試

在人工智能研究的浩瀚海洋中,大語言模型的訓練就像是一場精心編排的交響樂,而基於參考的獎勵系統則是這場交響樂中不可或缺的指揮棒。2025年5月,來自浙江大學、美團集團、北京大學等多家研究機構的研究團隊聯合發佈了一項創新研究——VerifyBench,這是首個專門評估基於參考的獎勵系統的基準測試。這項研究由浙江大學的嚴玉辰(作爲美團實習生期間貢獻)、姜進(美團集團和北京大學)、任振邦(浙江大學和電子科技大學)等研究者共同完成,發表於arXiv預印本平臺(arXiv:2505.15801v1)。

想象一下,如果大語言模型是一個正在學習做題的學生,那麼傳統的獎勵模型就像是老師在比較兩個答案:"A答案比B答案好"。而本研究提出的基於參考的獎勵系統則更像是老師拿着標準答案來判斷:"這個答案正確嗎?"這種看似簡單的區別,卻在培養大模型的推理能力方面產生了革命性的變化。

近年來,像OpenAI的o1和DeepSeek-R1這樣的大型推理模型在解決複雜推理任務方面展現出令人矚目的性能。這些模型的成功秘訣之一就是在強化學習過程中引入了基於參考的獎勵系統,通過將模型輸出與標準參考答案進行比對來評估質量。然而,目前的獎勵基準主要關注於比較不同回答之間的偏好,而非評估與標準答案的一致性,這在推理模型訓練中造成了關鍵的評估缺口。

爲什麼這項研究如此重要?想象你正在教一個人工智能學習解決數學問題。傳統方法會讓AI生成多個答案,然後告訴它:"這個答案比那個答案好"。而基於參考的方法則直接告訴AI:"你的答案與標準答案相符嗎?"這種區別看似微小,卻能極大提升AI在推理任務中的表現。VerifyBench正是爲評估這種能力而生。

研究團隊不僅構建了標準的VerifyBench,還創建了更具挑戰性的變體VerifyBench-Hard,兩者都通過精心的數據收集、整理和人工標註確保了高質量。通過對當前獎勵系統的全面評估,研究者發現,雖然基於大型模型的驗證器在標準案例上表現出色,但在更具挑戰性的實例上,所有現有系統都有顯著的改進空間。

接下來,讓我們深入瞭解這項研究的細節,看看研究團隊如何構建這個基準測試,以及這一創新性工作對未來大語言模型發展可能產生的深遠影響。

一、基於參考的獎勵系統:大模型推理能力的基石

想象一下,如果你正在教一個孩子學習解題,你會採用什麼方式?是給他兩個答案讓他選擇哪個更好,還是給他一個標準答案,然後讓他判斷自己的解答是否正確?顯然,後者在培養深入理解和準確推理能力方面更有效。這正是基於參考的獎勵系統的核心思想。

在大型推理模型(LRM)如OpenAI的o1和DeepSeek-R1的訓練過程中,基於參考的獎勵系統扮演着至關重要的角色。不同於傳統的偏好比較方法,這些系統通過將模型生成的輸出與權威參考答案進行比對來分配獎勵。這種方法在不同模型中有不同的實現方式:DeepSeek-R1採用基於規則的獎勵來防止獎勵黑客攻擊,而Seed1.5-Thinking等模型則採用基於模型的獎勵系統來生成更精確、更穩健的信號。

雖然基於參考的獎勵系統在訓練最先進的推理模型中被廣泛採用,但我們在系統地評估這些系統的能力方面存在顯著的差距。現有的基準幾乎完全專注於基於偏好的評估,評估獎勵系統正確排序競爭回答的能力。這種方法無法捕捉基於參考的驗證的要求,因爲後者需要根據客觀標準而非相對偏好來判斷回答。

缺乏專門用於基於參考的獎勵系統的基準測試限制了研究人員有效評估、比較和改進其驗證方法的能力,這可能阻礙了推理模型開發的進展。這就像是在沒有標準尺子的情況下試圖測量物體的長度,每個人使用的標準都不同,難以進行客觀比較和改進。

爲了填補這一關鍵空白,研究團隊引入了VerifyBench,一個專門設計用於評估基於參考的獎勵系統精度的基準測試。VerifyBench與現有獎勵基準的根本區別在於,它專注於絕對正確性判斷而非相對偏好評估。傳統基準要求獎勵模型確定兩個回答中哪個更好,而VerifyBench則挑戰系統驗證單個回答是否與參考答案正確對齊,這更準確地反映了推理模型訓練中的實際使用場景。

想象一下,如果傳統方法是在沒有標準答案的情況下判斷哪個學生的答案更好,那麼VerifyBench則是在有標準答案的情況下,判斷一個特定學生的答案是否正確。這種區別雖然微妙,卻能從根本上改變模型的學習方式和最終表現。

二、基準測試的構建:精心設計的評估工具

構建一個全面而公正的基準測試就像是設計一套完美的考試,既要涵蓋各種知識點,又要確保難度適中且評分標準一致。研究團隊在構建VerifyBench和VerifyBench-Hard時,採用了一系列精心設計的步驟來確保基準測試的質量和代表性。

首先,讓我們看看VerifyBench的構建過程。這個過程可以分爲四個主要步驟:查詢整理、答案類型標註、完成生成和預標註,以及人工標註。

在查詢整理階段,研究團隊收集了各種開源推理問題及其對應的參考答案,涵蓋了三個主要類別:一般推理、邏輯推理和數學推理,這些問題來自41個不同的數據源。這就像是從各種教科書和試題庫中挑選出代表性的問題,確保覆蓋不同的知識領域和難度水平。

接下來,爲了全面評估模型在不同答案格式上的表現,研究團隊定義了四種規範的答案類型:數值、代數表達式、多項選擇和自由形式字符串。使用通用大語言模型Llama3.3-70B-Instruct,他們進行了自動答案類型分類,隨後從每種類型中隨機抽樣2,000個實例,形成總計8,000個問題的最終候選池。

在完成生成和預標註階段,研究團隊使用了22個廣泛應用的開源和專有模型爲整理好的8,000個問題生成單次完成答案,共產生了176,000個完成答案。爲了分配初始正確性標籤,他們利用Llama-3.3-70B-Instruct在基於提示的判斷框架內進行評估。對於每個問題,隨機選擇四個完成答案,其中兩個被模型標記爲正確,兩個被標記爲不正確,並保留它們用於後續的人工標註。

人工標註是確保數據集質量的關鍵步驟。研究團隊對上述問題及其相關完成答案進行了人工標註,標註過程包括兩項主要任務:根據問題的表述和相應的標準答案確定最合適的答案類型,以及評估每個完成答案的正確性。每個問題都由至少兩名標註員獨立標註。如果他們的標註一致,則標註被確定;否則,第三名標註員會解決分歧以確保一致性並最終確定標籤。

最後,在基準測試構建階段,研究團隊發現模型預測在答案類型和完成答案正確性方面存在明顯的偏差,導致數據分佈不平衡。爲了緩解這一問題,他們進行了受控的下采樣,以確保類別級別的均勻表示和平衡的正確性標籤。具體來說,他們保留了每種答案類型的250個問題,總計1,000個問題。每個問題都配對了兩個完成答案,一個正確,一個不正確。最終的數據集VerifyBench因此包含2,000個均衡的問題-答案-完成答案-正確性元組。

接下來,研究團隊構建了更具挑戰性的變體VerifyBench-Hard。這個數據集的構建過程同樣精心設計,包括完成答案生成、難度過濾和人工標註三個關鍵步驟。

在完成答案生成階段,研究團隊使用18個開源模型爲前面描述的查詢生成單輪完成答案。由於生成量龐大和相關的計算成本,閉源模型在這個階段被排除。總共生成了約145萬個完成答案。

在難度過濾階段,研究團隊使用了在VerifyBench上表現最好的五個大型模型(包括Llama-3.3-70B-Instruct、Llama-4-Scout-17B-16E-Instruct等)來評估生成的完成答案的正確性。基於它們的判斷,研究團隊識別出了模型判斷存在分歧的問題-答案-完成答案元組,特別是那些兩個模型的評估與其他三個模型評估不同的情況。爲了確保均衡和全面的表示,研究團隊在數據領域和來源上應用了分層抽樣,最終選擇了2,000個樣本進行人工標註。

人工標註階段與VerifyBench的標註過程類似,重點關注兩個關鍵方面:確定答案類型和確定每個完成答案的正確性。每個實例都由至少兩名標註員獨立標註。如果兩名標註員都同意,則標註被確定;當出現分歧時,會諮詢第三名標註員來解決衝突。

基準測試構建的最後階段,研究團隊排除了被識別爲不適合納入基準測試的樣本。這一過濾導致最終得到1,000個問題-答案-完成答案-正確性元組。與強制每個問題配對一個正確和一個不正確完成答案的VerifyBench不同,VerifyBench-Hard是通過自然抽樣產生的。研究團隊觀察到,較大的模型更有可能錯誤地接受不正確的答案爲正確,導致數據集中自然偏向不正確的完成答案。

通過這些精心設計的步驟,研究團隊成功構建了兩個高質量的基準測試,爲評估基於參考的獎勵系統提供了堅實的基礎。這就像是設計了兩套不同難度的考試,一套用於評估基本能力,另一套則用於測試更高級的技能。

三、評估結果:現有系統的表現與挑戰

當我們手握了這兩個精心設計的基準測試後,自然要問:現有的系統表現如何?就像老師拿着新設計的考卷,迫不及待想知道學生們能得多少分一樣,研究團隊對各種驗證方法在VerifyBench和VerifyBench-Hard上進行了全面評估。

首先,研究團隊採用了廣泛使用的基於規則的方法math-verify作爲基線。在LLM作爲評判者的設置中,他們通過提示LLM執行驗證,詳細的提示模板在原論文附錄中提供。評估結果揭示了幾個關鍵發現和見解。

現有模型在VerifyBench上表現良好。構建VerifyBench的主要目標是爲基於參考的獎勵系統的客觀評估建立一個基準。爲此,研究團隊在各種領域和答案類型上設計了具有平衡分佈的數據集,爲每個問題配對了一個正確和一個不正確的完成答案。這種結構有助於對獎勵模型性能進行嚴格而公平的評估。值得注意的是,最先進的大語言模型在這個基準上已經表現出色:GPT-4o-mini達到了92.85%的平均準確率,而Qwen3-32B則達到了95.8%,突顯了大語言模型作爲驗證器在這種情況下的高可靠性。

然而,VerifyBench-Hard確實具有挑戰性。爲了更有效地區分各種模型的性能,研究團隊構建了VerifyBench-Hard,選擇了多個大語言模型在驗證輸出上存在實質性分歧的案例。評估結果表明,模型在VerifyBench-Hard上的表現明顯低於在VerifyBench上的表現。達到的最高準確率爲72.4%,相比於在VerifyBench上的表現下降了20%。這一性能差距凸顯了當前大語言模型精確驗證能力的顯著改進空間。

小規模模型仍有發展潛力。在實際的強化學習場景中,獎勵系統的推理效率顯著影響整體訓練速度。由於此類驗證任務通常涉及生成式推理,其計算成本與展開過程本身相當。因此,有效利用較小模型執行驗證是一個值得探索的實用問題。根據研究結果,小參數(<3B參數)的模型在VerifyBench上表現明顯較差,Qwen3-1.7B達到81.10%的準確率,而Llama-3.2-3B-Instruct僅達到60.95%的準確率,而較大規模的模型能達到超過90%的準確率。因此,提升較小模型在這些驗證任務上的能力代表了未來研究的一個有價值方向。

研究團隊還進行了多項深入分析。例如,他們研究了參考答案在驗證過程中的重要性。這項研究提出的基準測試與現有獎勵基準的根本區別在於明確納入參考答案,從而更緊密地與當代推理大語言模型的訓練設置保持一致。爲了隔離參考答案對驗證性能的影響,研究團隊進行了一項消融研究,在不提供提示中的參考答案的情況下評估模型。

實驗結果顯示,當排除參考答案時,性能下降約5-18%。這些發現強調了參考答案在面向推理的強化學習中的關鍵作用,表明它們在獎勵建模過程中提供了更可靠、更信息豐富的監督信號。這就像是給學生提供標準答案進行對比學習,而不是讓他們在沒有參考的情況下獨自摸索。

研究團隊還評估了無參考獎勵模型的表現。爲了對現有獎勵模型進行更全面的評估,他們額外評估了幾個無參考獎勵模型,並將其性能與傳統的成對獎勵評估數據集進行了比較。值得注意的是,VerifyBench中的每個問題都包含一個正確和一個不正確的完成答案,使其能夠直接重新表述爲標準成對評估實例。

實驗結果表明,VerifyBench在沒有參考答案的情況下引入了與現有獎勵基準相當的挑戰水平。無參考獎勵模型在VerifyBench上達到低於80%的準確率,突顯了其難度。此外,特定領域的獎勵模型在一般獎勵基準上的表現不如在VerifyBench上的表現,驗證了基準測試的設計目標。

四、深入分析:錯誤模式與挑戰

爲了從VerifyBench中獲得更深入的見解,研究團隊爲每種答案類型引入了更精細的分類法,並分析了模型在這些子類別中的表現。這種詳細分析有助於識別模型特別容易出錯的特定推理任務或答案格式。

研究團隊將數值類別細分爲8個子類型,表達式細分爲5個子類型,多項選擇細分爲3個子類型,字符串細分爲2個子類型。研究團隊對每個主要類別中表現低於平均水平的子類別進行了進一步分析,確定了最常見的錯誤判斷來源,具體包括:

在數值類別中,複數和包含多個數值的答案最容易導致錯誤。在表達式類別中,代數公式和方程是最具挑戰性的。在多項選擇類別中,多答案選擇問題最難判斷。在字符串類別中,需要語義一致性驗證的字符串最容易引起困惑。

研究團隊分析了最容易出錯的樣本,識別出一個常見的潛在問題:模型經常無法完全理解問題或清晰識別預期目標。例如,在涉及多值答案的情況下,值的順序通常無關緊要。然而,如果模型輸出中的值序列與黃金答案不同,模型往往會錯誤地將響應分類爲錯誤。

類似地,表達式類別中的錯誤,特別是涉及代數公式和方程的錯誤,主要源於數學理解不足。具體而言,當模型輸出未簡化的表達式時,與標準答案相比,表面文本差異可能很大。模型傾向於根據表面文本差異而非數學等價性進行評判,導致驗證失敗。

這就像是一個過於嚴格的老師,只看答案的形式而不考慮實質內容。例如,如果標準答案是"2x+2",而學生寫的是"2(x+1)",雖然兩者在數學上是等價的,但機械的比對會認爲學生答錯了。

爲了進一步驗證VerifyBench的實用性,研究團隊進行了相關性分析,探討了VerifyBench與實際強化學習性能之間的關係。研究團隊構建VerifyBench和VerifyBench-Hard的目標是通過提高基於參考的獎勵系統的準確性來改進推理模型的強化學習。爲了評估基準測試的實際效用,研究團隊進行了相關性分析,探討了VerifyBench與實際強化學習性能之間的關係。

在實驗中,研究團隊應用拒絕採樣來實現基於參考的獎勵系統。對於GSM8K和MATH訓練集中的每個問題,他們使用Qwen2.5-Math-7B-Instruct生成64個候選完成答案,採樣溫度爲0.7。這些回答隨後由三個在VerifyBench上表現水平不同的驗證器模型進行篩選:Llama-3.1-8B-Instruct、Qwen3-4B和Qwen3-1.7B。只有被一致驗證爲正確的完成答案才被保留,形成SFT訓練數據。研究團隊據此進行了獨立的SFT訓練運行。

結果表明,在GSM8K、MATH500和SVAMP這三個數學推理基準測試上,使用在VerifyBench上獲得更高準確率的Qwen3-4B作爲驗證器,在相同訓練步驟下始終優於得分較低的Llama-3.1-8B-Instruct。這突顯了VerifyBench與實際應用之間的強烈一致性。該基準測試是可靠的工具,可以指導獎勵系統的開發,導致更有效的訓練和改進的模型性能。

五、未來方向與侷限性

雖然這項研究取得了令人鼓舞的成果,但研究團隊也坦誠地承認了工作中的一些侷限性,並指出了未來研究的潛在方向。

首先,數據領域的限制。該研究僅使用了來自一般推理、邏輯推理和數學推理的數據集,沒有涵蓋全部推理類型,如常識推理。因此,測試集可能無法充分評估獎勵系統在領域外場景中的質量。這就像是一個考試只測試了部分科目,而沒有全面評估學生的所有能力。

其次,人工標註的偏差。雖然所有標註員都經過了培訓,並採用了雙重檢查策略,但在手動標註過程中完全消除標註偏差仍然具有挑戰性。這種主觀性可能會對數據質量產生微妙但重要的影響。

第三,獎勵黑客攻擊的識別。雖然實驗表明基於規則的獎勵系統在VerifyBench和VerifyBench-Hard上的表現都不如基於模型的方法,但一個關鍵問題仍未解決:獎勵黑客攻擊。未來的研究應該關注檢測和評估獎勵黑客現象。獎勵黑客是指AI系統找到了滿足獎勵函數但違背其設計意圖的捷徑,就像學生找到了應付考試但不真正掌握知識的技巧。

第四,證明問題的排除。在標註過程中,研究團隊明確排除了基於證明的問題。研究團隊認爲此類問題需要更專業的驗證方法,如形式語言Lean4。因此,證明問題未包含在本研究中,其驗證仍然是一個開放的研究挑戰。

最後,二元評分系統的侷限性。該研究採用了二元評分系統,每個完成答案被標記爲正確或不正確。然而,現實場景通常涉及更微妙的情況,如部分正確的推理過程或子問題的正確解決方案。引入更精細的評估方案可能更好地捕捉這些複雜性。

這些侷限性不僅爲未來研究提供了方向,也爲使用這些基準測試的研究者提供了重要的背景信息,幫助他們正確理解和解釋結果。

六、結論與意義

在這項開創性的研究中,研究團隊提出了兩個專門的基準測試——VerifyBench和VerifyBench-Hard,用於評估基於參考的獎勵系統在面向推理的強化學習環境中的表現。這些基準測試基於高質量、精心收集的數據和廣泛的人工標註構建,爲理解驗證器準確性提供了堅實的基礎。

研究結果揭示了當前驗證器,尤其是參數較小的模型,在準確評估推理完成答案方面仍面臨相當大的挑戰。通過詳細分析不同數據領域和答案類型的性能模式和錯誤類別,研究團隊爲改進基於參考的獎勵系統提供了有價值的見解。

這項研究的實際意義不容忽視。在強化學習訓練中,高質量的獎勵信號是培養強大的推理能力的關鍵。通過提供評估和比較不同驗證方法的標準化框架,VerifyBench和VerifyBench-Hard可以指導研究者開發更準確、更可靠的基於參考的獎勵系統,最終提升通過強化學習訓練的模型的推理能力。

這就像是爲教育系統提供了標準化測試,幫助教育者評估和改進他們的教學方法,最終培養出更具批判性思維和解決問題能力的學生。在人工智能領域,這種能力的提升可能對科學研究、醫療診斷、金融分析等需要強大推理能力的應用產生深遠影響。

總之,這項研究不僅填補了評估基於參考的獎勵系統的關鍵空白,還爲未來的研究提供了豐富的見解和明確的方向。隨着大型推理模型繼續發展,VerifyBench和VerifyBench-Hard將成爲確保這些系統能夠有效學習、準確推理和可靠執行復雜任務的重要工具。

最後,對於有興趣深入瞭解這項研究的讀者,可以通過訪問arXiv:2505.15801v1獲取完整論文,或訪問ZJU-REAL/VerifyBench查看相關代碼和數據集。