基模下半場:開源、人才、模型評估,今天的關鍵問題到底是什麼?

關於基模的討論又重新熱鬧起來了。

Kimi、Qwen、智譜的開源模型接力發佈,Hugging Face 上中國模型基本壟斷了熱門榜。就在今天,階躍星辰的 Step-3 也開源了。

另外一方面,小扎瘋狂挖人重新做 Llama,最近的公開信又暗示說 Llama 5 可能不會開源。

開源模型的標準眼瞅着要變成中國模型,大模型的競爭實質上已經變成了中美 AI 的比拼。

RL、CoT、Agentic、Coding……相比較這些技術或能力的討論,今天的大模型,可能更需要一個能夠更好評測它們能力的好的基準測試。是的,

Interconnects 作者,Ai2 研究科學家 Nathan Lambert 最近採訪了 Meta AI 的前推理團隊負責人 Ross Taylor ,他曾主導 Llama 2 和 Llama 3 等模型的研發工作,就今天開源模型的現狀、模型訓練團隊的優劣,以及模型評測的問題等,兩人進行了一場深聊。基於對談,Founder Park 進行了編譯,整理了對談的精華內容。

TLDR:

一旦某種模式被驗證可行,它的實現本質上就成了一個工程問題,而中國最擅長處理工程問題。

如果把模型視爲基礎設施,中國的開源模型未來會成爲發展中國家的模型標準。

不同機構間的人才差異並沒有那麼大,聰明人最終總能想出辦法。好模型和壞模型的差異,往往反映的是資源和人才利用效率的問題。

找到模型的正確方向,歸根結底是實驗速度,以及擁有合適的基礎設施和足夠好的基礎模型,不僅僅只是人才。

現在能做出好的評測,可能比以往任何時候都有更大的影響力。好的評測可以帶來新的話語權。

在「機器學習的下一個任務是什麼」這個問題上,還有巨大的藍海,有人可以去定義它,而且定義這個並不需要龐大的算力集羣。

RL 無法泛化到數學和代碼之外的說法被嚴重誇大了,從數學和代碼開始的原因是,因爲它們很容易被驗證。

超 10000 人的「AI 產品市集」社羣!不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者,飛書掃碼加羣:

進羣后,你有機會得到:

最新、最值得關注的 AI 新品資訊;

不定期贈送熱門新品的邀請碼、會員碼;

最精準的AI產品曝光渠道

01中國模型成爲開源標準,意味着什麼?

Nathan Lambert:這兩週,中國的達模型動作很頻繁,智譜的 GLM-4.5 到月之暗面的 Kimi 2,再到阿里的Qwen3,勢頭很猛,發展速度驚人。你認爲,對美國市場產生什麼影響?未來半年,行業格局會怎麼變?

Ross Taylor:難得一天沒刷 Twitter,早上你跟我說這些新模型 GLM-4.5 時,我趕緊補了課。這大概能說明,在開源領域,哪怕一天不關注,都可能感覺像落後了兩個月——當然這有點誇張。我覺得大趨勢就是快速變化的。

回顧一年前,Llama 2 模型還是相當穩固的行業「標杆」。雖然之前中國的大模型有動作,但遠不如現在的鋪天蓋地。尤其中國的商業文化,一旦發現某個方向可行,就特別擅長集中資源追趕,所以我們纔看到這個領域競爭異常激烈。

從不同維度看,這個背景都很有意思。比如地緣政治維度,就像你之前提到的:如果開源標準變成了中國模型,會意味着什麼?如果把這些模型視作基礎設施,而不只是驅動產品的工具,那麼中國若想成爲整個「全球南方」*的標準,似乎就佔據了巨大優勢。

注:全球南方,發展中國家和新興市場國家的集合體,通常包括非洲、拉丁美洲、亞洲和太平洋島嶼等地區的發展中國家。

Nathan Lambert:爲什麼中國在訓練語言模型上看起來這麼順利?

Ross Taylor:我不想泛泛而談,畢竟很多中國新機構在創新上做得不錯,比如這周的 GSPO (Qwen 3 的 RL 算法)就是個好例子。但總體感覺是,一旦某種模式被驗證可行,它的實現本質上就成了一個工程問題,而傳統上,中國的工程文化很適合在這種情況下取得成功。

另一個角度是,尤其在 DeepSeek 之後,政府很擅長識別成功方向並允許資源投入,特別是在公私合作方面。我今天早上就在 Twitter 看到一個討論:清華大學有了自己最先進的語言模型,爲什麼麻省理工學院(MIT)沒有?

Nathan Lambert:他們好像資源不足。

Ross Taylor:是啊。我覺得美國會意識到這一點。不過,智譜是從清華大學孵化的創業公司,所以這個類比可能不太恰當。而且阿里巴巴顯然是大贏家,既有通義千問(Qwen),又投資了月之暗面,好像也投了智譜。

我更感興趣的是,他們爲什麼都選擇開源?這比人才問題重要得多。美國當然也有大學孵化的模型機構,但並非所有大學都這樣做,MIT 也許會做,但例子還是少數。不過我也同意,美國應該爲學術界部署更多算力,很多大學正在建設中,只是需要時間。這裡面因素很複雜。

我覺得人們對事情的實際運作方式有點信息不對稱,誰也不知道內部到底發生了什麼。另外,人們總把開源模型看作一個同質化的類別,但其實它們的用例大不相同。比如我想發一篇關於推理的新論文,可能會用 Qwen 模型;但如果要做模型蒸餾,我就會用 DeepSeek 或者 Kimi。

這又回到了 OpenAI 的問題上。我確信他們會發布很棒的模型,但不太清楚它會如何融入現有的生態系統。它會成爲人們做研究的基礎嗎?如果它是一個經過後訓練(post-trained)的模型,那大概率不會。

Nathan Lambert:OpenAI 最近的宣傳重點是安全,我懷疑新模型推遲發佈與此有關,這很符合他們的文化。如果真是因爲安全問題,他們大概率不會發布基礎模型。所以我認爲,這次發佈不會改變整個生態系統,頂多算一個有趣的獨立發佈。

Ross Taylor:是的。可以理解爲,他們只是想提煉現有基礎設施的精華,填補市場空白,而非公開自己的架構選擇。回到之前的問題,Nathan,你覺得 OpenAI 的開源模型在用例上更像 Kimi、DeepSeek,還是和 Qwen 一個級別?或者會是完全不同的東西,比如更小的端側模型?

Nathan Lambert:我預計它會更小。如果強化學習(RL)是 OpenAI 的強項,那在開源社區發佈 RL 模型的一大挑戰是,訓練基礎設施必須和推理基礎設施相匹配。所以,除非他們在一個大家普遍能用的開源環境(比如 vLLM)裡訓練,否則不可能直接發佈模型說「你們可以在自己的開源棧裡做搜索和代碼執行了」。我覺得工具使用天生會鞏固閉源模型的地位,因爲讓工具與模型完美匹配能帶來巨大優勢。

Ross Taylor:是的。我看到 Qwen 在函數調用等方面做得不錯;Kimi 的基準測試中,在智能體(agentic)工具使用上表現還可以。另外,他們有個不錯的訓練創新,就是調用 MCP 服務器,這是一種很好的合成數據策略。但這也得看情況,畢竟我們看到的主要是頭條新聞裡的評測數據,這些不能全信。

Nathan Lambert:我認爲 Claude 3 Opus 的發佈,在某種程度上終結了追逐評測分數的風氣。單看紙面數據,它的發佈平平無奇,但給所有人的實際體驗都非常紮實。

Ross Taylor:我幾個月前就在思考一個問題:一個模型發佈後的影響力時間線是怎樣的?第一天,說實話,都是些基準測試分數,比如「我在 MMLU Pro 上拿了多少分」。第二天,人們開始在 Twitter 上做各種奇怪的定製化評測。

Nathan Lambert:比如關於鵜鶘、旋轉六邊形和球之類的測試。

Ross Taylor:到這個時候,你的信心會更足一些。因爲你會想,除非模型公司特別聰明——我相信有些人確實聰明——否則不太可能針對第二天的這些基準測試做優化。這時你纔會開始相信,這個模型可能真的具備泛化能力。然後要再過一到兩週,才能得出真正的結論:「我在多個實際場景中都用過了,它確實很棒。」

Nathan Lambert:我有一個觀點,你來反駁看看:相比 OpenAI、Google 和 Anthropic,中國的模型供應商是否更側重於針對基準測試進行優化?在我看來,這一點顯而易見。

Ross Taylor:是的,而且因爲一些有利因素,這個問題還沒有完全暴露出來。試想,你是一位研究推理論文的學者,你自然會在數據可得的領域做研究,比如數學和代碼——而這些恰好是他們優化過的領域。所以,即便有些研究反過來強化了 Qwen 的使用場景,也未必能測試出模型泛化能力的邊界。畢竟我們知道 Qwen 在數學和代碼上經過了大量中間步驟的訓練,可能並沒有在更有趣的邊緣場景中去測試它。

02頂尖人才很重要,但不是決定性因素

Nathan Lambert:如何爲訓練語言模型設計高效的組織架構和文化?之前聊過這個,展開談談吧。

Ross Taylor:在社交媒體上,你會看到一個普遍趨勢,就是像 NFL 選秀一樣官宣某人被某機構招募。其實研究人員在不同機構間流動很正常,不算新鮮事,很多被大肆宣傳的跳槽就是常規的人員流動。

但我覺得,至少在 Twitter 上,大家普遍認爲許多語言模型項目的瓶頸是「技術問題」。可根據我的個人經驗,並非如此。有很多方式可以論證這一點,我想從一個基本點說起:機器學習是一門高度依賴經驗的科學。在這種背景下,「天才」或「天賦」到底意味着什麼?

當然,有些技能很有用,比如設計最小可行性實驗、快速迭代以避免研究方向走入死衚衕。但很多時候,這歸結於努力工作、良好的基礎設施和充足的資源。在這種情況下,大多數機構即便在某些公開的失敗之前,也都擁有非常優秀的人才。老實說,不同機構間的人才差異並沒有那麼大,聰明人最終總能想出辦法。

所以,好模型和壞模型的差異,往往反映的是將資源輸送給人才的效率問題。我認爲這是根本。你可能會反駁:「Ross,如果真是這樣,扎克伯格爲什麼要花那麼多錢招人?」 我覺得這是另一個問題。

Nathan Lambert:不,這正是問題的核心。你怎麼看 Meta 大手筆招人的舉動?

Ross Taylor:我對此有些矛盾。一方面,我覺得新團隊很可能做出非常好的模型,他們都是聰明人。而且成立新機構也是正確的做法,在領導層看來,可能就是:「我們已經嘗試過很多次,態度非常認真,也有資源,所以要下最大的賭注。」 我覺得這大體上是正確的,雖然開銷大,但還不算天文數字。

但另一方面,我確實爲一些人感到惋惜。這並非特指 Meta,而是一種普遍現象。很多機構沒有好的機制來識別內部那些努力工作的優秀現有人才,反而傾向於另起爐竈。我覺得這纔是悲劇所在。所以我的想法很矛盾:既認爲他們會做出很棒的模型,從頭開始是正確的策略;又覺得那些爲前幾代模型成長做出貢獻的人,有時在貢獻價值後,就被當作消耗品,然後公司再轉向新的一批人才。這不止是 Meta 的問題,非常普遍。

Nathan Lambert:你曾把大模型實驗室比作「絞肉機」,消耗人才。具體來說,研究員是被動地分配任務,還是有很大自由度在一線自主探索?

Ross Taylor:我覺得是這樣。不幸的是,很多成功科技公司的模式就是招募非常年輕、積極、聰明的員工,他們願意爲宏大的使命投入大量時間——就像馬斯克最初經營公司的方式。很多前沿實驗室也是這種模式:有一羣「士兵」,表面上像十年前對衝基金裡的量化分析師,願意爲自認爲有影響力的事業投入難以置信的長時間工作;同時還有一種友好的競爭文化,每個人都想成爲最優秀的那個。

Nathan Lambert:我認識不少OpenAI的人,他們的工作時間確實很長。

Ross Taylor:是的。而且決策通常由經驗更豐富,或者至少有過成功經驗的人來做。但在這種環境下,你需要「士兵」,因爲競爭太激烈了。我覺得這很可惜。至少我現在創業,就在思考:我們當然需要努力工作,但有沒有替代方案?能不能投資於員工,而不是把他們當成消耗品,用完就換一批?這正是我在摸索的答案。

Nathan Lambert:如今科技界很多人都變得有些憤世嫉俗,包括我自己。比如,我收到一個剛畢業本科生的求職郵件,寫得非常好,我覺得兩三年後這人肯定很厲害。我跟同事聊「該怎麼留住這樣的人才」,他們卻說:「反正留不住,兩年後他就會去 OpenAI,我們什麼好處也得不到。」

所以,在 Llama 4 的傳聞裡,有人說他們在進行史上最「牛仔式」的瘋狂模型訓練,比如中途修改預訓練數據配比。這是否說明,高壓環境和晉升壓力導致了這些混亂?

Ross Taylor:有意思的是,從我聽到的情況來看,所有這些實驗室內部其實都很混亂,可能每週都在改變方向。這就是我們所處領域的本質。但有些實驗室確實很擅長在外部營造「一切盡在掌握」的形象,甚至宣稱內部已經有了 AGI 之類的。

事實是,到處都是一團糟。關鍵在於,既然註定要亂,至少要做一個能正常運轉、能產出好模型的「亂攤子」。在我看來,實驗室文化傾向於過分看重原始天賦,尤其是在這門經驗科學裡。如果你認爲經驗科學主要關乎「實驗速度」,那你不僅會重視基礎設施,還會重視那些樂於協作、願意幫助別人的人。在一個推崇個人能力的領域,這聽起來可能有點虛,但我真的覺得,在做邊際招聘決策時,應該考慮這個人能爲現有團隊帶來多少增值。這些因素其實被低估了,因爲現在大家想的都是:找到最聰明的人,讓他們去完成那些看似高深的任務。所以我覺得在人才方面有新的玩法可以探索,但這很難。

Nathan Lambert:這麼說,如今的差異化,其實在於那些願意投入更多高度專注的時間去「擰螺絲」的人。

Ross Taylor:這或許能引出另一個可能更具爭議的觀點:即使是機器學習中那些看似更像新穎研究的領域,也可以看作是一種堅持,而非靈感的迸發。比如去年這個時候,我們都在猜測 o1 和 Strawberry 是什麼,總讓人覺得是了不起的新東西。但實際上揭曉時,它們基本就是我們兩年前就在做的事:強化學習和可驗證的獎勵機制。只不過他們可能用了很好的基礎模型,還做了足夠的消融實驗來找到有效的組合。

我知道這是事後諸葛亮式的過度簡化,但關鍵是,他們必須通過大量工作才能找到那個「好食譜」。這歸根結底是實驗速度,以及擁有合適的基礎設施和足夠好的基礎模型。在這樣的世界裡,「天賦」是什麼?是那個說「我們應該讓模型思考得更多」的人,還是在一線做消融實驗、找出哪個「食譜」有效的人?

Nathan Lambert:既然這些機構內部如此混亂,這對技術進步的上限意味着什麼?如果內部這麼亂,我傾向於認爲上限還遠未達到。

Ross Taylor:我覺得這很有趣。因爲即便在組織混亂的環境中,仍然會有一些東西「水漲船高」。近期的好例子就是像國際數學奧林匹克(IMO)那樣的金牌級成果。我記得好像是三個不同的實驗室,用不同的方法,都跨過了那個門檻。如果把時間拉長,比如 20 年後回望現在,你會關注這些研究者用的具體方法嗎?還是隻會說:「哦,他們只是達到了某個計算的臨界閾值,然後事情就開始起作用了。」

不幸的是,計算能力是驅動這一切的巨大指數級因素。如果縮短時間的尺度,就會看到更多具體問題,比如當前瓶頸在哪裡。也許智能體模型的瓶頸在環境,也許推理能力提升的瓶頸在更長的上下文窗口。這些都是短期問題。但從根本上說,只要計算能力持續增長,我覺得趨勢就向好。所有這些組織上的混亂都只是短期噪音,會稍微拖慢進程,但長遠來看意義不大。

03更難的不是 RL,而是好的模型能力評測

Ross Taylor:你認爲一年後,大家所關注的大語言模型關鍵基準會是什麼樣的?

Nathan Lambert:肯定會是和某種智能體(agentic)相關的。我認爲,單純靠擴大模型規模已經不是主要的發展路徑了,所有市場宣傳都在轉向「智能體」。部分原因是擴大參數規模已經不容易了。強化學習的規模化正在發生,但不會帶來巨大飛躍,因爲每條強化學習的曲線都是對數圖,我們已經實現了性能的第一個對數級增長。但智能體相關的應用效果也很好。

我覺得這是個有趣的市場營銷問題,所有實驗室都需要重新思考如何傳達模型的優勢。Claude 3 Opus 發佈時沒能成功傳達其優勢,但因爲它本身足夠好,所以沒關係。但現在所有人都需要改變這種敘事方式。

Ross Taylor:我同意你的看法。過去幾年我做 Papers with Code 平臺時,非常注重評測(evals)。我覺得,現在能做出好的評測,可能比以往任何時候都有更大的影響力。但在機器學習領域,這很奇怪,因爲傳統上做評測不是那麼重要,研究人員寧願去訓練模型。但現在,定義指標的能力,比如定義一種你希望看到的能力,像模型擅長交易股票或做科學研究等等,都會帶來巨大的槓桿效應。哪怕僅僅是在在大學的研究中。他們可以說:「這就是我們智能體應該努力實現的新北極星指標」,並通過這種方式來掌控話語權。

Nathan Lambert:是的,我們發佈了一個替代 IFEval 的評測,叫 IFBench,目標就是讓前沿實驗室使用它。我給OpenAI的人發了消息,他們說:「哦,我們上週已經用上了。」

Ross Taylor:是的,這影響力太大了。另一個有趣的點是,製作和使用好的評測的門檻會越來越高了。比如 OpenAI 的一些評測,在某些基準測試中,強化學習智能體需要有 GPU 才能做機器學習研究,還得啓動大量服務器。那種只有兩個 CSV 文件(一個訓練集一個測試集)的舊時代已經一去不復返了。

這還只是用戶端。在評測創建者那邊,隨着模型能力越來越強,一個糟糕的評測只會導致模型出現極其嚴重的 「獎勵投機」(reward hacking),什麼也學不到。

Nathan Lambert:你認爲後訓練(post-training)階段的評測,是不是最難做好的?

Ross Taylor:是的,而且你會看到越來越多聲稱效果不錯的案例,但細看會發現是極其瘋狂的「獎勵投機」(reward hacking)。最近有個梗是 KernelBench 評測,數據中驚人的加速比,卻連硬件配置的基本信息都沒提供。這說明,即便對於這類任務,做出好的評測也需要大量工作。問題不在於 KernelBench 本身,而在於發表論文卻不仔細看結果的人。所以我認爲,在「機器學習的下一個任務是什麼」這個問題上,還有巨大的藍海,有人可以去定義它,而且定義這個並不需要龐大的算力集羣。

Nathan Lambert:關於模型推理方面,你對過去六個月裡相關的學術研究有什麼看法?有進展嗎?

Ross Taylor:我認爲模型推理的研究進展甚微。字面意義上的「甚微」,但確實有一些。這個問題可以從不同方面展開。DeepSeek 出現後,開源領域至少有兩種主流技術方向:要麼走蒸餾路線,做小模型;要麼走強化學習(RL)的訓練路線。從實踐工程角度來看,蒸餾相對小參數的模型遠比做 RL 高效。但顯然,從學術角度看,大家更想做 RL。

這裡的困難是個經典問題:算力不夠時,你不知道強加的結構能否泛化。我擔心很多研究成果是在相對較低的算力預算下得出來的,這既包括決定RL方法學習效果的基礎模型,也包括訓練步數。所以除非有巨大的性能提升,否則很難看出什麼技術是真正重要的。

在我看來,最有用的東西反而相當無聊。比如 DAPO 論文裡說的,不應該過濾過長的序列,不應該有偏見。還有一些有趣的工作表明,即便在 GRPO 中一些簡單方法(比如裁剪)也可能有效。但即便如此,我們還是沒法確定哪種算法能泛化到智能體上。

Nathan Lambert:最近新出來的 GSPO 算法,也就是「分組序列策略優化」,你爲什麼更看好這個算法?

Ross Taylor:本質上,在 GRPO 中,你爲整個序列分配一個獎勵,也就是優勢函數。但你有一個重要性權重,即新策略與舊策略的可能性比率。問題是,雖然獎勵是統一應用於序列中的每個 token,但重要性權重是針對序列中每個單獨的 token 計算的。如果你只基於單個序列來計算,實際上會引入大量的方差。

GSPO 的做法是,不再看單個 token 的可能性,而是看整個序列的可能性。所以現在,裁剪不再是基於單個 token,而是看你組裡的一個序列,然後說:「哦,這個序列的可能性較低,我們就忽略它。」從他們展示的結果來看,這似乎大大提高了樣本效率,提升不是幾個百分點那麼簡單。我之所以更相信這個算法,是因爲它非常簡單,而且從重要性採樣的基本原理來看,它的方向似乎是正確的。

Nathan Lambert:我還是持懷疑態度。我覺得 GSPO 的序列概念挺有意思,但它真能算重大進步嗎?不過,對初級研究者來說,這個時代的好處之一是,通過研究這些算法、思考實現方式,能真正學到數學知識。

Ross Taylor:是的,很有趣。在 ChatGPT 火起來之後,我看到越來越多人讀論文,總體是好事,但很多人讀論文的方式不對。對我來說,基本邏輯是:論文報告的增益有多大?引入了多少複雜性?如果增益不大但複雜性高,很可能經不起時間考驗;如果相對簡單卻有不錯的增益,纔可能流傳下來。

Nathan Lambert:這就是 o1 帶來的教訓:簡單的東西勝出。RL研究裡有種說法:如果某個東西只比基線好幾個百分點,很可能沒用;但如果是兩倍的提升,那纔是真正的創新。

Ross Taylor:完全正確。推理領域還有一點,我理解人們專注於數學和代碼,因爲那裡有數據。但我真的覺得,基於 AIME 和 GPQA 基準的論文,遠沒有之前那麼有趣了。

Nathan Lambert:代碼可以做得更好,但很難衡量。目前在學術論文中,沒有在做相關研究的。

Ross Taylor:是的,即使是成熟的基準測試也是一樣。比如 SWE-bench,雖然是好的測試基準,但絕大多數問題都來自 Django。我不是貶低它,它確實很棒。但做出好的編碼基準或其他類型的基準,還有很多細節工作要做。

我現在的處境挺矛盾的:一方面,看着那些只在數學和代碼上「爬山」的論文,覺得根本上很無趣;另一方面,也同情他們,除了這個還能做什麼呢?開源社區裡目前沒有多少好的開源推理數據集,而那些開源的,我認爲基本上不能用。

Nathan Lambert:這倒是個很好的轉折點。除了數學和代碼,強化學習(RL)的規模化和泛化現狀如何?

Ross Taylor:首先,我認爲「RL無法泛化到數學和代碼之外」的說法被嚴重誇大了。實際情況是:OpenAI 最初非常專注於數學、邏輯和謎題,後來不得不拓寬範圍,因爲模型變得過於理性,只關注那些基準。但 RL 能否泛化到其他基準,從來都不是問題。

我們從數學和代碼開始的原因是,因爲它們很容易被驗證。通過應用 RL,模型學到了一些策略,比如「不應該過早回答」「應該檢查工作」「應該考慮其他可能性」。從宏觀來看,如果模型能思考更長時間、更多地檢查工作、考慮更多事情,那麼在數學之外的領域也同樣有用。

雖然這樣講,但如果想在數學和代碼之外達到所謂的「超級智能」,確實需要針對性的基準測試。問題不在於能否泛化,而是在於實現的性能要有多好。

04下一步的問題是,驗證變得越來越難了

Nathan Lambert:「評估準則」(Rubric)這個詞最近很火,但我理解,它不就是一個人針對特定問題的、用語言模型作爲裁判(LLMas a judge)的評估單元嗎?

Ross Taylor:是的。它最近很流行是因爲 DeepMind 的一項研究。有傳言說,OpenAI 實際上不需要太多樣本就能在這些任務上做得很好,不需要成千上萬的 「評估準則」,可能只需要一兩千個精心設計的問題準則。它在教模型瀏覽互聯網、綜合知識方面顯然非常有效。

Nathan Lambert:對於深度研究類任務,「評估準則」會是什麼樣的?

Ross Taylor:可以有不同主題。比如,關於答案的整體風格;或者,假設要一篇關於最新 RL 推理算法的綜述,可能會有宏觀標準,比如「至少比較幾種方法」「應該有表格比較底層算法」;然後可能有更具體的標準,比如「現在可能應該提到 GSPO」。本質上,它就是一個標準列表。但你真正想要的是平滑、連續的獎勵,讓模型能逐漸學習,而不是尖銳的信號。

Nathan Lambert:你覺得「獎勵塑造」(reward shaping)會一直存在,還是會被算力增長的浪潮淹沒?

Ross Taylor:我認爲會被淹沒,但在此期間,手工製作優質評測仍有很大價值。長遠來看,它會被淘汰,因爲沒有什麼是比人類更強的神經網絡做不到的。但短期內,仍有很多模型搞不定的角落。

Nathan Lambert:能通過訓練大量基於「評估準則」的數據來創建一個生成式獎勵模型嗎?

Ross Taylor:可以。我認爲驗證也是能從「思考時間」中受益的任務。總的來說,最簡單的思路是:當進入長智能體軌跡的場景後,「獎勵模型」只需回答一個簡單問題——「智能體在實現目標的過程中是否有進展?」但這個問題其實很複雜,比如在《寶可夢》評測中,需要模型對遊戲有基礎的瞭解判斷。

Nathan Lambert:我確實覺得我們會在這方面學到更多,這很重要。

Ross Taylor:是的,現在正處在「評估準則狂熱」時期。更長期的問題是:當驗證從根本上變得更困難時會怎樣?我對科學發現很感興趣,但像生物學這類領域,得靠物理實驗來驗證,不能簡單地跑程序。其實在多數科學領域,我覺得人們高估了「思考」的力量。他們想到的是愛因斯坦,卻很少想到數據生成機制和實驗儀器。沒有望遠鏡就沒有開普勒,沒有 X 射線晶體學就沒有生物學的進步。

在 RL 的語境下說這個可能有點偏,但想解決現實中極難的問題,最終會受限於:「我其實需要造個更好的儀器來獲取數據。」 聽起來像題外話,但我想說的是,從長遠看,會遇到這些驗證瓶頸。但短期內,我們仍能解決像黎曼猜想這類有趣的問題,儘管可能也需要很長時間。

Nathan Lambert:我最近讀了很多關於模型推理軌跡的研究,Qwen 和 DeepSeek 的思考過程往往是長時間的混亂,然後突然「噗」的一下得出正確答案。這感覺不像能帶來科學發現的機制。

Ross Taylor:我對推理模型有個偏悲觀的觀點。二戰後全球科研人員數量大增,但能說科學進步也同等加速了嗎?反倒感覺很多領域的進展放緩了。這可能是因爲這些領域的低垂果實已經被摘完了。這也是我看空 AI 的一個理由:很多地方的瓶頸不是原始智力,而是「我需要加快物理過程」「需要更好的測量儀器」。

我只是想打破那種「解決了推理,明年超級智能就來了」的心態。

轉載原創文章請添加微信:founderparker