☰

別被誤導 | 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型？？

作者：張發恩創新奇智CTO

轉載自公衆號：後向傳播

最近一篇新聞標題《李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型》吸引了不少眼球，似乎預示着AI技術即將迎來一場“廉價革命”。不少人可能會驚呼：“什麼？不到50美元就能訓練出媲美DeepSeek Rl的AI模型？這AI也太便宜了吧！”

但，事實真的如此嗎？作爲一名AI從業者，看到這個標題，我感覺事情並不簡單。仔細研讀新聞和相關論文後，我發現這篇新聞的解讀存在不少誇大和誤導之處。我詳細讀了原論文，儘可能還原事實，避免大家被不實信息所誤導。

“標題黨”嫌疑：事實可能並非如此“美好”

1. “媲美DeepSeek R1”？實際效果可能與你的期待有差距

DeepSeek R1是DeepSeek公司推出的閉源大模型，而新聞中提到的 s1模型，實際上是與 OpenAI的o1-preview模型以及 DeepSeek-R1 800K數據蒸餾出的32B模型做對比。注：DeepSeek R1是670B的大模型，與DeepSeek-R1 800K數據蒸餾出的32B模型是完全不同的兩個模型。

論文中的實驗結果表明，s1模型在部分推理任務上（例如AIME24競賽數學題）超過了o1-preview ，但這並不代表s1模型就全面媲美甚至超越了DeepSeek R1。更重要的是， s1的效果離DeepSeek-R1 800K數據蒸餾出的32B模型還有不小的差距。新聞標題用 “媲美DeepSeek Rl” 這樣的字眼，容易給讀者造成 s1模型已經可以和DeepSeek的頂尖模型相提並論的錯誤印象。下圖是s1論文披露的實驗數據（https://arxiv.org/pdf/2501.19393）

2. “不到50美元”？請注意限定語和實際成本

新聞中 “用不到50美元的雲計算費用” 的說法，容易讓人誤以爲訓練一個高性能AI推理模型只需要區區幾十美元。但實際上，這50美元僅僅是指論文中s1模型在16張H100 GPU上訓練26分鐘的雲計算費用。

這 “不到50美元” 的成本，僅僅是模型微調階段的計算成本，並不包括：

3. “訓練出媲美...的AI推理模型”？數據篩選的功勞不可忽視

新聞標題容易讓人覺得，是李飛飛團隊提出了一種革命性的模型訓練方法，才能用 “不到50美元” 訓練出高性能模型。但深入分析論文後，我們發現數據篩選在 s1模型的成功中扮演了至關重要的角色。

s1模型的核心創新之一，在於其構建的高質量小樣本數據集 s1K 。研究團隊並非隨機使用1K數據進行訓練，而是從59K 數據集中精心篩選出1K 高質量樣本。篩選過程主要包括：

實驗結果表明，使用精心篩選的1K 數據訓練的模型，性能甚至可以媲美使用全量59K 數據訓練的模型，遠超隨機選擇數據或僅考慮數據長度、多樣性的方法。這說明，在數據驅動的AI領域，數據質量往往比數據數量更重要。 s1模型的成功，很大程度上歸功於其高質量的數據篩選策略，而非僅僅是 “低成本” 訓練。

論文的創新之處：小樣本高效微調 + 推理預算強制

當然，這篇論文並非一無是處。 s1論文在以下方面還是有其創新性和貢獻的：

1. 驗證了小樣本高效微調的可行性

s1論文再次印證了高質量小樣本數據在模型微調中的巨大潛力。在算力成本高昂、數據獲取困難的背景下，如何利用少量數據訓練出高性能模型一直是 AI 領域的研究熱點。 s1論文提供了一個利用數據篩選策略實現小樣本高效微調的成功案例，爲後續研究提供了有益的參考。尤其值得肯定的是，論文開源了高質量的 s1K 數據集，這將有助於推動小樣本學習和推理相關領域的研究進展。

2. 提出 “推理預算強制” 方法，探索推理過程干預

s1論文提出的 “推理預算強制 (Budget Forcing)” 方法，也爲模型推理過程的干預和調控提供了一種新的思路。通過強制結束或延長模型的思考時間， s1模型能夠在推理過程中進行自我調整和優化，從而在一定程度上提升推理性能。這種在推理階段對模型行爲進行干預的思想，具有一定的啓發意義，未來或可應用於更多推理優化方法的研究中。

理性看待技術進步，“標題黨”新聞對行業有害

總的來說，“李飛飛團隊50美元AI模型” 這篇新聞標題存在誇大和誤導之處，容易讓讀者對 AI 技術的現狀產生不切實際的幻想。 s1模型的成功，是數據質量、巧妙技術和現有預訓練模型共同作用的結果，並非 “廉價” 和 “速成” 的代名詞。

我們肯定 s1論文在小樣本學習和推理干預方面的探索和貢獻，讚賞研究團隊開源高質量數據集的舉動。但同時，我們必須保持清醒的認識：

作爲AI從業者和愛好者，我們應該保持理性思考，客觀看待技術進步，警惕 “標題黨” 式新聞的危害，共同營造一個健康、理性的 AI 發展環境。腳踏實地，一步一個腳印，纔是 AI 技術走向成熟的正確道路。

別被誤導 | 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型？？

相關資訊