德邦證券:AI模型蒸餾技術助力低成本高效能平權進程

財中社2月10日電 德邦證券發佈計算機行業研報稱,成本僅50美元,性能媲美o1與R1,模型蒸餾技術的爆發年。根據Tech Crunch,李飛飛等斯坦福大學和華盛頓大學的AI研究人員的一篇新研究論文表示,他們成功地用不到50美元的費用訓練了一個AI推理模型s1(僅爲雲計算服務費用,不包括服務器、顯卡等硬件投入費用)。

1)技術路徑:論文指出,推理模型可以通過相對較小的數據集和監督微調(SFT)的過程進行蒸餾,其中AI模型被明確指導去模仿數據集中的某些行爲。具體來說,團隊構建了“s1K”的數據集,由1000個精心篩選的問題組成,每個問題都配有推理軌跡(reasoning traces)和從Gemini Thinking Experimental蒸餾而來的答案。接着團隊在一個預訓練模型上進行監督微調(SFT),僅使用16張上半年00 GPU訓練26分鐘。此外,爲了提高答案的準確度,研究團隊還運用了一種“預算強制”技術,可以控制測試時間計算,通過強制提前終止模型的思考過程,或在s1推理時多次追加“等待”指令以延長思考,從而優化性能。

2)測試結果:根據研究團隊的測試結果可知,在競賽數學問題上,s1-32B的表現較o1-preview高27%(MATH和AIME24);且該模型在AIME24上的表現幾乎與Gemini 2.0 Thinking API相當,顯示其蒸餾過程是有效的。

低成本、開源與蒸餾將大幅降低AI模型開發門檻,有望加速AI平權過程。根據極客公園,早在2025年1月,深度求索發佈推理模型DeepSeek-R1正式版,採用MIT協議,同步開源模型權重,並允許用戶利用模型輸出、通過模型蒸餾等方式訓練其他模型。DeepSeek主動引導將R1作爲教師模型來蒸餾出一個更小但仍有實力的模型,通過DeepSeek-R1的輸出,蒸餾了6個小模型開源給社區,其中32B和70B模型在多項能力上實現了對標OpenAI o1-mini的效果。德邦證券認爲,結合此次李飛飛團隊通過超低成本從Gemini Thinking Experimental模型中蒸餾出的數據中訓練了s1,同樣取得了優異的模型性能,既印證了蒸餾技術是推動模型小型化與商品化的重要手段,有望縮小開源與閉源模型性能差距,從而加速AI平權過程;又爲AI應用與端側的爆發打下基礎。

德邦證券認爲,從DeepSeek R1到s1,不斷證明着2025年將是大模型普惠的起點,AI應用與端側或將同時迎來AI成本下降與模型能力提升的全面加強;此外,在蒸餾技術支持下,Jevons悖論或得到持續論證,有望涌現更多現象級的高性價比小模型,在部署在端側和應用的同時,推動模型逐漸從預訓練向推理轉變,國產算力有望在推理算力爆發下迎來價值重估。

如果您有新聞線索,請聯繫我們:newsroom@caizhongshe.cn