☰

364元就能開發DeepSeek模型？假的！

近日，一則“炸裂”的AI新聞引發全球關注。

斯坦福大學和華盛頓大學的研究人員發表的一篇研究論文顯示，他們以不到50美元(約364元)的雲計算費用，訓練出一款名爲S1的推理模型。該模型在數學和編碼能力測試中，與OpenAI的o1和DeepSeek的R1表現不相上下。

這是AI領域的又一次重大突破嗎？事實並非如此。

根據研究論文，S1模型並不是從零開始訓練，而是以阿里通義千問Qwen2.5-32B開源模型爲底座，然後在16塊H100 GPU上進行了26分鐘的監督微調，最終訓練出新模型S1-32B。

在推理能力方面，研究人員則通過蒸餾技術，從谷歌的AI推理模型Gemini 2.0中提取了推理能力。

某大模型廠商的研發人員告訴21世紀經濟報道記者，S1模型本質上是在前人研究的基礎上覆制了推理能力，而非真正創新。

但S1模型的出現，也爲頭部大模型廠商敲響警鐘。如果頭部大模型廠商投入巨大資源訓練出來的模型，其他人用極少的資源就能複製並實現相似的能力，那頭部廠商的“護城河”究竟是什麼？

相關資訊