364元就能開發DeepSeek模型?假的!

近日,一則“炸裂”的AI新聞引發全球關注。

斯坦福大學和華盛頓大學的研究人員發表的一篇研究論文顯示,他們以不到50美元(約364元)的雲計算費用,訓練出一款名爲S1的推理模型。該模型在數學和編碼能力測試中,與OpenAI的o1和DeepSeek的R1表現不相上下。

這是AI領域的又一次重大突破嗎?事實並非如此。

根據研究論文,S1模型並不是從零開始訓練,而是以阿里通義千問Qwen2.5-32B開源模型爲底座,然後在16塊H100 GPU上進行了26分鐘的監督微調,最終訓練出新模型S1-32B。

在推理能力方面,研究人員則通過蒸餾技術,從谷歌的AI推理模型Gemini 2.0中提取了推理能力。

某大模型廠商的研發人員告訴21世紀經濟報道記者,S1模型本質上是在前人研究的基礎上覆制了推理能力,而非真正創新。

但S1模型的出現,也爲頭部大模型廠商敲響警鐘。如果頭部大模型廠商投入巨大資源訓練出來的模型,其他人用極少的資源就能複製並實現相似的能力,那頭部廠商的“護城河”究竟是什麼?