☰

DeepSeek-R1訓練成本不到30萬美元

路透報導，深度求索1月曾發表其號稱的「低成本AI模型」，震驚全球科技圈。此後，該公司及其創辦人樑文鋒就鮮少公開露面，僅偶爾發表產品更新資訊。

深度求索的最新論文18日登上頂尖學術期刊「自然」（Nature），樑文鋒名列共同作者。該文章指出，深度求索專注於推理能力的R1模型，訓練成本爲29.4萬美元，過程中使用512顆輝達的H800晶片。這是該公司首次公開其R1模型的訓練成本估算。

相較之下，OpenAI執行長奧特曼（Sam Altman）曾在2023年表示，其基礎模型的訓練成本「遠超過」1億美元，但該公司從未公佈任何具體模型的詳細數字。

然而，深度求索關於其開發成本及所用技術的部分說法，已引發美國企業和官員的質疑。該公司論文中提到的H800晶片，是輝達在美國於2022年10月禁止向中國出口其更強大的AI晶片H100、A100後，專爲中國市場所設計的特供版晶片。

值得注意的是，在「自然」文章的一份補充資訊文件中，深度求索首次承認確實擁有A100晶片，並表示曾在開發的準備階段使用過它們。研究人員寫道：「關於DeepSeek-R1的研究，我們利用A100 GPU爲使用較小規模模型的實驗做準備。」又指在此初始階段後，R1模型最終是在由512顆H800晶片組成的叢集上，進行總計80小時的訓練。

DeepSeek-R1訓練成本 不到30萬美元

相關資訊

DeepSeek-R1訓練成本不到30萬美元