DeepSeek-R1訓練成本 不到30萬美元
路透報導,深度求索1月曾發表其號稱的「低成本AI模型」,震驚全球科技圈。此後,該公司及其創辦人樑文鋒就鮮少公開露面,僅偶爾發表產品更新資訊。
深度求索的最新論文18日登上頂尖學術期刊「自然」(Nature),樑文鋒名列共同作者。該文章指出,深度求索專注於推理能力的R1模型,訓練成本爲29.4萬美元,過程中使用512顆輝達的H800晶片。這是該公司首次公開其R1模型的訓練成本估算。
相較之下,OpenAI執行長奧特曼(Sam Altman)曾在2023年表示,其基礎模型的訓練成本「遠超過」1億美元,但該公司從未公佈任何具體模型的詳細數字。
然而,深度求索關於其開發成本及所用技術的部分說法,已引發美國企業和官員的質疑。該公司論文中提到的H800晶片,是輝達在美國於2022年10月禁止向中國出口其更強大的AI晶片H100、A100後,專爲中國市場所設計的特供版晶片。
值得注意的是,在「自然」文章的一份補充資訊文件中,深度求索首次承認確實擁有A100晶片,並表示曾在開發的準備階段使用過它們。研究人員寫道:「關於DeepSeek-R1的研究,我們利用A100 GPU爲使用較小規模模型的實驗做準備。」又指在此初始階段後,R1模型最終是在由512顆H800晶片組成的叢集上,進行總計80小時的訓練。