☰

DeepSeek刷屏，訓練成本大降，“AI界的拼多多”呼聲四起，DeepSeek幹崩A股算力股

金融界1月27日消息 DeepSeek幹崩A股算力股。

27日開盤，DeepSeek概念股每日互動、航錦科技、南威軟件、美格智能競價漲停，飛利信、卓創資訊、思特奇高開超10%。而算力硬件方向大幅走低，寒武紀、新易盛、中際旭創、天孚通信、沃爾核材、鼎通科技、神宇股份等均跌超5%。

1月20日，該公司正式發佈推理大模型DeepSeek-R1。一經推出，DeepSeek-R1便憑藉其“物美價廉”的特性在海外開發者社區中引發了轟動。作爲一款開源模型，R1在數學、代碼、自然語言推理等任務上的性能能夠比肩OpenAI o1模型正式版，並採用MIT許可協議，支持免費商用、任意修改和衍生開發等。

目前，在國外大模型排名榜Chatbot Arena上，DeepSeek-R1的基準測試排名已經升至全類別大模型第三，與OpenAI的ChatGPT-4o最新版並列，並在風格控制類模型（StyleCtrl）分類中與OpenAI的o1模型並列第一。

訓練成本大降，利空英偉達？

值得注意的是DeepSeek-R1 API服務定價爲每百萬輸入tokens 1元（緩存命中）/4元（緩存未命中），每百萬輸出tokens16元，輸出API價格只有OpenAI o1的3%。低價背後，顯然仍是秀肌肉，價格實力展現了技術實力——從AIInfra 層面降本的技術能力。

而訓練成本一直是DeepSeek的一大優勢。

在其12月底發佈的DeepSeek-V3中，參數量爲671B，激活參數爲37B，使用的預訓練token量爲14.8萬億。其多項評測成績超越了阿里的Qwen2.5-72B和MetadeLlama-3.1-405B等其他開源模型，並在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

前OpenAI聯創、知名AI科學家AndrejKarpathy在其個人社交平臺上表示，DeepSeek-V3整個訓練過程僅用了不到280萬GPU小時，相比之下，Meta旗下頂尖的開源模型Llama-3405B的訓練時長是3080萬GPU小時。如果DeepSeekV3的優良表現能夠得到廣泛驗證，那麼這將是資源有限情況下對研究和工程的一次出色展示。若從成本上進行更直觀的對比，假設H800的租金爲每GPU小時2美元，DeepSeek-V3的總訓練成本僅爲600萬美元不到，是Llama-3405B超6000萬美元訓練成本的十分之一不到。

對於深度求索強大的降本能力，“AI界的拼多多”呼聲四起。

中信證券研報指出，DeepSeek模型相比GPT4模型更小的參數量也意味着更低的推理成本，推理成本的降低，將是AI應用普及的前奏。

本文源自：金融界

作者：大江

DeepSeek刷屏，訓練成本大降，“AI界的拼多多”呼聲四起，DeepSeek幹崩A股算力股

相關資訊