DeepSeek刷屏,訓練成本大降,“AI界的拼多多”呼聲四起,DeepSeek幹崩A股算力股

金融界1月27日消息 DeepSeek幹崩A股算力股。

27日開盤,DeepSeek概念股每日互動、航錦科技、南威軟件、美格智能競價漲停,飛利信、卓創資訊、思特奇高開超10%。而算力硬件方向大幅走低,寒武紀、新易盛、中際旭創、天孚通信、沃爾核材、鼎通科技、神宇股份等均跌超5%。

1月20日,該公司正式發佈推理大模型DeepSeek-R1。一經推出,DeepSeek-R1便憑藉其“物美價廉”的特性在海外開發者社區中引發了轟動。作爲一款開源模型,R1在數學、代碼、自然語言推理等任務上的性能能夠比肩OpenAI o1模型正式版,並採用MIT許可協議,支持免費商用、任意修改和衍生開發等。

目前,在國外大模型排名榜Chatbot Arena上,DeepSeek-R1的基準測試排名已經升至全類別大模型第三,與OpenAI的ChatGPT-4o最新版並列,並在風格控制類模型(StyleCtrl)分類中與OpenAI的o1模型並列第一。

訓練成本大降,利空英偉達?

值得注意的是DeepSeek-R1 API服務定價爲每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens16元,輸出API價格只有OpenAI o1的3%。低價背後,顯然仍是秀肌肉,價格實力展現了技術實力——從AIInfra 層面降本的技術能力。

而訓練成本一直是DeepSeek的一大優勢。

在其12月底發佈的DeepSeek-V3中,參數量爲671B,激活參數爲37B,使用的預訓練token量爲14.8萬億。其多項評測成績超越了阿里的Qwen2.5-72B和MetadeLlama-3.1-405B等其他開源模型,並在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

前OpenAI聯創、知名AI科學家AndrejKarpathy在其個人社交平臺上表示,DeepSeek-V3整個訓練過程僅用了不到280萬GPU小時,相比之下,Meta旗下頂尖的開源模型Llama-3405B的訓練時長是3080萬GPU小時。如果DeepSeekV3的優良表現能夠得到廣泛驗證,那麼這將是資源有限情況下對研究和工程的一次出色展示。若從成本上進行更直觀的對比,假設H800的租金爲每GPU小時2美元,DeepSeek-V3的總訓練成本僅爲600萬美元不到,是Llama-3405B超6000萬美元訓練成本的十分之一不到。

對於深度求索強大的降本能力,“AI界的拼多多”呼聲四起。

中信證券研報指出,DeepSeek模型相比GPT4模型更小的參數量也意味着更低的推理成本,推理成本的降低,將是AI應用普及的前奏。

本文源自:金融界

作者:大江