國泰君安:DEEPSEEK模型降本打開AI應用產業上升通道 騰訊(00700)、小米(01810)等有望受益

智通財經APP獲悉,國泰君安發佈研報稱,DeepSeek實現模型大幅降本,價值有望從模型層轉移至應用層。DeepSeek成爲全球DAU增速最快的AI應用,20天達成DAU 2000萬,帶來巨大的推理算力需求。推薦算力方面受益的英偉達(NVDA.US)、臺積電(TSM.US)以及應用方面受益的騰訊(00700)、小米(01810)、Meta(META.US)、谷歌(GOOGL.US)。

國泰君安主要觀點如下:

DeepSeek通過多處工程創新,實現降低訓練成本、降低推理成本、提高模型效果等進展

1)降低訓練成本:DeepSeek使用較寬的MOE架構,且提出共享專家機制,每次訓練只激活需要的專家(按需調用),而非激活全部專家,從而大大降低訓練成本。此外,使用fp8低精度訓練、雙管道訓練、多Token預測等方法進一步降低訓練成本。

2)降低推理成本:DeepSeek提出多頭潛在注意力(MLA),在不犧牲模型質量的前提下,大幅減少KV緩存的大小。此外,低精度存儲和通信、推理階段動態專家選擇等方法進一步降低推理成本。

3)提高模型效果:不同於傳統的SFT,DeepSeek使用強化學習做post-training,大幅提升模型推理能力。此外,DeepSeek針對中文做了大量風格對齊,大幅提升模型可用性。

DeepSeek觸發模型降本,長期看,打開AI應用產業上升通道,算力需求不降反增

蒸汽機效率提升並沒有導致煤炭少用,DeepSeek雖然觸發模型大幅降本,但長期看將打開AI應用產業上升通道,算力需求不降反增,因算力需求具備多樣性:1)模型向更高智能維度躍遷,訓練需要更多算力。2)AI應用的推理需要廣泛算力,更多人會去訓練和推理自己的模型。3)轉向對等異構計算的新主流計算形態需要更多GPU。4)目前模型僅僅停留在對話,未來從對話到任務、到多模態還需要更多算力加持。

根據AI產品榜,DeepSeek應用(APP,非網頁)成爲增速最快的AI產品,上線20天即達成DAU 2000萬,反映出模型能力提升對於用戶的巨大吸引力,帶來潛在的巨大推理算力需求。

DeepSeek並沒有真正繞過CUDA架構

DeepSeek沒有使用CUDA的API,而是直接使用PTX,從而對計算過程進行更細粒度的控制。PTX仍然是英偉達GPU架構中的技術,是CUDA編程模型中的中間表示,用於連接CUDA高級語言代碼和GPU底層硬件指令。編寫PTX代碼的做法,首先非常複雜且難以維護,對技術人員要求極高,其次移植性較差,較難移植到不同型號的GPU。

DeepSeek基於PTX進行優化代表他們有優化其他GPU的能力,但既不意味着完全脫離了CUDA生態,也不意味着其他團隊有能力直接使用PTX,因此英偉達的CUDA護城河仍在。

風險提示:地緣政治風險;大模型迭代進展不及預期;監管風險;商業化進度不及預期。