DeepSeek陸國慶前獻禮?更新版V3.2-Exp模型上線 使用成本降超50%
在大陸即將開啓中秋國慶連假之際,DeepSeek推出更新版模型,DeepSeek-V3.2-Exp模型29日正式發佈,實現效率更高、成本更便宜。路透
在大陸即將開啓中秋國慶連假之際,DeepSeek推出更新版模型,DeepSeek-V3.2-Exp模型29日正式發佈,V3.2-Exp在V3.1-Terminus的基礎上引入了DeepSeek Sparse Attention(一種稀疏注意力機制),針對長文本的訓練和推理效率進行了探索性的優化和驗證。同時還調降了API(應用程式介面)價格,直接讓開發者使用成本降低50%以上。實現效率更高、價格更便宜,堪稱「價格屠夫」。
綜合第一財經、上證報、科創板日報報導,新模型引入稀疏 Attention 架構,這種架構能夠降低計算資源消耗並提升模型推理效率。目前,華爲雲已完成對 DeepSeek-V3.2-Exp模型的適配工作,最大可支持160K長序列上下文長度。
據悉,DeepSeek Sparse Attention(DSA)首次實現了細粒度稀疏注意力機制。DeepSeek表示,這項技術在幾乎不影響模型輸出效果的前提下,大幅提升長文本場景下的訓練和推理效率。
目前DeepSeek官方App、網頁端、小程序均已同步更新爲DeepSeek-V3.2-Exp,隨着新技術能讓服務成本降低外,DeepSeek也同時將API大幅度降價。在新的價格政策下,開發者調用DeepSeek API的成本將降低50%以上。
具體來看,輸入價格上,緩存命中時,DeepSeek-V3.2-Exp從0.5元/百萬tokens降至0.2元/百萬tokens,緩存未命中的價格則從4元/百萬tokens降爲2元/百萬tokens;輸出價格上,從12元/百萬tokens直接降到了3元/百萬tokens。
DeepSeek表示,爲了嚴謹地評估引入稀疏注意力帶來的影響,團隊將 DeepSeek-V3.2-Exp 的訓練設置與 V3.1-Terminus 進行了嚴格的對齊。在各領域的公開評測集上,DeepSeek-V3.2-Exp 的表現與 V3.1-Terminus 基本持平。
目前,DeepSeek-V3.2-Exp 模型已在Huggingface與魔搭開源,官方App、網頁端、小程序均已同步更新爲DeepSeek-V3.2-Exp。API 的模型版本已經更新爲 DeepSeek-V3.2-Exp,訪問方式保持不變。
今日稍早,有AI業內人士發現,DeepSeek於開源社區平臺Huggingface上架了DeepSeep V3.2-base的頁面,但很快刪除。
DeepSeek每一次更新都成爲業界矚目的焦點,但近幾個月以來DeepSeek幾次更新都是小版本的迭代,關於V4和R2的呼聲也越來越多。不過從這次DeepSeek的發佈操作來看,有網友推測近期可能不會看到V4跟R2的推出。