☰

在火山引擎用DeepSeek，更穩更快：500萬TPM、30ms低延遲

（原標題：在火山引擎用DeepSeek，更穩更快：500萬TPM、30ms低延遲）

破圈式的發展，讓 DeepSeek 的熱度飆升。但由此引發的海量併發請求也導致負載嚴重過載，讓滿心的期盼，卻得到了：「服務器繁忙，請稍後重試」這樣冷冰冰的回覆。

作爲行業領先雲與 AI 服務商，火山引擎依託字節跳動的技術積累和經驗沉澱，在保證原版 DeepSeek 模型效果的同時，決定給系統承載力、推理速度和部署安全這幾個核心要點「上上強度」，還你一個永不繁忙、安全無憂的 DeepSeek。

全網最高承載力：500萬初始TPM，告別服務器繁忙

「高併發」是企業用戶在應用 DeepSeek 這款現象級大模型重要需求，爲了更好地助力企業、開發者們在業務場景中應用 DeepSeek 全系列模型和豆包大模型1.5，火山引擎將原本80萬的初始 TPM，再次提高至500萬，全網最高！

我們對比了目前主要 DeepSeek 三方服務商的 TPM 規模，我們期望越來越高的 TPM 規模，能夠讓客戶低門檻地做出更有深度、更大併發的創新應用。

此外，除了500萬的初始 TPM，火山引擎還提供全網首家「50億初始離線 TPD 配額」，可滿足企業信息打標以及其他大使用量的離線場景。

推理速度更快：30msTPOT超低延遲

TPOT 代表的是吐字間隔，爲了讓 DeepSeek 更快、更準確地與用戶交互，火山引擎不斷完善推理層性能優化，將其降低到接近30ms，並將持續優化，未來將 TPOT 進一步壓低至穩定15ms～30ms區間，成爲國內最低延遲的大規模 DeepSeek-R1推理服務，幫助用戶暢享流暢的交互體驗。

通過全棧自研的推理引擎，火山引擎在 DeepSeek 系列模型上進行了算子層、推理層、調度層的深度優化，與此同時，火山方舟還提供了完善的大模型調用監控與告警能力，充分保障模型應用的高流量、低延遲和穩定性。

深度思考+聯網搜索，讓模型回答實時且精準

聯網搜索能力解決了大模型「將故事當新聞」的通病，可以讓 DeepSeek 獲取最新最全網絡資訊，提升回答的時效性和準確度。

不過，如果聯網搜索能力僅提供是否聯網的開關，用戶就不能修改中間的聯網配置細節，無法按照需求進行個性化定製。而火山方舟上，用戶可以自行配置內容源、引用條數，並稍後可進行聯網意圖、改寫模塊等多項高級配置。將你對聯網的個性化需求充分滿足，適合企業用戶靈活、豐富的應用場景。

此外，在聯網內容上，提供頭條圖文和抖音百科海量優質實時內容，幫助搜索內容更豐富地呈現。

多重解法，讓各類安全問題退退退

關於大模型「安全性」的話題，始終是業界關注的焦點之一，內容安全攻擊、提示詞注入攻擊引導 AI 應用輸出不當回答；DDoS 攻擊通過消耗計算資源，降低 AI 應用可用性；而模型和 Prompt、隱私和商業敏感數據泄漏等也將引發企業糾紛。面對大模型 AI 應用的多種安全威脅，火山引擎通過多種解法，爲企業 AI 應用「穿上盔甲」，杜絕安全隱患，讓各類安全問題「退！退！退！」

火山方舟採用加密技術及嚴格訪問控制策略，杜絕訓練數據、隱私和商業敏感數據及模型 Prompt 泄漏；通過火山引擎 PCC 私密雲，可進一步在端到端場景下保障數據安全。

同時，火山引擎大模型安全防火牆可有效攔截針對大模型的 DDoS 攻擊、提示詞攻擊，並識別不合規內容，在針對 DeepSeek R1和 V3模型安全性測試中，可將提示詞注入攻擊成功率降低到1%以下。

針對各種推理和訓練場景，火山引擎提供多種接入 DeepSeek 方式，並特別提供限時5折優惠（截止到2月18日24點），助力企業暢享 DeepSeek 模型！

在火山引擎用DeepSeek，更穩更快：500萬TPM、30ms低延遲

相關資訊