在火山引擎用DeepSeek,更穩更快:500萬TPM、30ms低延遲

(原標題:在火山引擎用DeepSeek,更穩更快:500萬TPM、30ms低延遲)

破圈式的發展,讓 DeepSeek 的熱度飆升。但由此引發的海量併發請求也導致負載嚴重過載,讓滿心的期盼,卻得到了:「服務器繁忙,請稍後重試」這樣冷冰冰的回覆。

作爲行業領先雲與 AI 服務商,火山引擎依託字節跳動的技術積累和經驗沉澱,在保證原版 DeepSeek 模型效果的同時,決定給系統承載力、推理速度和部署安全這幾個核心要點「上上強度」,還你一個永不繁忙、安全無憂的 DeepSeek。

全網最高承載力:500萬初始TPM,告別服務器繁忙

「高併發」是企業用戶在應用 DeepSeek 這款現象級大模型重要需求,爲了更好地助力企業、開發者們在業務場景中應用 DeepSeek 全系列模型和豆包大模型1.5,火山引擎將原本80萬的初始 TPM,再次提高至500萬,全網最高!

我們對比了目前主要 DeepSeek 三方服務商的 TPM 規模,我們期望越來越高的 TPM 規模,能夠讓客戶低門檻地做出更有深度、更大併發的創新應用。

此外,除了500萬的初始 TPM,火山引擎還提供全網首家「50億初始離線 TPD 配額」,可滿足企業信息打標以及其他大使用量的離線場景。

推理速度更快:30msTPOT超低延遲

TPOT 代表的是吐字間隔,爲了讓 DeepSeek 更快、更準確地與用戶交互,火山引擎不斷完善推理層性能優化,將其降低到接近30ms,並將持續優化,未來將 TPOT 進一步壓低至穩定15ms~30ms區間,成爲國內最低延遲的大規模 DeepSeek-R1推理服務,幫助用戶暢享流暢的交互體驗。

通過全棧自研的推理引擎,火山引擎在 DeepSeek 系列模型上進行了算子層、推理層、調度層的深度優化,與此同時,火山方舟還提供了完善的大模型調用監控與告警能力,充分保障模型應用的高流量、低延遲和穩定性。

深度思考+聯網搜索,讓模型回答實時且精準

聯網搜索能力解決了大模型「將故事當新聞」的通病,可以讓 DeepSeek 獲取最新最全網絡資訊,提升回答的時效性和準確度。

不過,如果聯網搜索能力僅提供是否聯網的開關,用戶就不能修改中間的聯網配置細節,無法按照需求進行個性化定製。而火山方舟上,用戶可以自行配置內容源、引用條數,並稍後可進行聯網意圖、改寫模塊等多項高級配置。將你對聯網的個性化需求充分滿足,適合企業用戶靈活、豐富的應用場景。

此外,在聯網內容上,提供頭條圖文和抖音百科海量優質實時內容,幫助搜索內容更豐富地呈現。

多重解法,讓各類安全問題退退退

關於大模型「安全性」的話題,始終是業界關注的焦點之一,內容安全攻擊、提示詞注入攻擊引導 AI 應用輸出不當回答;DDoS 攻擊通過消耗計算資源,降低 AI 應用可用性;而模型和 Prompt、隱私和商業敏感數據泄漏等也將引發企業糾紛。面對大模型 AI 應用的多種安全威脅,火山引擎通過多種解法,爲企業 AI 應用「穿上盔甲」,杜絕安全隱患,讓各類安全問題「退!退!退!」

火山方舟採用加密技術及嚴格訪問控制策略,杜絕訓練數據、隱私和商業敏感數據及模型 Prompt 泄漏;通過火山引擎 PCC 私密雲,可進一步在端到端場景下保障數據安全。

同時,火山引擎大模型安全防火牆可有效攔截針對大模型的 DDoS 攻擊、提示詞攻擊,並識別不合規內容,在針對 DeepSeek R1和 V3模型安全性測試中,可將提示詞注入攻擊成功率降低到1%以下。

針對各種推理和訓練場景,火山引擎提供多種接入 DeepSeek 方式,並特別提供限時5折優惠(截止到2月18日24點),助力企業暢享  DeepSeek 模型!