DeepSeek R1 API實測,哪家服務商最靠譜?

文章轉載自「祝威廉」

R1 火了之後,對國內AI開發者來說,就關心兩件事。

哪裡能用,這個現在基本解決了,硅基流動、阿里百鍊、火山方舟等幾乎所有的雲平臺都上線了 DeepSeek 的模型。但哪家好用,哪家能用,現在也是衆說紛紜。今天這篇文章,就測一下國內雲平臺 DeepSeek 的服務質量。

第二個問題是,怎麼用 R1。平民價格的推理模型,帶來的是全新的與用戶交互的範式,過往的很多提示工程可能都會直接被取代。怎麼用 R1 等推理模型,開發 AI 應用,是一個當下待討論的話題。

也因此,我們建了個R1 開發者交流羣,切身聊一聊,今天創業,到底怎麼用 R1。

掃碼申請進羣

進羣之後,你有機會得到:

高濃度的 DeepSeek 模型開發交流;

資源對接,與 API、雲廠商、模型廠商直接交流反饋的機會;

好用、有趣的產品/案例,Founder Park 會主動做宣傳。

先大家做幾個祛魅。不要看到那麼多廠商都提供了 R1/V3 ,實際有些可能根本沒辦法用的。

首先,R1/V3 都只有一個規格的版本,都是 6000+億參數的,不存在所謂滿血不滿血。那所謂蒸餾版 R1 是指什麼呢?實際上就是用 Qwen/Llama 這些開源模型,使用從 R1 蒸餾出來的思維鏈數據再做一次微調得到的模型。他們本質還是 Qwen/Llama,並且因爲參數規模小,數據來源又是 R1。效果和原生的 R1 差距很大。所以,上蒸餾版,不提供原版的 R1 的,一般都是湊熱鬧的。

再次,如果是原版 R1/V3, 那麼我們接着可以看供應商提供的 Context Window (窗口大小),簡單來說,很多廠商,比如某軟,他提供的免費 R1 實際窗口只有 4K, 這意味着你使用R1,輸入和輸出不能超過 4K, 基本也就幾輪的聊天。而應用對接,一般都會提供大量的上下文,基本隨隨便便就超了,屬於只能聊天打屁用的。

第三個是 TPM 限制,比如某廠 TPM 限制是 10000, 對於AI輔助編程基本一次請求都過不了,剛請求就觸發 rate limit 了,也只能適合聊天打屁。

第四個,大家也能感受到,就算都是原版模型,可能聊天或者使用效果還是略有差別的。這個我們以後再討論。

所以,總結下:

作爲用戶,你區分一個供應商是不是真的良心供應商,先看模型不是是原版的(6000億參數規模),其次再看窗口大小(64k+ 是正常),最後看 TPM(一般要10w以上)。如果都符合要求,現在,才能進入我們今天的主題,誰的速度更快。

02速度大比拼

一個供應商提供的 R1/V3 速度指標由下面兩個指標來衡量:

1. TPS(每秒Token生成速度)

2. TTFT(首token出現等待時間)

這兩個指標又收到三個因數的影響:

1. 你的輸入長度。

2. 你測試的時間段

3. 用戶體量

啥意思呢?比如貼了一萬個字符的問題,和輸入“你好”,這兩個指標肯定都會有區別的。其次,你在一個供應商非常繁忙的時間段去測試,肯定速度很慢。時間段我這裡就隨機了,好不好就看各個供應商的命了,而用戶體量,這個對應的各家資源也不一樣,這個是供應商要自己解決的問題。

這次我們會同時對比國內外供應商,輸入的問題長度,我們也會分成兩個部分測試,一個輸入100token以內,一個輸入 14000 token左右。我們來分別看看TPS/TTFT。

與此同時,除了 R1/V3 我們也引入了一些其他模型的速度,大家可以權當參考。

小輸入測試(20)

其中, 說下每個模型名字的對應關係:

1. or_o1_mini_chat 表示在openrouter 裡的 o1 mini 模型。

2. doubao_pro_chat 表示在火山方舟的 doubao 1.5 pro 256k 模型

3. sili_r1_chat 表示硅基流動的 R1 模型(pro版)

4. doubao_32k_pro_chat 表示 doubao 1.5 pro 32k 模型

5. doubao_r1_chat 表示火山方舟的 R1 模型

6. QwenMax 表示阿里最新Qwen大模型

7. qianfan_r1_chat 百度千帆的 R1模型

8. qianfan_v3_chat 百度千帆的 V3模型

9. or_r1_chat openrouter 裡免費 R1 模型

10 or_v3_chat openrouter 裡 R1 模型

11 deepseek_chat 官方 V3 模型

12 ali_deepseek_r1_chat 阿里百鍊上的 R1模型

13 doubao_v3_chat 火山方舟的 V3 模型

14 or_nitro_r1_chat openrouter 裡的付費 R1 模型

15. ali_deepseek_chat 阿里百鍊平臺的 V3 模型

16. sili_deepseek_r1_chat 硅基流動的普通版 R1 模型

17. sili_deepseek_chat 硅基流動的普通版本 V3 模型

18. or_sonnet_chat openrouter 裡的sonnet 3.5 模型

19. deepseek_r1_chat 官方 R1 模型

簡單做個總結:

1. 官網的 R1/V3 一直處於不可用狀態。

2. R1 的每秒輸出速度,硅基流動以 22t/s 爲冠軍,openrouter, 火山方舟分別以 20.24t/s 以及 20.15t/s 居於亞軍和季軍。其他的基本都低於 20t/s。

3. V3 每秒輸出速度,百度千帆以 14.86t/s 爲冠軍, 硅基流動和火山方舟分別以 13.35t/s 13.08t/s 分別居於亞軍和季軍。

4. R1 的首字母等待時間, 硅基流動以 0.2是爲冠軍,阿里百鍊和火山方舟分別以 1.0 和 1.5s 爲亞軍和季軍。

整體而言,類似你好,世界這樣的場景裡,硅基流動,火山方舟兩家穩居前三,openrouter和百度千帆和阿里百鍊則偶有入局前三。

大輸入測試(14000)

接下來,重磅來了 ,我們看看大輸入下各家的表現。

1. R1 模型, openrouter TPS 以 29.55 爲冠軍,火山方舟和硅基流動分別以 24.90t/s, 10.31t/s 分別居於亞軍和季軍。

2. V3 模型, 硅基流動TPS 以 12.63t/s 爲冠軍, 火山方舟和openrouter 分別以 8.82t/s, 7.22t/s 居於亞軍和季軍。

3. 在R1模型的TTFT上,硅基流動以 5.08 的延時獲得冠軍, 火山方舟則以 5.62 居於亞軍。兩者差距不大。

最後做個總結:在大輸入下(14000tokens),火山方舟,硅基流動,openrouter穩居前三, 各有優劣。其他的諸如百度千帆因爲 TPM 限制,直接報錯。

最後總結

國內R1/V3 提供上,表現最好的是就是火山方舟和硅基流動,基本也和我之前的認知相同,他們兩家技術實力強悍,行動也都很早,而且效果上也和官方有在對齊,基本值得信賴。

03如何自己測試

最後,如果大家想自己驗證,可以安裝如下工具:

然後運行如下指令:

然後按文檔配置模型:https://uelng8wukz.feishu.cn/wiki/K3EmwuNrbiAN0CkHMGyc315Wn7f?fromScene=spaceOverview

最後小輸入測試爲:

大輸入測試,運行命令:

你還可以控制測試多少輪:

最後一個數字表示測試3輪。

轉載原創文章請添加微信:founderparker