騰訊自研的推理模型來了:性能比肩DeepSeek-R1,價格是其四分之一

21世紀經濟報道記者白楊 北京報道

3月21日深夜,騰訊宣佈推出自研深度思考模型混元T1正式版,並同步在騰訊雲官網上線。

一個有意思的現象是,無論是前幾天阿里發佈推理模型QwQ-32B,還是這次騰訊發佈混元T1,都選在了國內的深夜時段。據記者瞭解,他們這樣做的目的,是因爲這些模型都會面向海外開發者,這也進一步說明中國大模型已真正走向海外。

據騰訊介紹,混元T1正式版通過大規模強化學習,並結合數學、邏輯推理、科學和代碼等理科難題的專項優化,推理能力得到進一步提升。與此前已上線騰訊元寶的混元T1-preview模型相比,綜合效果也有了明顯提升。

在一些常見的基準測試上,比如大語言模型評估增強數據集MMLU-PRO中,混元T1的評分僅次於OpenAI-o1,優於DeepSeek-R1。

在評估邏輯推理能力的DROP F1測試中,混元T1的評分也優於DeepSeek-R1和OpenAI-o1。不過在數學和代碼能力測試中,混元T1的評分都低於DeepSeek-R1。在中文語言理解能力方面,混元T1與DeepSeek-R1的評分齊平。

整體來看,混元T1正式版的成績已經達到了業界領先推理模型的水平。但騰訊官方此次並未披露混元T1的參數量級,所以並不清楚其是用多少訓練數據實現這一性能。

另外值得一提的是,混元T1是以騰訊快思考模型混元Turbo S爲基座打造。

混元Turbo S於今年2月底發佈,騰訊混元團隊當時就表示,Turbo S將作爲旗艦模型,成爲騰訊混元系列衍生模型的核心基座,爲推理、長文、代碼等衍生模型提供基礎能力。

與DeepSeek R1等慢思考模型不同,混元Turbo S更強調“秒回、吐字快”,並且更善於超長文本處理。

這是因爲混元Turbo S在架構方面創新性地採用了Hybrid-Mamba-Transformer融合模式。通過這種融合,混元Turbo S一方面可以發揮Mamba高效處理長序列的能力,另一方面也能保留Transformer擅於捕捉複雜上下文的優勢。

因此,該架構有效降低了傳統Transformer結構的計算複雜度,減少了KV-Cache的內存佔用,從而顯著降低了訓練和推理成本,讓混元T1吐字速度達到最快80 tokens/s。

據瞭解,混元Turbo S是工業界首次成功將Mamba架構無損地應用在超大型MoE模型上,而混元T1則是工業界首次將混合Mamba架構無損應用於超大型推理模型上。

價格方面,混元T1的輸入價格爲每百萬tokens 1元,輸出價格爲每百萬tokens 4元。這與DeepSeek-R1目前夜間時段(00:30-08:30)的價格相同,但在標準時段,混元T1的價格則是DeepSeek-R1的四分之一。