清華團隊突破算力難題:4090顯卡單槍匹馬就能跑“滿血版”DeepSeek-R1!有用戶稱整套方案成本不到7萬元,直降95%以上
隨着大規模語言模型(LLMs)的不斷髮展,模型規模和複雜性急劇提升,其部署和推理常常需要巨大的計算資源,這對個人研究者和小型團隊帶來了挑戰。
2月10日,清華大學KVCache.AI團隊聯合趨境科技發佈的KTransformers開源項目公佈更新:一塊24G顯存的4090D就可以在本地運行DeepSeek-R1、V3的671B“滿血版”。預處理速度最高達到286 tokens/s,推理生成速度最高能達到14 tokens/s。
KTransformers通過優化本地機器上的LLM部署,幫助解決資源限制問題。該框架採用了異構計算、先進量化技術、稀疏注意力機制等多種創新手段,提升了模型的計算效率,並具備處理長上下文序列的能力。
KTransformers的更新發布後,不少開發者也紛紛用自己的設備進行測試。他們驚喜地發現,本地運行完全沒有問題,甚至顯存消耗比github裡的技術文檔中提到的顯存消耗還要少,實際內存佔用約380G,顯存佔用約14G。
另外,有用戶對方案成本進行分項分析後稱,只要不到7萬元就能實現R1模型的本地運行,與A100/H100服務器動輒200萬元的價格相比,便宜了95%以上。
清華團隊突破算力難題:24G顯存即可運行R1和V3的671B“滿血版”
之前,671B參數的MoE架構大模型DeepSeek-R1經常出現推理服務器高負荷宕機的現象,而如果選擇其他雲服務商提供的專屬版雲服務器則需按GPU小時計費。這一高昂成本讓中小團隊無力承擔,而市面上的“本地部署”方案多爲參數量大幅縮水的蒸餾版。
但KTransformers開源項目近期的更新,成功打破了大模型推理算力門檻:支持24G顯存在本地運行DeepSeek-R1、V3的671B“滿血版”。
早在DeepSeek-V2時代,這一項目就因“專家卸載”技術出名了,因爲它支持236B參數的大模型在僅有24GB顯存的消費級顯卡上流暢運行,把顯存需求砍到十分之一。
KTransformers開源項目重點關注的就是在資源有限的情況下進行大模型的本地部署。一名Ktransformers開發團隊成員表示:“項目在創始之初就已經討論過項目的場景和目標,我們所針對的是中小型用戶的場景,用領域的話講,就是低併發+超低顯存的場景。而顯存目前的成本已經和CPU的內存不是一個數量級了,對於中小用戶內存可能完全不缺,但是找一個顯存很大的顯卡卻很難。”
圖爲知乎頁面截圖
KTransformers的原理大致爲將參數較少、計算比較複雜的MLA注意力放在GPU上進行計算,而參數大的、計算比較輕鬆的FNN(MOE)則放到CPU上去計算。
MoE結構的模型具有很強的稀疏性,在執行推理任務的時候,每次只會激活其中一部分的模型參數。因此,MoE架構需要大量的存儲空間,但並不需要很多的計算資源。在這樣的情況下,同樣使用4bit量化,只需要一個4090 GPU就可以滿足這個參數需求。
此外,KTransformers團隊還公佈了v0.3預覽版的性能指標,將通過整合英特爾的AMX指令集,CPU預填充速度最高至286 tokens/s,相比llama.cpp快了近28倍。對於需要處理上萬級Token上下文的長序列任務來說,相當於能夠從“分鐘級等待”瞬間邁入“秒級響應”,徹底釋放CPU的算力潛能。
用戶:成本相比A100/H100服務器可直降95%以上
KTransformers的更新發布後,不少開發者也紛紛在自己的設備上進行測試。他們驚喜地發現,本地運行完全沒有問題,顯存消耗甚至比github裡的技術文檔中提到的還要少,實際內存佔用約380G,顯存佔用約14G。
有B站的up主進行了實測
有B站up主實測發現,本地部署的速度可以達到約6-8 tokens/s,與硅基流動免費版速度差不多(但硅基流動有上下文關聯數、輸出數限制等因素)。
還有用戶規劃出了這套方案的成本:
CPU:Gold 6454S 兩顆價格1w4左右(QS版)
主板:技嘉ms73價格6500元以內(雙路主板一共16個DDR5 RDIMM接口)
內存:單根64G的RDIMM DDR5服務器內存要1800元總共1T 需要3w元左右
顯卡:低檔4060Ti 16G,大概3999元。更加建議4090 24G,因爲可以增加上下文長度。
該用戶總結稱,整體成本7萬元不到,相比於A100/H100服務器動輒200萬元的價格,便宜了95%以上。就算是租用服務器每小時也得花費數千元。
當然,這一本地方案還是有着諸多的限制,比如推理速度並不能和高價的服務器成本相提並論,並且只能給單人服務,而服務器可以同時滿足幾十個用戶的需求。目前整體方案也依賴於英特爾的AMX指令集,其他品牌的CPU暫時還無法進行這些操作。並且這一方案主要是針對於DeepSeek的MOE模型,其他主流模型的運行可能並不理想。
有用戶認爲,短期來看,KTransformers可能刺激消費級顯卡(如4090)的需求,尤其是高顯存型號。但內存漲價的可能性較低,因爲其核心創新在於優化顯存利用率,而非直接增加內存消耗。但對於英偉達的影響並不會太大,因爲這一技術歸根結底還是對於現有資源的優化而非顛覆硬件需求。
免責聲明:本文內容與數據僅供參考,不構成投資建議,使用前請覈實。據此操作,風險自擔。