☰

DeepSeek一體機背後，國產算力芯片崛起

電子發燒友網報道（文/黃晶晶）自DeepSeek推出以來，最火的硬件產品非DeepSeek一體機莫屬。DeepSeek大模型的應用和部署設計需要計算設備的支持，根據不同的大模型參數版本，例如DeepSeek-R1目前已經發布了1.5B/7B/8B/14B/32B/70B/671B共7類，選擇不同規格的硬件配置。

自2月份以來，已有多家芯片廠商宣佈支持DeepSeek模型，包括華爲昇騰、海光、沐曦、崑崙芯、壁仞科技、天數智芯、摩爾線程、燧原科技、雲天勵飛等等。許多產品已經在DeepSeek一體機中得以廣泛應用。例如，聯想聯合沐曦發佈基於DeepSeek大模型的首個國產一體機解決方案，發佈一個月以來，累計發貨量已突破千臺，配備沐曦國產GPU卡近萬張，覆蓋醫療、教育、製造等十餘個核心行業。

昇騰910

軟通動力旗艦版超強A800I A2服務器，基於鯤鵬920處理器、昇騰910 AI處理器，8模組高效推理，支持PFLOPS FP16超高算力和高速NPU互聯技術，支持DeepSeek全量版本適配。

優刻得 DeepSeek 滿血版大模型一體機支持沐曦、壁仞、昇騰、天數智芯等國產 AI 芯片全適配，以軟硬一體化的交付模式，提供從底層算力獲取、模型微調和推理能力、AI 應用開發的全棧式解決方案。結合雲計算平臺，提供靈活的 DeepSeek 模型部署與管理服務，支持彈性擴展。

據外媒報道，華爲計劃在今年量產最新AI芯片昇騰910C，其制良品率已升至40%，相比於一年前的20%（昇騰910B的良品率）已翻了一倍。華爲計劃今年量產10萬塊昇騰910C芯片，及30萬塊昇騰910B芯片。2024年，華爲共生產20萬塊910B芯片。

根據Tom's Hardware報道，昇騰910C芯片是華爲最新推出的AI芯片，採用了chiplet封裝，晶體管數量達530億個。實際應用方面，據稱910C的推理性能相當於Nvidia H100 GPU的60%。

海光DCU

海光信息技術團隊成功完成DeepSeek V3和R1模型與海光DCU（深度計算單元）的國產化適配。DCU是海光信息推出的高性能GPGPU架構AI加速卡，致力於爲行業客戶提供自主可控的全精度通用AI加速計算解決方案。憑藉卓越的算力性能和完備的軟件生態，DCU已在科教、金融、醫療、政務、智算中心等多個領域實現規模化應用。

海光DCU技術團隊表示，將持續推動大模型迭代適配與優化更新，攜手更多優秀大模型企業爲行業客戶提供更高效、更經濟、更安全的AI解決方案。同時，團隊也將積極探索更多應用場景，推動AI技術在更多行業的落地與普及。

沐曦曦思N260、曦雲C500

聯想聯合沐曦發佈基於DeepSeek大模型的首個國產一體機解決方案。面向敏捷部署的DeepSeek智能體一體機，採用ThinkStation PX工作站爲載體，搭載沐曦曦思N260國產GPU，可支持本地部署DeepSeek各種參數蒸餾模型推理。面向更廣泛場景的DeepSeek訓推一體機，基於聯想問天WA5480 G3 AI服務器，搭載8張曦雲C500國產GPU，可爲大模型訓練和推理提供強大的算力支撐。

據悉，發佈一個月以來，累計發貨量已突破千臺，配備沐曦國產GPU卡近萬張，覆蓋醫療、教育、製造等十餘個核心行業。搭配沐曦曦思N260國產GPU的一體機可支持在本地部署DeepSeek各種參數蒸餾模型，實測數據顯示，在相同併發條件下，DeepSeek-R1-Distill-Qwen-14B模型推理性能達到國際主流GPU的110%-130%。

浪潮雲聯合沐曦股份、銓興科技等生態夥伴，發佈預置DeepSeek-R1和DeepSeek-V3模型的海若一體機，率先實現671B DeepSeek大模型國產GPU單機推理服務，爲行業客戶提供大模型智能應用落地的一體化解決方案。

另外，Gitee AI在2月2日宣佈上線1.5B、7B、14B、32B四個尺寸的DeepSeek R1模型並均部署在國產沐曦曦雲GPU上。2月5日，Gitee AI再度發文，宣佈經測試已確認DeepSeek-V3全精度滿血版（671B）可以成功運行在沐曦訓推一體GPU上，並將V3滿血版上線到平臺上。

崑崙芯P800

DeepSeek的推理模型，通過蒸餾模型（如DeepSeek-R1-Distill-Qwen和DeepSeek-R1-Distill-Llama）、MoE（專家混合系統）、MLA（多頭潛在注意力機制）等創新技術，顯著降低了計算開銷，同時維持了模型的高性能。這使得國產AI芯片廠商能夠在推理任務中與英偉達GPU競爭，甚至在某些場景中表現更好。

以百度崑崙芯P800爲例，其XPU-R架構將通用計算單元和專用AI加速單元進行了融合，算力水平達到了僅次於昇騰910的水平，支持訓練、推理和虛擬化等多模式任務，能夠靈活適配AI算法的快速迭代需求。崑崙芯P800特別適用於需要大吞吐量的AI應用，單卡即可支撐高併發、高計算量的實時計算需求。

憑藉崑崙芯P800強大的算力，對於DeepSeek R1/V3滿血版的本地化部署，只需要8張基於崑崙芯P800的加速卡，即一臺8卡的服務器就能夠完成，部署起來非常的便捷。

壁仞科技壁礪系列訓推產品

壁仞科技自主研發的壁礪TM系列產品完成對DeepSeek-R1全系列蒸餾模型的支持，涵蓋了從1.5B到70B各等級參數版本，包括LLaMA蒸餾模型和千問蒸餾模型，爲開發者提供高性能、低成本的大模型部署與開發解決方案。

壁仞科技已聯合上海智能算力科技有限公司、中興通訊、科華數據、無問芯穹、開源中國（Gitee AI）、UCloud優刻得、一驀科技等戰略伙伴，基於壁礪系列訓推產品106M、106B、106E、110E，全面開展DeepSeek全系列模型的適配與上線。

天數 BI-V150

天數智芯成功完成了對DeepSeek R1千問蒸餾模型的適配，爲開發者提供了更多靈活選擇算力的機會。藉助天數智芯強大的算力，DeepSeek模型能夠提供更爲高效且穩定的推理服務，從而更好地適應不同規模和多樣化需求的應用場景。

長城擎天 GF7280 V5 AI 訓推一體機配置了雙路 S5000C 處理器，CPU 核心數量高達 128 個，並配備了 16 個 DDR5 內存條，總內存容量達到 1024GB。可驗證搭配 NV L20 和國產天數 BI-V150 和沐曦C500 三種不同 GPU 算力卡適配 DeepSeek R1 私有化部署情況，具有 “開箱即用、經濟高效、持續更新與支持” 三大優勢。

摩爾線程KUAE集羣

摩爾線程實現了對 DeepSeek 蒸餾模型推理服務部署。DeepSeek-R1-Distill-Qwen系列模型在摩爾線程KUAE集羣上成功部署與應用。KUAE（誇娥）智算中心，是摩爾線程首個全國產千卡千億模型訓練平臺，是國內首個以國產全功能GPU（圖形處理器）爲底座的大規模算力集羣。

DeepSeek 開源模型（如 V3、R1 系列）在多語言理解與複雜推理任務中展現了卓越性能。通過 DeepSeek 提供的蒸餾模型，能夠將大規模模型的能力遷移至更小、更高效的版本，在國產 GPU 上實現高性能推理。

燧原科技第三代推理卡S60

太湖億芯智算中心採用燧原科技生產的第三代推理卡S60，完成DeepSeek在太湖億芯智算中心的部署上線。弘信電子戰略合作伙伴燧原科技完成對DeepSeek全量模型的高效適配，包括DeepSeek-R1/V3 671B原生模型、DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B等蒸餾模型。整個適配進程中，燧原AI加速卡的計算能力得以充分利用，能夠快速處理海量數據，同時其穩定性爲模型的持續優化和大規模部署提供堅實的基礎。

申威AI加速卡

申威DeepSeek大模型一體機將中國電科新一代服務器CPU申威威鑫H8000與DeepSeek深度兼容，實現從硬件到算法完全自主創新，規避數據外泄風險、滿足合規要求，通過可視化管控平臺與智能運維體系，適配智能辦公、寫作翻譯等基礎場景，以及內容創作、文獻解讀、數學推理、代碼生成等專業場景，有效縮短運維週期、降低人力成本，加速智能化升級進程。申威DeepSeek大模型一體機採用輕量化拓撲設計，單機即可運行，並支持平滑擴展，在維持高性能前提下降低硬件成本，實現降本增效與資源集約化利用。

申威一體機搭載的申威威鑫H8000芯片及申威AI加速卡性能強大，以往需要專門建一個智算中心才能完成的計算任務，如今只要部署一兩臺內置DeepSeek的一體機就能實現。

雲天勵飛DeepEdge10

雲天勵飛DeepEdge10系列芯片是專門針對大模型時代打造的芯片，支持包括 Transformer 模型、BEV 模型、CV 大模型、LLM 大模型等各類不同架構的主流模型；基於自主可控的先進國產工藝打造,採用獨特的“算力積木”架構,可靈活滿足智慧城市、智慧交通、智能製造、智慧倉儲、機器人、邊緣智算中心等不同場景對算力的需求，爲大模型推理提供強大動力。目前，DeepEdge10芯片平臺已成功適配DeepSeek R1系列模型及國產鴻蒙操作系統。

景嘉微JM 系列、景宏系列

景嘉微JM系列、景宏系列與DeepSeek R1系列成功適配，進一步推動 DeepSeek 在雲邊端等各類場景的應用。

景嘉微JM系列完成了DeepSeek-R1-Distill-Qwen-1.5B模型和DeepSeek-R1-Distill-Qwen-7B模型的適配。

同時，景宏系列已全面兼容並適配DeepSeek R1全系列模型，覆蓋從1.5B至70B參數規模的LLaMA及千問模型架構。基於vLLM推理框架的部署方案，實現了高效推理性能與經濟性的雙重優勢，爲開發者提供了便捷的開發支持。該方案支持快速啓動和使用，無需複雜配置，助力AI技術的規模化落地應用。

太初元碁 T100加速卡

龍芯中科聯合太初元碁等產業夥伴，在太初T100加速卡上完成DeepSeek-R1系列模型的適配工作，採用龍芯3A6000處理器的誠邁信創電腦和望龍電腦已實現本地部署DeepSeek。

DeepSeek R2發佈在即，一體機市場前景樂觀

據浙商證券測算，預期DeepSeek快速部署需求有望帶動一體機需求增長，2025年到2027年一體機需求量將分別達到15萬臺、39萬臺、72萬臺，對應市場空間分別爲1236億元、2937億元、5208億元。

中金認爲，當前DeepSeek一體機的軟硬件協同仍面臨一些挑戰，一是主流國產AI芯片缺少對FP8 精度的支持，如果採用FP16 或BF16 精度，硬件效率將下降；二是爲了在單臺8卡服務器上實現全參數DeepSeek-R1 模型的部署，一體機廠商需要進行定點量化，需在算力效率和模型效果間尋求平衡。

我們此前報道過，面對DeepSeek市場爆發，英偉達H20成爲熱門選擇，不少互聯網大廠加大采購英偉達H20。

此外英偉達A100、4090等也都有不小的需求。例如一些企業要完成深度學習、複雜數據分析和高級圖像處理等功能，需要選擇高性能70B模型，或者適用於氣候建模、基因組分析等更加高精尖的場景，選擇滿血版671B模型版本。而一般來說，進行本土化部署的電腦配置，70B模型需要擁有2個A100 80G顯卡或4個RTX4090顯卡並行，配備32核CPU和128G的內存。更大規模的DeepSeek-R1 671B（滿血版）則需8個A100或H100顯卡並行，配備64核CPU及512GB內存。

預計很快，DeepSeek R2人工智能模型將發佈，公司最初計劃於五月推出，但目前正在努力加快進度。此前，有知情人士表示，希望新模型能生成更好的代碼，並能夠用英語以外的語言進行推理。業界預估，DeepSeek R2將進一步降低AI算力成本，緩解AI堆算力的路徑依賴。這或許將帶給國產算力芯片更大的機會。

DeepSeek一體機背後，國產算力芯片崛起

相關資訊