DeepSeek一體機背後,國產算力芯片崛起
電子發燒友網報道(文/黃晶晶)自DeepSeek推出以來,最火的硬件產品非DeepSeek一體機莫屬。DeepSeek大模型的應用和部署設計需要計算設備的支持,根據不同的大模型參數版本,例如DeepSeek-R1目前已經發布了1.5B/7B/8B/14B/32B/70B/671B共7類,選擇不同規格的硬件配置。
自2月份以來,已有多家芯片廠商宣佈支持DeepSeek模型,包括華爲昇騰、海光、沐曦、崑崙芯、壁仞科技、天數智芯、摩爾線程、燧原科技、雲天勵飛等等。許多產品已經在DeepSeek一體機中得以廣泛應用。例如,聯想聯合沐曦發佈基於DeepSeek大模型的首個國產一體機解決方案,發佈一個月以來,累計發貨量已突破千臺,配備沐曦國產GPU卡近萬張,覆蓋醫療、教育、製造等十餘個核心行業。
昇騰910
軟通動力旗艦版超強A800I A2服務器,基於鯤鵬920處理器、昇騰910 AI處理器,8模組高效推理,支持PFLOPS FP16超高算力和高速NPU互聯技術,支持DeepSeek全量版本適配。
優刻得 DeepSeek 滿血版大模型一體機支持沐曦、壁仞、昇騰、天數智芯等國產 AI 芯片全適配,以軟硬一體化的交付模式,提供從底層算力獲取、模型微調和推理能力、AI 應用開發的全棧式解決方案。結合雲計算平臺,提供靈活的 DeepSeek 模型部署與管理服務,支持彈性擴展。
據外媒報道,華爲計劃在今年量產最新AI芯片昇騰910C,其制良品率已升至40%,相比於一年前的20%(昇騰910B的良品率)已翻了一倍。華爲計劃今年量產10萬塊昇騰910C芯片,及30萬塊昇騰910B芯片。2024年,華爲共生產20萬塊910B芯片。
根據Tom's Hardware報道,昇騰910C芯片是華爲最新推出的AI芯片,採用了chiplet封裝,晶體管數量達530億個。實際應用方面,據稱910C的推理性能相當於Nvidia H100 GPU的60%。
海光DCU
海光信息技術團隊成功完成DeepSeek V3和R1模型與海光DCU(深度計算單元)的國產化適配。DCU是海光信息推出的高性能GPGPU架構AI加速卡,致力於爲行業客戶提供自主可控的全精度通用AI加速計算解決方案。憑藉卓越的算力性能和完備的軟件生態,DCU已在科教、金融、醫療、政務、智算中心等多個領域實現規模化應用。
海光DCU技術團隊表示,將持續推動大模型迭代適配與優化更新,攜手更多優秀大模型企業爲行業客戶提供更高效、更經濟、更安全的AI解決方案。同時,團隊也將積極探索更多應用場景,推動AI技術在更多行業的落地與普及。
沐曦曦思N260、曦雲C500
聯想聯合沐曦發佈基於DeepSeek大模型的首個國產一體機解決方案。面向敏捷部署的DeepSeek智能體一體機,採用ThinkStation PX工作站爲載體,搭載沐曦曦思N260國產GPU,可支持本地部署DeepSeek各種參數蒸餾模型推理。面向更廣泛場景的DeepSeek訓推一體機,基於聯想問天WA5480 G3 AI服務器,搭載8張曦雲C500國產GPU,可爲大模型訓練和推理提供強大的算力支撐。
據悉,發佈一個月以來,累計發貨量已突破千臺,配備沐曦國產GPU卡近萬張,覆蓋醫療、教育、製造等十餘個核心行業。搭配沐曦曦思N260國產GPU的一體機可支持在本地部署DeepSeek各種參數蒸餾模型,實測數據顯示,在相同併發條件下,DeepSeek-R1-Distill-Qwen-14B模型推理性能達到國際主流GPU的110%-130%。
浪潮雲聯合沐曦股份、銓興科技等生態夥伴,發佈預置DeepSeek-R1和DeepSeek-V3模型的海若一體機,率先實現671B DeepSeek大模型國產GPU單機推理服務,爲行業客戶提供大模型智能應用落地的一體化解決方案。
另外,Gitee AI在2月2日宣佈上線1.5B、7B、14B、32B四個尺寸的DeepSeek R1模型並均部署在國產沐曦曦雲GPU上。2月5日,Gitee AI再度發文,宣佈經測試已確認DeepSeek-V3全精度滿血版(671B)可以成功運行在沐曦訓推一體GPU上,並將V3滿血版上線到平臺上。
崑崙芯P800
DeepSeek的推理模型,通過蒸餾模型(如DeepSeek-R1-Distill-Qwen和DeepSeek-R1-Distill-Llama)、MoE(專家混合系統)、MLA(多頭潛在注意力機制)等創新技術,顯著降低了計算開銷,同時維持了模型的高性能。這使得國產AI芯片廠商能夠在推理任務中與英偉達GPU競爭,甚至在某些場景中表現更好。
以百度崑崙芯P800爲例,其XPU-R架構將通用計算單元和專用AI加速單元進行了融合,算力水平達到了僅次於昇騰910的水平,支持訓練、推理和虛擬化等多模式任務,能夠靈活適配AI算法的快速迭代需求。崑崙芯P800特別適用於需要大吞吐量的AI應用,單卡即可支撐高併發、高計算量的實時計算需求。
憑藉崑崙芯P800強大的算力,對於DeepSeek R1/V3滿血版的本地化部署,只需要8張基於崑崙芯P800的加速卡,即一臺8卡的服務器就能夠完成,部署起來非常的便捷。
壁仞科技壁礪系列訓推產品
壁仞科技自主研發的壁礪TM系列產品完成對DeepSeek-R1全系列蒸餾模型的支持,涵蓋了從1.5B到70B各等級參數版本,包括LLaMA蒸餾模型和千問蒸餾模型,爲開發者提供高性能、低成本的大模型部署與開發解決方案。
壁仞科技已聯合上海智能算力科技有限公司、中興通訊、科華數據、無問芯穹、開源中國(Gitee AI)、UCloud優刻得、一驀科技等戰略伙伴,基於壁礪系列訓推產品106M、106B、106E、110E,全面開展DeepSeek全系列模型的適配與上線。
天數 BI-V150
天數智芯成功完成了對DeepSeek R1千問蒸餾模型的適配,爲開發者提供了更多靈活選擇算力的機會。藉助天數智芯強大的算力,DeepSeek模型能夠提供更爲高效且穩定的推理服務,從而更好地適應不同規模和多樣化需求的應用場景。
長城擎天 GF7280 V5 AI 訓推一體機配置了雙路 S5000C 處理器,CPU 核心數量高達 128 個,並配備了 16 個 DDR5 內存條,總內存容量達到 1024GB。可驗證搭配 NV L20 和國產天數 BI-V150 和沐曦C500 三種不同 GPU 算力卡適配 DeepSeek R1 私有化部署情況,具有 “開箱即用、經濟高效、持續更新與支持” 三大優勢。
摩爾線程KUAE集羣
摩爾線程實現了對 DeepSeek 蒸餾模型推理服務部署。DeepSeek-R1-Distill-Qwen系列模型在摩爾線程KUAE集羣上成功部署與應用。KUAE(誇娥)智算中心,是摩爾線程首個全國產千卡千億模型訓練平臺,是國內首個以國產全功能GPU(圖形處理器)爲底座的大規模算力集羣。
DeepSeek 開源模型(如 V3、R1 系列)在多語言理解與複雜推理任務中展現了卓越性能。通過 DeepSeek 提供的蒸餾模型,能夠將大規模模型的能力遷移至更小、更高效的版本,在國產 GPU 上實現高性能推理。
燧原科技第三代推理卡S60
太湖億芯智算中心採用燧原科技生產的第三代推理卡S60,完成DeepSeek在太湖億芯智算中心的部署上線。弘信電子戰略合作伙伴燧原科技完成對DeepSeek全量模型的高效適配,包括DeepSeek-R1/V3 671B原生模型、DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B等蒸餾模型。整個適配進程中,燧原AI加速卡的計算能力得以充分利用,能夠快速處理海量數據,同時其穩定性爲模型的持續優化和大規模部署提供堅實的基礎。
申威AI加速卡
申威DeepSeek大模型一體機將中國電科新一代服務器CPU申威威鑫H8000與DeepSeek深度兼容,實現從硬件到算法完全自主創新,規避數據外泄風險、滿足合規要求,通過可視化管控平臺與智能運維體系,適配智能辦公、寫作翻譯等基礎場景,以及內容創作、文獻解讀、數學推理、代碼生成等專業場景,有效縮短運維週期、降低人力成本,加速智能化升級進程。申威DeepSeek大模型一體機採用輕量化拓撲設計,單機即可運行,並支持平滑擴展,在維持高性能前提下降低硬件成本,實現降本增效與資源集約化利用。
申威一體機搭載的申威威鑫H8000芯片及申威AI加速卡性能強大,以往需要專門建一個智算中心才能完成的計算任務,如今只要部署一兩臺內置DeepSeek的一體機就能實現。
雲天勵飛DeepEdge10
雲天勵飛DeepEdge10系列芯片是專門針對大模型時代打造的芯片,支持包括 Transformer 模型、BEV 模型、CV 大模型、LLM 大模型等各類不同架構的主流模型;基於自主可控的先進國產工藝打造,採用獨特的“算力積木”架構,可靈活滿足智慧城市、智慧交通、智能製造、智慧倉儲、機器人、邊緣智算中心等不同場景對算力的需求,爲大模型推理提供強大動力。目前,DeepEdge10芯片平臺已成功適配DeepSeek R1系列模型及國產鴻蒙操作系統。
景嘉微JM 系列、景宏系列
景嘉微JM系列、景宏系列與DeepSeek R1系列成功適配,進一步推動 DeepSeek 在雲邊端等各類場景的應用。
景嘉微JM系列完成了DeepSeek-R1-Distill-Qwen-1.5B模型和DeepSeek-R1-Distill-Qwen-7B模型的適配。
同時,景宏系列已全面兼容並適配DeepSeek R1全系列模型,覆蓋從1.5B至70B參數規模的LLaMA及千問模型架構。基於vLLM推理框架的部署方案,實現了高效推理性能與經濟性的雙重優勢,爲開發者提供了便捷的開發支持。該方案支持快速啓動和使用,無需複雜配置,助力AI技術的規模化落地應用。
太初元碁 T100加速卡
龍芯中科聯合太初元碁等產業夥伴,在太初T100加速卡上完成DeepSeek-R1系列模型的適配工作,採用龍芯3A6000處理器的誠邁信創電腦和望龍電腦已實現本地部署DeepSeek。
DeepSeek R2發佈在即,一體機市場前景樂觀
據浙商證券測算,預期DeepSeek快速部署需求有望帶動一體機需求增長,2025年到2027年一體機需求量將分別達到15萬臺、39萬臺、72萬臺,對應市場空間分別爲1236億元、2937億元、5208億元。
中金認爲,當前DeepSeek一體機的軟硬件協同仍面臨一些挑戰,一是主流國產AI芯片缺少對FP8 精度的支持,如果採用FP16 或BF16 精度,硬件效率將下降;二是爲了在單臺8卡服務器上實現全參數DeepSeek-R1 模型的部署,一體機廠商需要進行定點量化,需在算力效率和模型效果間尋求平衡。
我們此前報道過,面對DeepSeek市場爆發,英偉達H20成爲熱門選擇,不少互聯網大廠加大采購英偉達H20。
此外英偉達A100、4090等也都有不小的需求。例如一些企業要完成深度學習、複雜數據分析和高級圖像處理等功能,需要選擇高性能70B模型,或者適用於氣候建模、基因組分析等更加高精尖的場景,選擇滿血版671B模型版本。而一般來說,進行本土化部署的電腦配置,70B模型需要擁有2個A100 80G顯卡或4個RTX4090顯卡並行,配備32核CPU和128G的內存。更大規模的DeepSeek-R1 671B(滿血版)則需8個A100或H100顯卡並行,配備64核CPU及512GB內存。
預計很快,DeepSeek R2人工智能模型將發佈,公司最初計劃於五月推出,但目前正在努力加快進度。此前,有知情人士表示,希望新模型能生成更好的代碼,並能夠用英語以外的語言進行推理。業界預估,DeepSeek R2將進一步降低AI算力成本,緩解AI堆算力的路徑依賴。這或許將帶給國產算力芯片更大的機會。