☰

浪潮信息發佈面向萬億參數大模型的超節點AI服務器

8月8日消息，浪潮信息發佈面向萬億參數大模型的超節點AI服務器“元腦SD200”。據悉，該產品基於浪潮信息研發的多主機低延遲內存語義通信架構，向上擴展支持64路本土GPU芯片。

元腦SD200可實現單機內運行超萬億參數大模型，並支持多個大模型機內同時運行及多智能體實時協作與按需調用，目前已實現商用。

據介紹，在實際評測中，元腦SD200運行DeepSeek R1和Kimi K2等全參模型的64卡整機推理性能實現超線性擴展。

具體來看，在架構層面，元腦SD200基於自主研發的開放總線交換技術首創多主機三維網格系統架構，實現64路本土GPU芯片高速互連；通過創新遠端GPU虛擬映射技術，突破多主機交換域統一編址難題，實現顯存統一地址空間擴增8倍，單機可以提供最大4TB顯存和64TB內存，爲萬億參數、超長序列大模型提供充足鍵值緩存空間。同時，依託百納秒級超低延遲鏈路，構建64卡大高速互連域統一原生內存語義通信，實測結果表明，在推理過程常見的小數據包通信場景中，全規約(All Reduce)性能表現優異，顯著提升計算與通信效率。

在系統層面，根據萬億參數大模型計算、通信需求特徵，浪潮信息開發智能總線管理系統，實現超節點64卡全局最優路由的自動創建，支持不同拓撲切換，資源按需切分。對於全規約、全聚集(All Gather)等典型通信算子，開展不同數據量大小的細粒度通信策略設計，如多層級通信機制等，實現通信延時進一步降低。同時依託開放的PD分離框架，支持異步KV Cache高效傳輸與差異化並行策略，在提升業務服務級別目標的同時保持對多元算力的兼容性，實現計算與通信架構的深度協同優化。

據瞭解，元腦SD200超節點AI服務器通過軟硬協同系統創新，向上擴展突破芯片性能邊界，在大模型場景中展示出優異的性能表現。結合優化的PD分離框架，SD200超節點滿機運行DeepSeek R1全參模型推理性能超線性提升比爲3.7倍，滿機運行Kimi K2全參模型推理性能超線性提升比爲1.7倍。（定西）

浪潮信息發佈面向萬億參數大模型的超節點AI服務器

相關資訊