科大訊飛攜手華爲,實現基於國產算力的MoE模型推理方案

3月11日,據“科大訊飛研究院”公衆號,近日,科大訊飛攜手華爲在國產算力領域取得重大進展,雙方聯合團隊率先突破國產算力集羣上MoE模型的大規模跨節點專家並行集羣推理,這是繼DeepSeek公佈其MoE模型訓練推理方案後,業界首個基於國產算力的全新解決方案。

科大訊飛介紹,聯合團隊通過軟硬件的深度協同創新,在多個關鍵技術層面深挖硬件潛力,完成昇騰集羣上的驗證和部署。在算子融合方面,團隊在MLA預處理階段通過Vector與Cube異構計算單元並行流水,並將多個小算子融合重構爲原子級計算單元,消除小算子下發開銷,MLA前處理時延降低50%+,實現性能的顯著提升。

在混合並行策略和通信計算並行優化方面,團隊構建了TP(張量並行)+EP(專家並行)混合範式:對MLA計算層採用機內TP並行,發揮機內高速互聯優勢,降低跨機通信損耗;創新MoE專家分層調度,64卡均衡分配專家計算節點,定製AllToAll通信協議,專家數據交換效率提升40%,構建跨機/機內雙層通信架構,通過分層優化降低跨機流量60%;同時研發路由專家負載均衡算法,實現卡間負載差異小於10%,集羣吞吐提升30%。

通過分佈式架構創新與算法協同優化,聯合團隊在國產算力上實現了顯著的性能提升。單卡靜態內存佔用縮減至雙機部署的1/4,效率提升75%,專家計算密度增加4倍,推理吞吐提升3.2倍,端到端時延降低50%。

科大訊飛稱,這一突破性的解決方案也將應用於訊飛星火深度推理模型的訓練加速,預期訓練時推理效率將提升200%。同時,基於該方案的推理引擎也實現了國產算力上DeepSeek V3和R1的高效推理。

近期,科大訊飛深度推理大模型星火X1也完成升級,在模型參數量比業界同行少一個數量級的情況下,星火X1的數學能力全面對標DeepSeek R1和OpenAI o1,在中文數學各項任務中均實現領先。科大訊飛始終堅定走國產化道路,星火X1也是當前唯一採用全國產算力訓練的深度推理大模型。