☰

華爲的準萬億大模型，是如何訓練的？

三分之一個世紀前，加拿大學者們提出了經典的MoE模型神經網絡結構，在人類探索AI的「石器時代」中，爲後世留下了變革的火種。近十年前，美國硅谷的互聯網巨擎在理論和工程等方面，突破了MoE模型的原始架構，讓這個原本被置於學術高閣的理念，化身成爲了隨後AI競爭的導火索。如今，後發優勢再一次來到了大洋此岸，以華爲爲代表的中國科技企業，紛紛提出對MoE架構的優化重組方案。尤其是華爲的MoGE架構，不僅克服了MoE負載不均衡及效率瓶頸的弊病，還能夠降本增效，便於訓練和部署。AI之戰遠未終結，但正如在其他領域中「多快好省」的中國產業底色一樣，大模型這棵生於西方長於彼岸的科技樹，也同樣會被東方智慧經手後，進化爲更加普適和親切的工具。近期，虎嗅將打造《華爲技術披露集》系列內容，通過一連串的技術報告，首次全面披露相關的技術細節。希望本系列內容能爲業界起到參考價值，也希望更多人能與華爲一起，共同打造長期持續的開放協作生態環境，讓昇騰生態在中國茁壯成長。《華爲技術披露集》系列VOL.8 ：訓練系統現在，請大家一起數一下“1”、“2”。OK，短短2秒鐘時間，一個準萬億MoE大模型就已經吃透如何解一道高等數學大題了。而且啊，這個大模型還是不用GPU來訓練，全流程都是大寫的“國產”的那種。這，就是華爲通過“昇騰+Pangu Ultra MoE”這套組合拳解鎖的效果——不僅實現了國產算力與國產模型全流程自主可控的訓練閉環，更是在集羣訓練系統性能方面達到行業領先水平。有多領先？來看一組數據：· 預訓練階段：昇騰Atlas 800T A2萬卡集羣MFU提升至41%· 後訓練階段：單CloudMatrix 384超節點吞吐達35K Tokens/s值得一提的是，華爲還首次把背後的一大秘籍給亮了出來。具體來說，華爲在這次發佈的技術報告中，披露了在昇騰CloudMatrix 384超節點上，高效打通大稀疏比MoE強化學習後訓練框架的關鍵技術。此舉可以說是讓以強化學習（RL）爲核心機制的後訓練，進入到了超節點集羣時代。在深入華爲Pangu Ultra MoE訓練系統全流程之前，老規矩，我們還是先來了解一下此前的技術痛點。整體來看，在當前的MoE預訓練和強化學習後訓練過程中所存在的挑戰可以歸結爲六點：並行策略配置困難：面對數據並行、張量並行、專家並行、流水線並行和序列並行等多種策略的組合選擇，加上稀疏激活導致的負載不平衡因素，很難通過人工經驗找到最優的並行配置方案。All-to-All通信瓶頸：專家並行架構需要進行大規模的token路由交換，這不僅佔用大量網絡帶寬資源，還會造成計算資源長時間空閒等待，嚴重影響整體訓練效率。系統負載分佈不均：從注意力機制中序列長度的差異，到專家激活頻率的不平衡，再到流水線並行中各階段的負載分配問題，這些多層次的不均衡現象拖累了整個集羣的性能表現。算子調度開銷過大：動態路由機制引入了大量高頻率的小規模算子操作，增加了系統調度負擔，降低了核心矩陣計算的比重，從而顯著影響NPU的有效利用率。訓練流程管理複雜：強化學習後訓練涉及多個模型實例和多種訓練任務，包括MoE大模型的訓練和推理階段，整個流程的複雜性給資源分配和系統調度帶來巨大挑戰。大規模擴展受限：強化學習過程中，訓練與推理階段的參數重新映射機制，以及各計算任務間複雜的數據通信流程，成爲制約後訓練大規模部署的主要瓶頸。即使挑戰如此之多，華爲在這段技術報告中依舊是給出了一套完整的端到端全流程解法。01第一招：提升訓練集羣利用率超大規模訓練集羣的高效部署，是提升預訓練系統性能的關鍵所在。爲此，華爲團隊通過並行策略智能選擇、計算通信深度融合、全局動態負載平衡等技術創新，顯著提升了集羣整體訓練效率。首先是建模仿真驅動的智能並行優化。華爲團隊採用如下圖所示的系統建模仿真框架，將原本需要大量人工試錯的並行策略選擇問題轉化爲精確的自動化搜索過程。基於昇騰800T A2訓練集羣的硬件特性和約束條件，爲Pangu Ultra MoE 718B模型確定了最優部署配置：· 16路流水線並行（Pipeline Parallelism）進行模型層間切分· 8路張量並行（Tensor Parallelism）專門處理注意力計算· 32路專家並行（Expert Parallelism）實現專家模塊分佈式計算· 2路虛擬流水線並行（Virtual Pipeline Parallelism）提升流水線效率最終實現了與昇騰架構深度適配的最優化部署方案。訓練系統建模仿真流程其次是Adaptive Pipe前反向通算掩蓋。爲了突破並行擴展中的通信瓶頸問題，華爲團隊創新設計了昇騰網絡拓撲適配的分層All-to-All通信去冗餘機制，結合細粒度前反向計算重疊編排，成功將大規模MoE訓練中的專家並行通信開銷降至接近零暴露（<2%）：層次化專家並行通信：華爲給出了與昇騰訓練集羣拓撲深度適配的多級通信策略。首先在節點間進行去冗餘的token收集操作，避免相同token在低帶寬的跨節點鏈路上重複傳輸；隨後利用節點內高帶寬優勢，通過All-to-All通信實現token的冗餘分發。這一分層設計顯著提升了專家並行的整體通信效率。自適應細粒度前反向掩蓋：針對分層專家並行通信特點，設計了基於虛擬流水線並行（VPP）的細粒度前反向重疊掩蓋策略。相比業界DualPipe掩蓋方案，該策略將權重內存佔用減少一半。通過進一步拆解MLP模塊計算流程，充分利用分層專家並行通信中各級帶寬相對獨立的特性，實現算子執行順序的自適應調優，最終將專家並行通信幾乎完全隱藏（未掩蓋比例僅爲2%）。最後是EDP Balance 全局動態負載均衡。對於MoE模型，模型規模和集羣規模的增長會導致專家計算、注意力計算以及各層間的負載不均衡問題相互疊加並被顯著放大。當多種性能瓶頸同時出現時，通信同步等待會在系統中傳播擴散，造成整體性能的嚴重惡化。華爲團隊採用系統性的分析方法，深入剖析專家並行（EP）、數據並行（DP）、流水線並行（PP）各通信域中潛在的負載均衡挑戰，提出了EDP全局負載均衡優化策略。這個策略不僅通過專家負載預測和動態調節機制（如下圖）實現設備間計算負載的精確平衡，還通過注意力數據重排技術進一步優化了數據並行域間的負載分佈效果。此外，團隊將虛擬流水線並行（VPP）機制與硬件規格特點相結合，設計了最優混合並行架構，有效緩解了模型各層間計算負載分佈不均的問題，大幅提升了整體訓練效率。基於專家動態遷移的EP間負載均衡整體框架圖02第二招：釋放昇騰單節點算力在昇騰超大規模集羣優化實現突破性進展後，華爲團隊將優化焦點轉向底層算子計算效率的深度挖潛。這個階段的核心工作圍繞昇騰架構深度適配的訓練算子加速展開，通過緩解Host資源瓶頸以及內存優化策略雙重手段，成功將微批處理規模（MBS）提升至原來的兩倍。同時團隊還對算子調度下發鏈路進行協同優化，最終實現了昇騰單節點算力的全面釋放。華爲團隊的“第二招”，同樣包含三個細分內容；首先就是昇騰親和的訓練算子加速。在大模型訓練計算過程中，FlashAttention、MatMul以及Permute/Unpermute等向量操作算子的執行時間佔據了算子總計算耗時的四分之三以上。針對這些關鍵算子類型，華爲團隊充分利用昇騰微架構特性，通過算子流水線排布優化和數學等價冗餘計算消除等核心技術手段，實現了訓練算子性能的顯著躍升。其次是Host-Device協同的算子下發優化。針對同步型間歇性Host-Bound和系統性持續性Host-Bound問題，華爲團隊充分發揮昇騰+鯤鵬異構系統協同優勢，構建了分層優化體系來實現高效算子調度：對於同步型Host-Bound問題，不僅有效消除了同步操作引發的Host資源瓶頸，在無法完全規避同步的場景下，還通過優化鯤鵬處理器的算子下發與調度策略，顯著降低了同步後的Host-Bound開銷。對於系統性Host-Bound問題，則採用增大微批處理規模（MBS）、鯤鵬CPU NUMA親和性優化等多維度協同手段，大幅提升算子下發效率。通過算法與系統的深度協同優化，華爲團隊成功將MoE模型訓練中的Host-Bound佔比控制在2%以下，爲超大規模模型訓練探索出了全新的技術範式。最後是Selective R/S-精準的內存手術方案。華爲團隊構建了一個精密的內存優化框架：以豐富多樣的通用化重計算策略和Swap機制作爲“精密工具庫”，涵蓋從模塊級到張量級的細粒度優化選項；配合精心設計的自適應內存管理機制作爲“智能調度平臺”。這個框架針對Pangu Ultra MoE 718B模型訓練需求，實現了多維度、定製化的內存資源精確調配。通過構建最優內存優化策略組合，以精準的資源管理手段最大化釋放內存空間，成功實現了超過70%的激活值內存節省。即使在微批處理規模（MBS）翻倍帶來的內存壓力挑戰下，這個方案依然爲模型的長期穩定訓練提供了可靠保障。03第三招：首次披露高性能可擴展RL後訓練關鍵技術華爲團隊針對強化學習訓練中異構模型和多任務場景導致的資源利用率偏低問題，通過深入的系統分析和創新設計，提出了RL Fusion訓推共卡技術。這一技術支持訓練推理共卡、全共卡等多種靈活部署模式（如下圖），實現推理階段資源調度的精細化可控管理，支持張量並行（TP）、數據並行（DP）、專家並行（EP）、流水線並行（PP）等多維並行策略的動態無縫切換。可在秒級時間內完成訓推狀態轉換，最終實現了RL後訓練集羣利用率翻倍的顯著提升。分離部署、訓推共卡部署、全共卡部署資源利用率示意圖除此之外，華爲團隊還展示了面向大規模集羣高效可擴展的後訓練框架：1. 摒棄全同步迭代方式，設計容忍梯度“陳舊性”的準異步機制StaleSync（如下圖），讓不同RL階段的不同任務在“陳舊度閾值”內並行執行。在保證模型精度的前提下，系統整體訓練吞吐提升50%。2. 針對RL階段多任務的處理需求，設計了分佈式數據隊列DistQueue，實現不同計算任務之間數據的拆分、緩存與動態讀取。DistQueue對整個後訓練過程中的數據進行管理，有效緩解不同計算任務之間的數據阻塞，爲後訓練任務高效調度提供數據支持。042秒就能讓大模型吃透一道高數大題通過預訓練和RL後訓練加速技術，華爲團隊基於MindSpeed、Megatron以及vLLM框架，打造了昇騰全流程高效訓練系統。這個系統可支持超大規模集羣和超大規模MoE模型，並在Pangu Ultra MoE模型訓練中實現了端到端的流暢訓練。Pangu Ultra MoE模型擁有7180億參數量，具有大稀疏比和高綜合性能的顯著特點。其架構包含61層Transformer，前3層爲稠密層，後58層爲MoE層。模型隱層維度達7680，配備256個路由專家和1個共享專家，專家隱層維度爲2048。在預訓練階段，華爲團隊使用6K - 10K卡的昇騰800T A2集羣對Pangu Ultra MoE進行訓練。在序列長度爲8K、萬卡訓練集羣的條件下，模型算力利用率（MFU）創下新高，達到了41%。上述訓練系統具有很強的泛化性，可高效擴展至更大規模參數模型和更大規模卡數集羣，同時如果配合昇騰CloudMatrix 384超節點的高速互聯特性，預計可支撐訓練集羣MFU > 50%，相關技術迭代實踐結果也將在日後技術報告中發佈。

而在RL後訓練階段，於Pangu Ultra MoE昇騰CloudMatrix 384超節點集羣的後訓練中，採用訓練推理混合並行策略（訓練：PP16/VPP2/EP32/TP8，推理：PP1/EP64/TP1），並結合異步RL算法與訓練框架系統的協同創新，實現了每超節點35K Tokens/s的高吞吐能力。同時支持高效擴展超過4K卡的集羣，這一效率相當於每2秒就能吃透一道高等數學大題，實現了昇騰超節點吞吐的新突破。

以上便是華爲Pangu Ultra MoE訓練系統全流程的深度揭秘了。

本內容爲作者獨立觀點，不代表虎嗅立場。未經允許不得轉載，授權事宜請聯繫 hezuo@huxiu.com

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4408748.html?f=wyxwapp

華爲的準萬億大模型，是如何訓練的？

相關資訊