讓算力航母穩健遠航,華爲首次披露昇騰算力基礎設施的壓艙石

當我們把上萬臺計算機整合成一個有機整體時,需要解決一系列世界級難題:如何讓它們像精密鐘錶一樣協同工作?如何在部分設備故障時依然保持高效運行?如何快速修復大規模訓練中的中斷問題?接下來我們將逐一揭秘這些支撐 AI 算力集羣的關鍵特性,看看華爲團隊如何用工程智慧馴服這頭算力巨獸。

超節點高可用:24 小時不停工的智能工廠

就像醫院的急診系統必須時刻在線,AI 訓練和推理也不能輕易中斷。算力集羣裡每臺計算機都有 "備用替身",當某臺機器出現故障(比如突然斷電或硬件損壞),系統會立刻啓動備用機接管任務,就像接力賽中接力棒無縫傳遞,確保自動駕駛訓練、語音識別等任務持續運行,不會因爲個別設備故障而全盤停止。

針對CloudMatrix 384超節點,華爲團隊提出面向整個超節點的故障容錯方案,分爲“系統層容錯”“業務層容錯”,以及後續“運維層容錯”,核心思想就是 將故障問題轉爲亞健康問題,通過運維手段優雅消除:

(1) 系統層容錯:通過超時代答欺騙OS+網絡路由切換,防系統藍屏,同時避免整個超節點級故障。

(2) 業務層容錯:租戶無感知下,通過重試容忍網絡閃斷,將系統故障轉爲亞健康。

(3) 運維層容錯:主要構築亞健康感知和優雅恢復技術,通過主動方式將消減亞健康事件影響。

集羣線性度:人多力量大的完美協作

理想情況下,100 臺計算機的算力應該是 1 臺的 100 倍,1000 臺就是 1000 倍,這就是 "線性度"。算力集羣通過精密的任務分配算法,讓每臺計算機都像 orchestra(交響樂團)的樂手一樣各司其職,避免出現 "三臺和尚沒水喝" 的混亂。比如訓練一個需要萬億次計算的模型時,萬臺計算機能像整齊劃一地划槳的龍舟隊,讓算力隨規模增長而幾乎同步提升。

華爲團隊提出拓撲感知的協同編排技術TACO、網絡級網存算融合技術NSF、拓撲感知的層次化集合通信技術NB、無侵入通信跨層測量與診斷技術AICT等四項關鍵技術,實現盤古模型訓練線性度提升。

實驗及理論分析結果顯示,訓練Pangu Ultra 135B稠密模型時,4K卡Atlas 800T A2集羣相比256卡基線,線性度爲96%。訓練Pangu Ultra MoE 718B稀疏模型時,8K卡A2集羣相比512卡基線,線性度95.05%;4K卡CloudMatrix 集羣相比256卡基線,線性度96.48%。

萬卡集羣訓練快速恢復:帶 "存檔功能" 的訓練師

當用上萬個計算單元(俗稱 "萬卡")訓練超大規模模型時,偶爾有幾臺機器 "罷工" 是難免的。這時系統會像遊戲存檔一樣,自動記錄最近的訓練進度。一旦檢測到故障,能快速定位出問題的計算單元,跳過故障部分,從最新的存檔點繼續訓練,避免從頭再來的巨大浪費。比如訓練一個需要 30 天的模型,即使中間有設備故障,也能在幾分鐘內恢復進度,就像視頻播放可以隨時續播。

爲了使萬卡集羣訓練可以達到分鐘級快恢,華爲團隊提出了以下多個創新:

(1) 進程級重調度恢復:正常節點通過參數面網絡將臨終CKPT傳遞到備用節點上,完成參數狀態恢復後繼續訓練,能夠有效縮短訓練恢復時間到3min以內。

(2) 進程級在線恢復:針對硬件UCE故障,通過業務面昇騰CANN軟件、框架軟件、MindCluster軟件配合實現故障地址在線修復,進一步縮短訓練恢復時間到30s以內。

(3) 算子級在線恢復:針對CloudMatrix 384產品HCCS網絡、ROCE參數面網絡提供HCCL算子重試能力,容忍更長時間的網絡異常,實現網絡故障影響的通信算子秒級重執行,訓練任務不中斷。

超大規模MoE模型推理分鐘級恢復:各路英豪來幫忙

隨着千億MOE模型架構演進,實例部署的組網架構從傳統的一機八卡演進爲大EP組網架構,將多且小的專家部署在多個服務器節點上緩解顯存帶寬壓力,目前在大EP組網架構下主要面臨部署規模擴大導致的故障概率數量增大、故障爆炸半徑變大的可靠性問題,任意硬件故障都會導致整個Decode實例不可用,進而導致推理業務受損,甚至中斷。

針對當前超大規模MoE模型帶來的大EP推理架構的可靠性難題,我們提出三級容錯方案,實例間切換、實例內重啓恢復、實例內無損恢復,從硬件驅動層、框架層、平臺層相互協作,構築端到端可靠性體系。在不同的故障場景下,採用不同的容錯恢復手段,可以最小化用戶損失。

(1) 實例內快速重啓恢復技術:根據實際環境測試驗證,該技術將實例恢復時間從20min降低5min。

(2) TOKEN級重試:基於DeepSeekV3在CloudMatrix 384超節點場景下,驗證30~60s實現實例恢復。

(3) 減卡彈性恢復技術:作爲當前進行工作,解決硬件故障下業務中斷問題,通過專家遷移,實現故障時推理進程不退出,以減卡爲容錯手段,動態調整推理實例規模,在用戶無感知情況下秒級恢復。

故障管理與感知診斷:24 小時在線的設備醫生

算力集羣裡有一套實時監控系統,就像給每臺計算機安裝了 "健康手環",持續監測溫度、算力利用率、數據傳輸速度等指標。一旦發現某臺設備運行異常(比如散熱不良導致速度變慢),系統會立即發出警報,並像醫生一樣分析故障原因 —— 是硬件老化?網絡擁堵?還是軟件 bug?快速定位問題並啓動修復機制,防止小故障演變成大停機。

針對面向算力集羣的硬件故障管理,華爲團隊提供了一套完整的解決方案:基於CloudMatrix 384超節點的設備物理形態和組網方案的昇騰AI硬件災備高可靠架構設計、涵蓋基礎檢錯糾錯能力、故障隔離能力、故障容錯能力以及深度巡檢與故障預測能力的昇騰RAS統一故障管理容錯框架、進一步提升光鏈路的可靠性的網絡自診斷可靠性管理,以及綠色低碳、穩定可靠和安全可信的雲數據中心管理體系。

針對面向算力集羣的故障感知能力,華爲團隊構建了大規模集羣在線故障感知(全棧可觀測)和故障診斷(全棧故障模式庫、跨域故障診斷、計算節點故障診斷、網絡故障診斷)技術:

(1) 全棧可觀測能力:構建了大規模集羣的故障感知能力,主要由集羣運行視圖、告警視圖、網絡鏈路監控、告警接入和配置、網絡流可觀測能力組成;

(2) 故障診斷能力:包括全棧故障模式庫、跨域故障診斷、計算節點故障診斷、網絡故障診斷;

建模仿真:算力底座的“數字化風洞”

在正式開展複雜AI模型的訓推之前,算力集羣可以先在虛擬環境的“數字化風洞”中 "彩排"。比如研發一個新藥篩選模型時,先通過模擬不同的算法參數、數據輸入和計算資源分配方案,預測模型在真實場景中的表現,就像電影導演用動畫預演複雜鏡頭。這種 "先模擬後實戰" 的方式,能提前發現計算系統的瓶頸點和邏輯漏洞,並提出相應優化手段,節省大量真實訓推的時間和資源。

華爲團隊創新性提出系統化、可擴展的馬爾科夫建模仿真平臺,圍繞對訓練、推理、高可用三大核心領域實現多維度系統性建模分析與性能預測調優,實現集羣資源高效配置與動態優化,達成算力極致利用與系統長期穩定可靠運行。

(1) Sim2Train訓練建模仿真:馬爾科夫訓練集羣建模仿真平臺,AdaptPack編排優化長序列PP空泡,吞吐提升4.5%-8.24%。通信與計算協同場景,引入AdaptS/R技術,通信暴露時間降89.84%,單步總時長縮短3.25%;MoE通過AdaptExpert提升端到端性能7.5%。

(2) Sim2Infer推理建模仿真:面向昇騰複雜推理系統的馬爾科夫建模仿真平臺,實現了從高層算子描述到底層硬件指令的自動化映射與仿真,平均誤差低至6.6%。

(3) Sim2Availability高可用建模仿真:馬爾科夫高可用建模仿真框架,通過離散時間步長仿真,建模單步時長內的故障性能劣化影響與恢復耗時,模擬複雜系統訓練任務中的故障場景及運維響應,實現對訓練過程性能表現與故障恢復狀態的全週期監控仿真。

框架遷移:給模型跑車換更酷炫輪胎

自從2020年3月全面開源以來,華爲推出的全場景AI框架昇思MindSpore一路高歌猛進,開發者生態迅速成長。除了爲基於昇騰+昇思的自主創新外,昇思MindSpore也提供了擁抱主流生態的兼容方案,適應大模型時代的挑戰和需求。

(1) 訓練階段,MindSpore構建了MSAdapter生態適配工具,覆蓋90%以上PyTorch接口,實現第三方框架的無縫遷移,並針對動態圖執行效率的問題,通過多級流水線技術與即時編譯(JIT)優化顯著提升執行效率。

(2) 推理階段,MindSpore基於主流生態的HuggingFace權重配置,無需修改即可實現一鍵部署,通過vllm-MindSpore插件對接vLLM框架,支持大模型推理服務化能力。實現盤古72B模型快速部署,實現推理性能提升。

總結與展望

綜上所述,華爲團隊針對昇騰算力集羣基礎設施,提出了針對超節點高可用、集羣線性度、萬卡集羣訓練快速恢復、萬億MoE模型推理容錯、集羣故障感知及感知診斷、集羣仿真建模、框架遷移等方面的全維度的創新方案。

隨着新型應用快速變化,硬件系統持續創新,系統架構不斷演進,工程能力走向智能化,未來算力基礎設施的演進將走上算法-算力-工程協同進化的道路,有可能形成“應用需求→硬件創新→工程反哺”的閉環,算法層驅動算力專用化(如複合AI需異構加速),算力層通過架構革新(如光電混合)釋放性能潛力,工程層以智能化手段(如AI運維)彌合複雜度鴻溝,最終實現高效、彈性、自愈的下一代算力基礎設施。