華爲:昇騰AI計算平臺訓練出準萬億MoE模型

5月30日消息,華爲宣佈推出參數規模高達7180億的全新模型盤古Ultra MoE,這是一個全流程在昇騰AI計算平臺上訓練的準萬億MoE模型。據悉,盤古團隊提出Depth-Scaled Sandwich-Norm(DSSN)穩定架構和TinyInit小初始化的方法,在昇騰平臺上實現了超過18TB數據的長期穩定訓練。在訓練方法上,華爲團隊首次披露在昇騰CloudMatrix 384超節點上打通大稀疏比MoE強化學習(RL)後訓練框架的關鍵技術,使RL後訓練進入超節點集羣時代。