字節跳動豆包大模型團隊開源一項MoE架構優化技術

字節跳動豆包大模型團隊近日開源一項名爲COMET的MoE架構優化技術,可將大模型訓練效率提升1.7倍。論文顯示,該技術已實際應用於字節的萬卡集羣訓練,實現數百萬GPU小時訓練算力的節省。