字節跳動攻克MoE關鍵瓶頸 再砍訓練成本40%

綜合陸媒報導,早前,豆包團隊發佈新一代稀疏架構UltraMem,將模型推理成本砍掉 83%,此次又開源COMET,向模型訓練成本出手。從技術理念上看,兩者還可以結合使用,組成一套「砍價刀法」。

具體來看,COMET主要針對的是MoE模型在分散式訓練中,仍存在大量通訊開銷的問題。COMET內部通過一套細微性計算通信摺疊技術,並結合GPU資源的動態分配,極致壓榨MoE專家「摸魚閒置」的時間,在大規模MoE的單個執行層上可提速1.96倍,端到到平均提速1.71倍。