豆包提出全新稀疏架構 推理成本較MoE最高可降83%

證券時報e公司訊,隨着模型規模的擴大,推理成本和訪存效率已成爲限制大模型規模應用的關鍵瓶頸。近期,字節跳動豆包大模型團隊提出了全新的稀疏模型架構UltraMem,該架構有效解決了MoE推理時高額的訪存問題,推理速度較MoE架構提升2—6倍,推理成本最高可降低83%。該研究還揭示了新架構的Scaling Law,證明其不僅具備優異的Scaling特性,更在性能上超越了MoE。實驗結果表明,訓練規模達2000萬value的UltraMem模型,在同等計算資源下,可同時實現業界領先的推理速度和模型性能,爲構建數十億規模value或expert開闢了新路徑。