豆包又把算力成本“打了下來” 但壓力纔剛剛開始

《科創板日報》2月12日訊(記者 張洋洋)今日,字節跳動豆包大模型團隊提出了全新的稀疏模型架構 UltraMem,該架構有效解決了MoE推理時高額的訪存問題,推理速度較 MoE 架構提升2-6倍,推理成本最高可降低83%。

目前,國內外大模型領域的競爭愈發激烈,已然進入白熱化階段。豆包在AI基礎層和應用層上均進行了全面佈局,並持續迭代升級。

▍大模型持續降本增效

根據豆包大模型團隊的研究,在Transformer架構下,模型的性能與其參數數量和計算複雜度呈對數關係。隨着LLM規模不斷增大,推理成本會急劇增加,速度變慢。

儘管MoE(混合專家)架構已經成功將計算和參數解耦,但在推理時,較小的batch size就會激活全部專家,導致訪存急劇上升,進而使推理延遲大幅增加。

字節跳動豆包大模型Foundation團隊提出了UltraMem,這是一種同樣將計算和參數解耦的稀疏模型架構,在保證模型效果的前提下解決了推理的訪存問題。

實驗結果表明,在參數和激活條件相同的情況下,UltraMem在模型效果上超越了MoE,並將推理速度提升了2-6倍。此外,在常見batch size規模下,UltraMem的訪存成本幾乎與同計算量的Dense模型相當。

可以看到,不論是訓練端還是推理端,大模型廠商均在力爭降本增效。核心原因是隨着模型規模的擴大,推理成本和訪存效率已成爲限制大模型規模應用的關鍵瓶頸,而DeepSeek已經走通了“低成本高性能”突破的這條路。

巖芯數智CEO劉凡平在接受《科創板日報》記者採訪分析認爲,降低大模型的成本,業內更傾向於從技術和工程層面進行突破,實現架構優化的“彎道超車”。基礎架構,如Transformer架構成本依舊高企,新的架構研究必須要有;基礎算法,主要是反向傳播算法,這類算法可能是深度學習的瓶頸。

在劉凡平看來,短期內,高端芯片市場仍然還是會由英偉達主導。推理應用市場需求在增加,國產GPU公現在也有機會。從長期來看,算法一旦創新出的結果,還是比較驚人,整個算力市場需求後期有待觀察。

▍豆包的壓力纔剛剛開始

在剛剛過去的春節,DeepSeek以其低廉的訓練成本和高效的運算效率迅速火爆全球,成爲AI領域的黑馬。目前,國內外大模型領域的競爭愈發激烈,已然進入白熱化階段。

DeeSeek是目前國內大模型中,豆包最強勁的對手,前者在1月28日的日活躍用戶數首次超越後者。目前DeepSeek的日活數據已經突破4000萬,成爲中國移動互聯網歷史上第一個上線不足一個月,但闖進全網日活Top50的應用。

近幾日,豆包大模型團隊連續發力。兩天前,其剛剛發佈視頻生成實驗模型“VideoWorld”,不同於 Sora 、DALL-E 、Midjourney 等主流多模態模型,VideoWorld 在業界首次實現無需依賴語言模型,即可認知世界。

目前,豆包在AI基礎層和應用層進行了全面佈局,並持續迭代升級。其AI產品矩陣已涵蓋多個領域,如AI聊天助手豆包、貓箱、即夢AI、星繪、豆包MarsCode等。

2月12日,豆包概念股午後快速走高。據Wind數據顯示,抖音豆包指數2月以來累計漲幅已超15%。個股方面,博彥科技強勢漲停,漢得信息快速拉昇一度漲停,廣和通、先進數通等盤中衝高。

中信證券此前發佈研報認爲,豆包AI的生態擴張將引發新一輪巨頭的技術投資週期。AI產業具有強網絡效應和規模效應,當頭部AI應用獲得用戶領先優勢後,其模型精準度、邊際成本以及用戶粘性等競爭優勢將逐漸加強。

豆包用戶數持續增長,基於豆包AI的應用生態將有望加速,一方面,將催化公司對AI訓練及推理算力基礎設施投資,另一方面,豆包AI的快速增長將刺激其它巨頭廠商加大對AI基礎設施投資。

但是對於豆包自己而言,與尖子生DeepSeek的較量或許纔剛剛開始。

作爲一個開源模型,DeepSeek的低成本和高性能正在改變不少公司的模型選擇策略。目前,華爲、百度等公司旗下的不少AI應用都宣佈了接入DeepSeek,甚至字節跳動自己,旗下的飛書的多維表格功能已接入DeepSeek-R1模型,火山引擎也做了適配。

據《科創板日報》記者瞭解,目前,豆包團隊內部還在討論豆包App是否要接入DeepSeek,從用戶體驗的角度來講,選擇一個效果更優的模型無可厚非,但是放棄自家模型選擇友商,也很難向股東交代。這還不考慮,新增模型接入,增加適配負擔等問題。