模型推理推動算力需求百倍增長,國產廠商如何進行AI基建?

2025年是AI行業公認的“推理之年”。

在今年英偉達的GTC開發者大會上,黃仁勳演講提到,隨着OpenAI o1、DeepSeek R1等推理模型的推廣應用,市場將需要更多AI芯片作算力支撐。AI推理已代替模型訓練成爲了推動了算力需求增長的主力,規模增長能“輕鬆超過去年估計的100倍”。

而受限於美國對華的芯片禁令限制及國產GPU單卡性能不足的差距,國內廠商在算力供給上長期走集羣化路線,即將多個芯片通過特定技術連接整合在成單個的“超節點”。在數據中心內部,多個超節點形成一個集羣系統,以滿足對大規模算力需求較高的任務。

在近日華爲舉辦的鯤鵬昇騰開發者大會上,公司對外宣佈,其搭建的“昇騰384超節點”已是業內最大規模的算力集羣超節點。該超節點利用華爲的高速互聯總線技術,將384張昇騰AI GPU芯片連接起來,並在內存帶寬、存儲容量、高速互聯網絡等技術上進行了大幅調優。

華爲雲則在超節點基礎上進一步推出CloudMatrix 384。官方信息顯示,CloudMatrix 384 單集羣算力已經達到300 PFlops,總規模已與英偉達NVL72大致相當(以業內常用的半精度浮點數F16標準衡量,NVL72是將72張B200GPU連在一起)。

據華爲昇騰計算業務總裁張迪煊介紹,相比於上一代Atlas A2,基於昇騰384超節點的Atlas A3模型訓練性能提升已達3倍。同時,由於採用了新的總線高速互聯技術後,超節點通信帶寬提升了15倍、通信時延降低了10倍。

而相比於訓練,隨着推理在算力需求所佔的比重越來越大,算力集羣針對推理的優化也變得越來越重要。

隨着基於強化學習的“長思考”(Deep Thinking)功能與智能體應用(AI Agent)的集中落地,AI模型需要處理的任務更復雜,“思考”過程更長,需要更長時間和複雜計算過程來得出推理結果。

國內廠商爲滿足這部分的算力需求,同時實現“更大吞吐量”(AI模型一次能同時處理更多任務)和“更低延遲”(一次任務所需時間更短),是行業待解決的關鍵問題。

張迪煊稱,DeepSeek在業內帶火的MOE(混合專家)架構目前已經是業內模型主流架構,而MOE包含上百個專家網絡的調度,實現大規模專家並行是行業解決AI模型吞吐量和延遲問題的核心。

而昇騰384節點針對MOE所做的優化設計,在業內率先實現了“一卡一專家”,最終做到了15ms的低時延,單卡吞吐量是業界集羣的4倍以上。

在全球範圍內,今年的算力基建擴張有增無減。近期,在美國總統特朗普訪問沙特阿拉伯期間,英偉達、AMD均宣佈與當地公司達成百億美元大單,將在當地未來五年內建設人工智能數據中心工廠,涉及“數十萬張GPU卡”規模的算力集羣建設。Meta、特斯拉、微軟與谷歌也在建設新的十萬卡規模數據中心。

國產廠商也在加快建設步伐。張迪煊在大會上表示,華爲目前將多個昇騰384超節點組合在一起,已經可以支持10萬卡集羣的算力需求。