華爲芯片,究竟有多牛?(上)

21世紀經濟報道記者倪雨晴 深圳報道

華爲的昇騰,讓英偉達黃教主都坐不住了。他公開表示,華爲昇騰CloudMatrix 384超節點,部分性能上甚至超過英偉達的產品。

華爲的384超節點方案,就像全真七子用劍陣打黃藥師,集羣一起上,黃藥師還真有點招架不住。

海外專業機構SemiAnalysis更是直接點名:384超節點的整體計算能力是英偉達GB200機櫃的1.6倍!

在單芯片性能受限、制裁持續的情況下,華爲昇騰是真能打,還是“自嗨”?它是如何與英偉達競爭的?國產算力究竟到了什麼水平?還有什麼差距?

今天,我們就帶着這些問題,一口氣了解對壘英偉達的國產芯片,昇騰。

和英偉達“掰手腕”

昇騰此前非常低調,它是華爲打造的一款AI芯片。它不是拿來打遊戲的顯卡,也不是電腦中的CPU,而是專門針對AI任務的加速芯片NPU,是一顆純純的“AI處理器”。

目前昇騰最主力的產品叫“昇騰910”。但以往的昇騰芯片,更多是作爲“備胎”使用的——因爲美國斷供,英偉達、AMD最高端的芯片買不到,很多廠商只能硬着頭皮用國產,而昇騰已經是國產芯片中的佼佼者。

過去幾年,昇騰其實主要用在AI“推理”環節,也就是模型訓練好之後,用它來支持大模型生成內容、聊天等應用環節。但模型訓練?說實話——很少用國產芯片,原因也簡單:單卡性能弱、生態不夠用、系統穩定性差。

但這一切,在2024年和2025年,徹底變了。

華爲把昇騰從一個“能用的備胎”,打造成了“能打的主力”,直接上陣訓練出了一流大模型。

這些成績,不是閉門吹牛,而是寫進了實打實的論文裡——一款模型,用了8192顆昇騰芯片,訓練出1350億參數的稠密大模型“盤古Ultra”;

另一款,用了6000多顆芯片,訓出了7180億參數的 MoE(混合專家)大模型。

這意味着:用純國產AI芯片,也能訓練出千億參數的國產大模型。

但是!光能訓還不夠,訓得好,才叫硬實力。

怎麼判斷“訓得好”?有個關鍵指標叫 MFU,也就是“算力資源利用率”。

說白了就是:有沒有把芯片榨乾用滿?有沒有把投入的算力物盡其用?

訓練盤古Ultra稠密模型時,MFU超過 50%;在MoE模型中,MFU也達到了 41%,實驗室數據甚至超過 45%。

這是什麼概念?——屬於全球一流水平,跑在行業前列。

訓練完還不夠,還要看推理誰跑得快。

華爲和硅基流動的最新論文,直接把昇騰的384 超節點拉出來,和英偉達的 H100、H800 正面對比:誰在實戰部署 DeepSeek-R1 這類大模型時更快、更高效?

結果是:在這場比拼中,昇騰和英偉達H系列差距不大,甚至在算力利用率上拿下全場最佳。

也就是說——至少從 DeepSeek-R1 的推理實戰看,昇騰已經可以對標英偉達 H100 這一級別的產品,不輸Hopper架構。

追趕速度之快,確實令人驚歎。

那和英偉達最新的 GB200 比呢?

SemiAnalysis 給出了評價:雖然單顆昇騰芯片的性能只有英偉達Blackwell的三分之一,但384 超節點堆了5倍的芯片數量!

最終,整體系統算力反超英偉達 GB200,這已經不是“能替代”的水平,而是“有機會領先”。

那麼,昇騰,是怎麼做到的?

請聽下回分解。