關於華爲CloudMatrix384昇騰AI雲服務,看這一篇就夠了!
前段時間,華爲發佈了一款針對AI智算場景的重磅產品——CloudMatrix384,在行業內外引起了不小的震動。
CloudMatrix384是一個超節點(Super Node),相當於一臺超級“服務器”。它搭載了384顆華爲昇騰NPU和192顆鯤鵬CPU,單卡推理吞吐量可以達到2300 Tokens/s。同時,推理的時延也得到了極大降低,原來100ms的增量Token輸出時延,現在降低到了50ms以下。
CloudMatrix384
輿論普遍認爲,在目前全球AI算力需求高速增長的背景下,CloudMatrix384的橫空出世,將徹底打破國外對AI算力市場的壟斷,改變中國乃至全球AI產業的格局。
小棗君一直想寫一篇關於CloudMatrix384的文章,但苦於官方公開的資料太少,遲遲無法下筆。
現在,機會終於來了。
今天,華爲開發者大會2025在東莞正式開幕。在主題演講環節,華爲常務董事、華爲雲計算 CEO張平安宣佈,基於CloudMatrix384的昇騰AI雲服務已經全面上線,提供澎湃算力,供各行各業客戶使用。
在演講中,他還透露了更多的產品細節,進一步揭開了CloudMatrix384昇騰AI雲服務的神秘面紗。
張平安演講發言
接下來,小棗君就結合最新信息,給大家做個深入解讀。
█ CloudMatrix384的核心設計理念
如前面所說,CloudMatrix384是一個超節點,也是一個AI智算集羣。
AI智算集羣分爲兩種模式,一種是Scale Up,另一種是Scale Out。
Scale Up是向上擴展(縱向擴展),增加單節點內的GPU/NPU算卡數量。Scale Out是向外擴展(橫向擴展),增加節點的數量。
擁有16卡以上的Scale Up系統,就是超節點。CloudMatrix384擁有384卡,算是目前超節點中規模最大的。
那麼,CloudMatrix384是不是簡單地把384個卡“綁定”在一起,進行算力的疊加呢?
答案當然是否定的。
CloudMatrix384發佈之後,很多人都只關心算力的大小,但實際上,這款產品最大的看點,在於它的設計理念。
華爲在發佈CloudMatrix384時,反覆強調了三句話,即:“一切可池化”“一切皆對等”“一切可組合”。
這就是CloudMatrix384的核心設計理念。看懂了這三句話,才能真正看懂這款產品。
我先解釋一下這三句話的基本含義:
一切可池化,指的是在CloudMatrix384中,所有的資源都在資源池裡。這個資源,不僅包括NPU,也包括CPU、內存、網絡。(英偉達僅實現了GPU池化。)
一切皆對等,指的是資源池裡的資源不再是主從式關係,而是對等關係。傳統的以CPU爲中心的計算範式,已經轉變爲更高效、更靈活的CPU與NPU等對等架構。
一切可組合,則是指CloudMatrix384中池化的資源,可以根據不同的任務需求,像搭積木一樣,進行靈活調配組合。
華爲認爲,在人工智能大爆發的時代,單一類型的計算資源,單一節點的計算能力、存儲能力,以及配比固定、鬆散協同的擴展模式,已經難以滿足日益複雜且快速變化的應用部署需求。
與其在傳統計算互聯構架上修修補補,不如創建一個新的架構。
CloudMatrix架構將NPU、CPU、內存、網卡等所有資源完全解耦,形成可以獨立擴展的資源池,實現“由單算力轉向混合算力,由單機轉向集羣,由傳統應用鬆散分佈轉向多樣應用緊密融合”,是一個真正對等互聯的超節點架構。
大家看明白了嗎?我總結一下:
CloudMatrix384,是華爲打造的新一代AI雲基礎設施,實現了所有資源的邏輯解耦和對等池化,能夠更好地應對不斷增長的AIGC大模型訓推任務需求。它的核心思想,就是用“對等互聯池化”打造“強整體”,以系統化的思維,應對大模型訓推帶來的算力挑戰。
接下來,我們就根據具體的計算任務場景,看看CloudMatrix384是如何實現算力效率提升的。
█ Scale Up最強超節點
CloudMatrix384是一個擁有384個昇騰NPU的超節點,通過全新高速網絡MatrixLink全對等互聯,變身爲一臺超級“服務器”。
這臺“超級服務器”爲AI而生,它的架構設計,能夠更好地匹配大模型的訓推任務。
我們舉個分佈式推理技術的例子。
現在包括DeepSeek在內的很多熱門大模型,都採用了MoE(Mixture of Experts,混合專家)架構。整個模型,包括了多個專門的子模型(“專家”),存在大量的專家並行(EP,Expert Paralelism)計算。
MoE架構
CloudMatrix384基於華爲雲分佈式QingTian等技術,達成了一切可池化。它所提供的超強卡間互聯能力,能夠讓DeepSeek實現“一個專家一張卡”的模式,大幅提升推理任務的效率。
原因如下:
AIGC大模型推理過程包括了Prefill(預填充)和Decode(解碼)兩個階段,大模型推理要實現Prefill階段的"高吞吐"和Decode階段的的"低時延"。
Prefill階段和Decode階段
DeepSeek有256個固定專家+32個共享專家(288張卡),加上一些冗餘卡(應對負載不均衡的情況),一共320張卡,用於Decode。Prefill大概會用到32張卡。加在一起,就是352張卡。
CloudMatrix384的384卡可以“一卡一專家”地完美契合這352張卡的計算任務,基於卡間互聯能力,能夠實現all to all(Full mesh)通信。值得注意的是,它不是單純疊卡的“大力出奇跡”,而是通過技術調優來達成“高吞吐”和“低時延”的目標。
我們也可以用更簡單的方式來理解——
通過將計算任務在跨節點的專家間進行分佈式處理,使得單次推理的批量大小(batch size)得以大幅增加。更大的批量處理能力可充分釋放並行計算潛力,減少單位計算的調度開銷,從而實現整體吞吐量的提升。
CloudMatrix384的池化算力資源,還可以更靈活地分工完成這些工作。分工肯定會帶來很多溝通成本(通信開銷),而CloudMatrix384的卡間通信能力,能夠hold得住這些成本。再舉一個池化架構幫助降低系統時延的例子:
大模型推理任務涉及到了一個KV Cache(鍵值緩存)技術。Prefill生成KV Cache,Decode使用和更新KV Cache。KV Cache會不斷增長,佔用更多顯存。
KV Cache
前面說了,CloudMatrix384的池化不僅包括算卡,也包括內存。它創建的解耦式共享內存池(把所有的CPU高速內存湊一塊),可以保存KV Cache,讓Prefill和Decode任務更快速、更均衡地訪問KV Cache,降低系統延遲。
根據上面這些例子,大家可以看出,CloudMatrix384的強大卡間通信能力和池化設計,是它實現高性能、高效率的關鍵因素。
在這些buff的加持下,CloudMatrix384不僅單節點算力很高(300Pflops),它的單卡計算和通信效率也非常驚人。CloudMatrix384的節點內互聯帶寬高達2.8Tbps,遠高於英偉達的1.8Tbps。
這裡還要補充說明一下:CloudMatrix384的強大卡間通信能力,得益於華爲雲Matrixlink親和性智能調度、重構網絡協議等技術能力,大幅提升了帶寬,降低了時延。
這些技術創新共同發揮作用,最終能將整體all to all通信效率提升30%。
█ Scale Out最大集羣
我們剛纔介紹了CloudMatrix384的Scale Up能力。接下來,我們看看Scale Out。
人工智能發展到現在,已經邁入了萬億參數時代。如此龐大規模參數的模型訓練,動輒需要萬卡、十萬卡。
CloudMatrix384的Scale Out能力同樣很強。將432個CloudMatrix384進行級聯,可以形成一個165888卡(384×432)的超級AI集羣,提供10萬PFlops的驚人算力。
CloudMatrix384不僅能構建超大集羣,還能實現極高的線性度。
線性度,就是1+1要儘量等於2。通常來說,算卡越多,損耗越多,線性度越差,1+1甚至可能只有1.6甚至1.2(舉例)。
線性度
CloudMatrix384的萬卡集羣線性度可以做到95%以上,性能提升與資源擴展的比例接近1:1。
之所以能做到這一點,是因爲華爲雲通過一系列算法和軟件調優,很好地解決了通信瓶頸和負載不均衡等會對線性度造成嚴重影響的問題。
例如,運用多任務算網存融合負載均衡算法,協同調度,實現全網無阻塞;結合集羣並行調度等技術,提升資源的使用效率以及開發者的開發效率;在算力請求增加或減少時,系統能夠合理分配計算資源,實現節點內(Scale Up)秒級伸縮,節點間(Scale Out)毫秒級極速彈性。
█ 資源極致優化,負載智能感知
前面我們已經說過了,CloudMatrix384的所有資源都是池化的。這爲資源的優化調度創造了條件。
在大模型推理過程中,有些任務是計算密集型,有些任務是內存(顯存)密集型。通過“一切可組合”,可以實現資源的最佳分配。
以前面提到的Prefill(預填充)和Decode(解碼)兩種任務爲例。前者屬於典型的計算密集型,後者則是內存帶寬密集型。
CloudMatrix384可以根據NPU資源情況、業務請求數據等多因子,估算負載的態勢,並結合新的編排模型,實現Prefill/Decode按比例組合,以及Prefill/Decode單獨擴縮容。這提升了計算資源分配的合理性,減少了資源閒置,節約了成本。
CloudMatrix384還支持訓推算力一體部署,比如白天推理,晚上訓練。訓推的算力可以按卡靈活分配,幫助客戶最優使用資源。
這邊要提一下CloudMatrix384的“40天長穩訓練、10分鐘快速恢復”能力。
大家都知道,AI大模型訓練經常會出錯中斷。中斷後,需要時間進行恢復。這不僅拉長的訓練週期,也增加了大量的訓練成本。
CloudMatrix384藉助昇騰雲腦,實現了全棧故障感知、診斷與快速自動恢復。在快速恢復方面,CloudMatrix384配合“三層快恢技術”,可以實現萬卡集羣故障10分鐘快速恢復。
█ 最後的話
前不久,華爲任正非在接受人民日報採訪的時候,說了這麼一句話:
“我們單芯片還是落後美國一代,我們用數學補物理、非摩爾補摩爾,用羣計算補單芯片,在結果上也能達到實用狀況。”
這句話,不正是指的CloudMatrix384超節點嗎?
任老爺子還是很坦誠的,華爲昇騰芯片的單芯片算力確實不如英偉達的最新競品,而且,這個差距也不是短時間內能夠彌補的。
但是,“單打獨鬥”不行,可以“抱團”啊。正所謂“團結就是力量”,通過對等互聯池化,在底層架構上進行創新,也可以實現計算效率的提升,獲得競爭優勢。
對於全球AI產業來說,摩爾定律逐漸放緩,芯片工藝製程越來越難提升,與其在單點算力上抓耳撓腮,不如學習一下華爲,重構計算互聯架構,才能更好地適應新時代的需求,實現真正的系統最優。
目前,CloudMatrix384昇騰AI雲服務已經在蕪湖、貴安、烏蘭察布、和林格爾等地的華爲雲數據中心規模上線。
新浪基於CloudMatrix384昇騰AI雲服務,爲“智慧小浪”智能服務體系構建了統一的推理平臺,推理的交付效率提升超過50%,模型上線速度成倍加快。通過軟硬協同調優,NPU利用率提升超過40%,讓每一份資源都得到更高效的使用。
硅基流動在CloudMatrix384昇騰AI雲服務上部署DeepSeek-R1時,採納了大規模專家並行方案,通過多專家負載均衡和極致通信優化,實現高吞吐及更高性能,大幅提升了用戶體驗。
總而言之,希望CloudMatrix384能走出一條屬於自己的特色發展之路,也希望國內AI產業能帶來更多類似的創新產品。
日積月累,我們一定能夠實現彎道超車,打破壟斷,真正在國際舞臺上與巨頭們同臺競技,甚至引領全球AI發展。