如何克服卡脖子?華為「超級AI服務器」採昇騰聯動鯤鵬

華爲如何突破晶片設備限制長期爲外界關注。華爲雲官微近日通過一段視頻展示了CloudMatrix 384超節點算力集羣的威力,片中展示384顆升騰NPU(升騰910C)+192顆鯤鵬CPU全對等互聯,形成一臺「超級AI服務器」。該方式也呼應任正非此前受訪提及用疊加和集羣等方法,讓計算結果上與最先進水平是相當的。

華爲雲在展示視頻中指出,該產品稱具備業界最大單卡推理吞吐量2300Tokens/s;業界最大集羣算力16萬卡,萬卡線性度高達95%;雲上確定性運維能40天長穩訓練、10分鐘快速恢復。華爲雲並表示,新一代升騰AI雲服務,是最適合大模型應用的算力服務。

在視頻之外,華爲此前曾發佈一篇達60頁的論文,提出了他們的下一代AI數據中心架構設計構想Huawei CloudMatrix,以及該構想的第一代產品化的實現CloudMatrix384。

快科技報導,該論文簡言之,便是華爲CloudMatrix並非簡單的「堆卡」,而是通過高帶寬全對等互聯(Peer-to-Peer)來設計,這也是CloudMatrix 384硬體架構的一大創新。

傳統的AI集羣中,CPU相當於公司領導的角色,NPU等其他硬體更像是下屬,數據傳輸的過程中就需要CPU審批和簽字,效率就會大打折扣。但在CloudMatrix384中,CPU和NPU等硬體則像是一個扁平化管理的團隊,它們之間的地位比較平等,直接通過UB網絡通信直接對話,效率自然就上來了。

華爲創始人任正非近期接受大陸官媒人民日報專訪時,提及在受到制裁下,大陸晶片的突破之道,他指出,晶片問題其實沒必要擔心,用疊加和集羣等方法,計算結果上與最先進水平是相當的。任正非說,「我們單晶片還是落後美國一代,我們用數學補物理、非摩爾補摩爾,用羣計算補單晶片,在結果上也能達到實用狀況。」

任正非認爲,中國在中低端晶片上可以有機會,中國數十、上百家晶片公司都很努力。特別是化合物半導體機會更大。矽基晶片,用數學補物理、非摩爾補摩爾,利用集羣計算的原理,可以達到滿足現在的需求。

華爲雲官微近日通過一段視頻展示了CloudMatrix 384超節點算力集羣的威力,片中展示384顆升騰NPU(升騰910C)+192顆鯤鵬CPU全對等互聯,形成一臺「超級AI服務器」。圖截取自華爲雲官微視頻