用“系統工程”打破算力封鎖 昇騰的另類突圍路徑

“昇騰算力到底能不能給大家底氣和信心,有些人將信將疑,甚至認爲昇騰訓練不出先進的大模型。”華爲專家開場的這句話,揭示出人們對國產AI(人工智能)算力的焦慮:在美國芯片禁令的陰影下,這支國產算力艦隊究竟能否突破算力封鎖、重構AI產業格局?

答案正隨着盤古Pro MoE模型、盤古Ultra MoE模型、昇騰384超節點等各種實踐的落地而變得清晰。

近日,記者從一位華爲專家處獲悉,華爲發佈的昇騰384超節點已經開始發貨,這不僅是目前業界規模最大的超節點,更是一項技術突破:華爲將384顆昇騰AI芯片連接在一起組成了集羣,通過全對等高速互聯的架構,基於系統工程的方法,對計算、內存、通信的極致優化調度,可提供高達300 PFLOPs的密集BF16算力,該性能表現接近英偉達GB200 NVL72系統的兩倍。

這引出一個關鍵問題:在單芯片工藝暫時落後的情況下,昇騰是如何實現算力超越的?

“集羣”絕非簡單的“芯片堆疊”,而是華爲在極端壓力下,以系統工程思維進行的一次“突圍”。“華爲內部有個算力會戰,把華爲雲、模型、底座、芯片、硬件工程、基礎軟件的人集結在一起,深度協同。打造複雜、先進的超節點系統,需要通過這樣的環境和機制,把華爲幾十年積累的‘大雜燴’的能力整合在一起。”華爲專家說道。

幾乎在昇騰加速研發的同時,美國對華芯片出口管制持續加碼。今年4月,美國芯片製造商英偉達發佈通知稱,美國政府於4月9日告知,公司H20芯片出口到中國需要許可證,此後又於4月14日告知,這些規定將無限期實施。據悉,這一新規將影響英偉達共計約55億美元的季度費用,涉及H20的庫存、採購承諾和相關儲備。

外部環境急劇收緊下,以昇騰爲代表的國產算力正不斷突破,其戰略意義遠超商業價值本身。

從被迫替代到主動選擇,黃仁勳稱“性能上超越了英偉達”

人工智能的浪潮席捲全球,巨量的模型訓練與實時推理需求對算力提出了前所未有的要求。在此領域,英偉達憑藉其CUDA生態和強大的GPU(圖形處理單元)單卡性能,長期佔據統治地位,其最新的GB200 NVL72系統集成了72塊Blackwell GPU,單櫃算力驚人。

國產算力陣營中,昇騰無疑是具有實力的代表之一。

2018年10月,華爲全聯接大會正式發佈首款採用華爲自研達芬奇架構的AI芯片昇騰910與昇騰310。其中,昇騰310是SoC(系統級芯片)小芯片,和人們的手機芯片差不多,只有指甲蓋那麼大;昇騰910是大芯片,和人們的掌心差不多大,主要面向雲端高性能計算。

2019年昇騰芯片正式投入商用,華爲還推出了昇騰AI計算架構,包括昇騰處理器、昇騰AI加速模塊和昇騰AI開發環境,初步形成AI計算解決方案。截至目前,昇騰計算產業已發展爲包括昇騰系列芯片、硬件、CANN(異構計算架構)、AI計算框架、開發工具鏈等全產業鏈的體系。

不過,受限於先進製程的獲取,單顆昇騰芯片的算力約爲英偉達Blackwell GPU的三分之一。“過去客戶用昇騰,並不認爲昇騰很先進,有的是因爲被美國斷供,被迫用昇騰。”專家坦誠介紹的這個情況,事實上,也是中國算力突圍最真實的起點。

轉折正在發生。昇騰384超節點的發佈與交付,標誌着昇騰通過系統級創新實現了算力能效的躍遷,其意義正如英偉達CEO(首席執行官)黃仁勳所表達的,“從技術參數看,華爲的CloudMatrix 384超節點,性能上超越了英偉達”。

華爲專家透露,“目前,衆多頭部客戶已經採購了昇騰,部分客戶已將其投入核心大模型訓練。並且在華爲首次、密集披露圍繞昇騰訓練和推理的一系列技術白皮書後,更多的客戶主動聯繫我們做技術交流。”爲幫助客戶用好昇騰,華爲還組建了由中高級專家構成的“小靈巧突擊隊”,深入客戶現場,爲關鍵信息基礎設施行業的客戶提供支持,確保昇騰算力發揮最大價值。

硬件、軟件、材料⋯⋯多重攻堅,打造基於中國標準的“愛馬仕”

然而,要讓384張芯片協同作戰,必須解決一些致命難題,比如通信傳輸、散熱等。

當前,大模型發展呈現參數與效率交替演進的態勢。一方面,Scaling Law(規模化法則)不斷推動模型能力突破極限;另一方面,以DeepSeek(深度求索)爲代表的創新架構與工程技術,正加速模型能力在千行萬業的落地應用。

在此背景下,MoE(混合專家模型)成爲主流模型結構,其複雜的混合並行策略帶來巨大挑戰,TP(張量並行)、SP(序列並行)、EP(專家並行)單次通信量高達GB級且難以掩蓋。隨着並行規模持續擴大,傳統服務器跨機帶寬已成爲訓練的核心阻礙,亟須計算架構的創新升級以適配未來模型發展。

傳統服務器依賴以太網絡實現跨機互聯,通信帶寬較低。實踐表明,當TP、SP或EP等分佈式策略的混合並行域超過8卡時,跨機通信帶寬便成爲性能瓶頸,導致系統性能大幅下降。

對此,華爲昇騰超節點打破了以CPU爲中心的馮諾依曼架構,而是建立了自有標準的“全對等互聯架構”,憑藉高速總線互聯技術,把總線從服務器內部,擴展到整機櫃,甚至跨機櫃。

“西方是繼承發展,任總(指華爲創始人任正非)形象地比喻爲‘百衲衣’,就是衣服破了以後不斷地打補丁,協議不同,互通需要轉換,有效載荷會變小。我們不會完全跟在西方標準的後面修修補補,我們內部重新定義了對等架構的互聯總線,統一了所有的通信協議,提升了有效載荷,並且與外部可以是標準的接口互通,打造了基於中國標準的‘愛馬仕’。”華爲專家說道。

此外,爲實現超大規模集羣,華爲還採用跨機架縱向擴展方案,併爲此引入光通信技術。在昇騰384超節點中,共使用了3168根光纖和6912個400G光模塊。光模塊具有高帶寬和高速率的優勢,損耗低,適合更長距離傳輸。

除了硬件創新外,超高密度芯片集成也帶來了散熱難題。“大量的芯片堆到一起有巨大的熱量,熱散不掉系統就會癱瘓,我們超節點是用液冷散熱,效率很高。針對一體機和不具備液冷條件的機房,也有高效的風冷散熱方案。”華爲專家說道。

他還強調:“熱是一門科學,散熱更是一門複雜的工程能力。散熱首先要把熱導出來,導熱墊緊貼芯片的表面,其導熱效率至關重要,核心是材料科學,我們設計了精妙的微結構材料,適合液態或氣態,以實現更高效的熱傳導。”

技術突破的背後,是華爲在基礎研究上的積澱。據悉,大概10年前華爲就在海外設立了研究所,專門研究熱理論和熱工程,而像這樣的基礎技術實驗室,華爲在全球有86個,並且還有8個材料實驗室,這種“用數學補物理”“非摩爾補摩爾”“用系統補單點”等核心思想在業務所依賴的基礎理論、材料、製備工藝、軟件工具鏈等方面構建起系統工程創新的能力。

產業生態不是簡單的“1+1”

如果說硬件性能的突破是基礎,那麼繁榮的軟件生態就是昇騰能否贏得開發者真心、支撐產業長期繁榮的關鍵。

科技公司決定將其系統從英偉達CUDA軟件框架開發的訓練代碼移植到華爲CANN(Compute Architecture for Neural Networks)平臺,面臨移植成本高、週期長、調試複雜等痛點。事實上,英偉達的CUDA系統像Windows一樣成熟,全球90%的AI框架都基於它開發。

華爲專家也坦言:“生態方面我們劣於英偉達CUDA。”但他表示,近兩年情況有所好轉。“業界的模型從各種各樣的模型逐漸收斂到Transformer架構,以前的算子有幾萬個,加上衍生的算子有十萬以上,而現在主流的模型聚焦到Transformer、Diffusion以後,核心的算子大概就幾百個。”

華爲快速補齊了高質量的基礎算子,並向頭部客戶深度開放,客戶可基於這些基礎算子開發定製自己的算子和算法,並適配自己的模型和應用,大幅加速了模型適配進程。這次圍繞昇騰的技術披露,既是開放高性能基礎算子,也賦能昇騰客戶如何高效開發他們需要的高性能算子。

當生態根基日益穩固,昇騰要把兼容性作爲下一步重要的事情,使其在更廣泛的場景得以應用。當前,許多企業採用“混合策略”:在英偉達平臺上進行部分訓練,同時將推理負載或增量訓練遷移至昇騰平臺。這種路徑既降低遷移風險,又爲國產替代積累經驗。對此,昇騰也提供了Day0遷移和一鍵部署等工具鏈,支撐客戶高效遷移到昇騰平臺上。

用功耗換性能,構築AI時代的核心競爭力

客觀來看,集羣也面臨諸如能耗、佔比面積大等問題。昇騰384超節點在超越英偉達NVL72的同時,功耗也達到後者的4.1倍,每FLOP功耗高出2.5倍。

不過,功耗缺陷在國內並非限制性因素。資訊機構SemiAnalysis指出,過去十年間,西方致力於將主要依賴煤炭的電力基礎設施轉向更環保的天然氣和可再生能源發電,並提高人均能源使用效率,而中國則因生活方式提升和持續大規模投資,面臨巨大的發電需求。中國能源體系不僅有煤炭驅動,並且太陽能、水電、風電裝機量均居全球首位,當前更在覈電部署領域佔據領先地位。因此,電力相對充裕而無需受限於能耗約束。

但同時,華爲也關注到能耗是一個永久的問題。“未來是人工智能的時代,AI是最普遍的計算,將是無處不在的。我們會持續通過技術的進步,來改進能源的消耗,構築AI時代的核心競爭力,實現可持續發展。”華爲專家說道。

可以看到,在算力主權爭奪的戰場上,華爲已經開闢了一條不同於西方的創新路徑——不簡單追求單點技術的路線,而是“以面積換能力、以堆疊增容量、以集羣擴規模,通過超節點的系統工程創新,實現規模算力的領先和效能的最優。”這也是目前中國算力的現實突圍路徑。

事實上,昇騰384超節點的出現,不僅構建了英偉達之外的可靠第二選擇,也打破了國產算力“無法訓練大模型”的質疑。