NVIDIA推出Spectrum-XGS乙太網路 將分散式資料中心整合為單一千兆級AI超級工廠
NVIDIA在HOT Chips大會上揭曉其Spectrum-XGS乙太網路,此技術以延伸自Spectrum-X平臺的演算法,透過自動距離壅塞控制與延遲管理,使不同區域的資料中心能如同單一超級節點般協同運作。NVIDIA表示,Spectrum-XGS幾乎能將針對多組GPU運算的NVIDIA Collective Communications Library (NCCL)效能提升一倍,讓GPU與多節點間的溝通效率大幅加速,爲AI訓練與大規模推論帶來可預測、近乎線性提升效能。
意味過去僅能在單一大型資料中心內部展現的「超級電腦」能量,如今將能跨越距離與建築限制,將多個獨立的資料中心聯結成爲單一「千兆級AI超級工廠」。目前,專注於AI雲端基礎架構的CoreWeave,將成爲首批導入Spectrum-XGS技術的合作伙伴。
打造跨域AI超級工廠
根據NVIDIA的說法,Spectrum-XGS透過自動距離壅塞控制與延遲管理技術,能精準最佳化GPU與多節點之間的通訊效率,進而讓NCCL的效能幾乎翻倍。對於橫跨不同城市甚至不同區域的AI叢集來說,這意味着運算效能可被統一視爲同一個超大規模算力池,實現幾乎如同「單一資料中心」般的可預測效能表現。
換句話說,過去受到物理距離限制的分散式資料中心,未來透過Spectrum-XGS串接,將能打破地理邊界,成爲跨域協作的AI運算核心,帶來更具彈性的擴展能力。
與博通的乙太網路技術比較
在乙太網路交換技術領域,博通 (Broadcom)長期扮演核心角色,其Tomahawk、Trident系列ASIC (特定應用積體電路),幾乎是大型資料中心交換器的標準配備。而博通的技術優勢在於高埠密度、低功耗與成熟的生態系,廣泛支援雲端運算商與電信業者的需求。然而,博通解決方案雖能提供高達數百Tbps的資料交換量,但主要仍以 傳統網路流量最佳化爲導向,對AI訓練過程中高度同步的GPU-to-GPU通訊並非完全適用。
相比之下,NVIDIA Spectrum-XGS的定位則更明確地面向AI專用網路。其在演算法層面融入了對分散式AI工作負載的調適能力,包含自動距離壅塞控制、跨資料中心延遲補償,以及與NCCL、NVLink等NVIDIA軟硬體生態緊密整合。這意味着Spectrum-XGS並非單純比拼埠數或頻寬,而是直接針對AI模型分佈式訓練的通訊需求進行最佳化。
也就是說,如果博通乙太網路技術是廣義的資料中心「高速公路網路骨幹」,那麼NVIDIA Spectrum-XGS定位更像是專爲AI運算打造的「專用快車道」。前者具備規模經濟與成熟度優勢,後者則強調在AI世代中降低訓練時間、提升跨區效能可預測性。對於正全力投資AI雲端的業者而言,兩者的角色未必是取代關係,而可能是互補並存,例如以博通乙太網路技術打造通用連接骨幹,並且以NVIDIA建構專注於AI運算的加速層。
隨着AI模型的規模持續膨脹,未來的雲端資料中心將更趨「多場域、跨距離、巨量協同」的形態。NVIDIA Spectrum-XGS的提出,不僅展示其網路硬體與軟體整合的企圖心,更代表AI基礎設施正逐漸跳脫傳統資料中心框架,朝「跨區整合、千兆級AI超級工廠」邁進。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》