雲端算力競賽新突破:創紀錄英偉達GB200參與MLPerf測試,性能提升超兩倍
一場關於算力基礎設施的較量正在雲端悄然展開——人工智能(AI)基礎設施供應商CoreWeave聯手英偉達和IBM,剛剛交出了MLPerf史上最大規模的MLPerf Training v5.0測試結果,也是動用最多英偉達GB200超級芯片的MLPerf基準測試成績。
美東時間6月4日週三,CoreWeave公佈,此次聯手英偉達和IBM的測試中,使用了2496塊GB200 Grace Blackwell超級芯片,運行CoreWeave的AI優化雲平臺,凸顯了CoreWeave雲平臺的規模之大,以及CoreWeave對當今嚴苛AI工作負載的充分準備。
CoreWeave稱,此次測試中構成了迄今爲止在MLPerf基準測試中規模最大的英偉達GB200 NVL72集羣,這一規模比之前唯一來自雲服務商的提交結果大34倍。
而且,在基準測試套件中規模最大、最複雜的Llama 3.1 405B基礎模型訓練中,上述GB200 NVL72集羣僅用27.3分鐘就完成了整個流程。相比其他參與測試者提交的相似規模集羣測試結果,CoreWeave的英偉達GB200集羣將訓練性能提升超過兩倍。
CoreWeave認爲,這一結果凸顯了GB200 NVL72架構帶來的顯著性能飛躍,也體現了,在提供一致且一流的AI工作負載性能方面,CoreWeave基礎架構擁有強大實力。
CoreWeave的首席技術官兼聯合創始人Peter Salanki表示:"AI實驗室和企業選擇CoreWeave,是因爲我們提供專門構建的雲平臺,具備他們工作負載所需的規模、性能和可靠性。"
MLPerf Training v5.0測試採用訓練套件中最大模型 行業參與度創新高
MLPerf Inference基準套件於2019 年首次推出,此後不斷更新新的模型和場景,以此確保它仍然是衡量 AI 計算平臺推理性能的有用工具。MLPerf Inference v5.0是目前最新的版本,可測量一系列不同模型和用例的推理吞吐量。
本週三,開放式產業聯盟MLCommons發佈了MLPerf Training v5.0基準測試結果,展現了AI領域的快速增長和演進。本輪測試包含創紀錄的提交總數,大部分基準測試的提交數量相比v4.1版本都有所增加。
MLCommons稱,MLPerf Training v5.0此次引入了新的Llama 3.1 405B大語言模型(LLM)預訓練基準測試,它是訓練基準測試套件中引入的最大模型,替代了之前版本中基於GPT3的基準。
MLCommons稱,雖然剛剛納入測試,但Llama 3.1 405B基準測試收到的提交數量已經超過了前幾輪基於GPT3的測試,顯示出大規模訓練的受歡迎程度和重要性。
MLCommons披露,本輪MLPerf Training v5.0測試收到來自20個提交機構的201項性能測試結果,創紀錄的超過200項提交結果顯示,行業參與度創新高。延續自上一輪的絕大部分單項基準測試的提交數量都有所增加。
按英文名稱頭字母順序排序,本輪MLPerf Training v5.0測試的參與機構包括AMD、華碩、思科、CoreWeave、戴爾科技、GigaComputing、谷歌雲、惠與、IBM、Krai、Lambda、聯想、MangoBoost、Nebius、英偉達、甲骨文、雲達科技、SCITIX、超微電腦和TinyCorp。
MLCommons MLPerf的負責人David Kanter稱,特別歡迎首次提交MLPerf 訓練測試的 AMD、IBM、MangoBoost、Nebius 和 SCITIX。他還強調聯想在本輪測試中提交的首組功耗基準測試,因爲AI訓練系統的能效問題日益嚴峻,亟需精準測量。