NVIDIA Blackwell再創AI推論效能新高:InferenceMAX v1基準測試全面奪冠

半導體產業分析機構SemiAnalysis公佈的InferenceMAX v1基準測試結果顯示,NVIDIA以其Blackwell顯示架構GPU平 橫掃所有測試項目,在效能、能效與整體經濟性上樹立新標竿。

這項全新基準測試被視爲首個能真實反映AI推論總運算成本 (Total Cost of Inference)的獨立評測,涵蓋多樣化模型與實際應用場景,重點在於「效益」而非單純速度。

15倍投資報酬率的AI工廠公式

報告指出,若企業投資500萬美元佈署一套NVIDIA GB200 NVL72系統,在AI應用中將可創造高達7500萬美元的詞元收益 (DSR1 token revenue),投資報酬率高達15倍,意味着推論效能不再只是技術指標,而是企業營運獲利的關鍵引擎。

NVIDIA超大規模與高效能運算副總裁Ian Buck強調:「推論是AI每天創造價值的核心。Blackwell的成果證明,我們的全端策略能讓客戶在大規模佈署AI 時,同時獲得極致效能與最佳效率。」

Blackwell架構:效能、效率雙軌驅動

在InferenceMAX v1基準測試中,Blackwell架構的B200 GPU在多款模型測試中表現驚人,包含在每組GPU可達60000個詞元/秒的吞吐量,以及每名使用者可使用多達1000 TPS (Token per Second),相較前代H200 GPU,整體輸出效能更提升達4倍,而每百萬個詞元的運算成本可降低15倍,實現業界最低每百萬個詞元僅0.02美元的成本表現。

這項效能的背後,仰賴NVIDIA全新TensorRT-LLM v1.0推論框架與NVLink Switch高速互連技術。後者可提供1800 GB/s的雙向頻寬,讓多達72組GPU可如同單一超級GPU協同運作。

開源合作推進推論革命

NVIDIA更與多家AI研究團隊合作,包括OpenAI (gpt-oss 120B)、Meta 9Llama 3 70B)與DeepSeek AI (DeepSeek R1),共同優化開源推論效能。同時,與FlashInfer、SGLang、vLLM等社羣的協同開發,也讓TensorRT-LLM得以充分發揮Blackwell的並行化潛能。

此外,新推出的gpt-oss-120B-Eagle3-v2模型導入「推測式解碼」 (Speculative Decoding)技術,能預測多詞元輸出並顯著降低延遲,使每使用者輸送量提升三倍。

經濟性與永續性的平衡

InferenceMAX採用「帕雷託前沿」 (Pareto Frontier)模型,評估效能、能耗與迴應性間的平衡。結果顯示,Blackwell不僅在輸送量上遙遙領先,同時在能源效率與成本控制上也創下新紀錄,其中包含每兆瓦輸送量相比前代提升10倍,而每瓦詞元輸出大幅提升,減少資料中心能耗負擔。

結語:AI工廠時代的基準

隨着AI從單次生成邁入多步驟推理與工具鏈整合階段,推論效能將直接決定AI服務的經濟規模。NVIDIA透過Blackwell架構,成功將「效能」轉化爲「收益」,讓AI工廠的概念真正落地。

InferenceMAX的登場不僅是一次技術展示,更象徵NVIDIA正引領產業邁入「推論經濟」 (Inference Economy)新時代。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》