AMD Instinct MI350系列GPU發表 蘇姿豐大秀推論效能肌肉
董事長暨執行長蘇姿豐正式發表最先進的AI平臺Instinct MI350系列GPU/圖:張珈睿
超微(AMD)於「Advancing AI 2025」盛會上,董事長暨執行長蘇姿豐正式發表最先進的AI平臺Instinct MI350系列GPU。新系列GPU包括MI350X及MI355X,在AI運算能力較上世代躍升4倍,推論效能更飆升35倍,爲生成式AI及高效能運算樹立新標竿;展現與競爭對手Blackwell系列強勁競爭態勢。
採用最新第四代Instinct架構,MI355X內含1850億個電晶體,支援全新FP4資料格式並整合最新HBM3E記憶體;單一GPU配備業界領先的288GB HBM3E記憶體與高達8 TB/s頻寬,能支援高達5,200億參數AI模型;MI350系列沿用與MI300相同的業界標準UBB8平臺,確保其可輕鬆部署至現有數據中心基礎設施,並提供氣冷及液冷配置。
在AI運算效能方面,MI350系列展現顯著提升。針對推論工作負載,MI350系列透過使用SGLang和vLLM等開源框架,在運行Llama 3.1 405B參數模型時,能夠比NVIDIA B200產生多達1.3倍的每秒tokens數量。在DeepSeed R1或Llama 3.1模型上,MI355使用開源框架甚至可比B200多產生30%tokens/秒,並能匹敵GB200性能。
蘇姿豐博士強調,這證明開源軟體框架的巨大進步,甚至超越了供應商特定的封閉生態系統;MI355在Llama 3.1模型上實現35倍更高吞吐量,適用於即時應用。
訓練方面,MI355在MLPF 5.0產業標準基準測試中,預訓練性能與B200相當;在某些預訓練模型中,MI355甚至能將訓練時間縮短達13%,且相較MI300,MI355在預訓練基礎模型時吞吐量高出3.5倍。MI355在成本效益上表現卓越,相較競品,每美元可生成多達40%的tokens,爲大規模推論的最佳選擇。
現場同時迎來重要合作伙伴Meta及Oracle站臺。Meta指出,MI300X加速器已廣泛用於Llama 3和Llama 4的訓練與推論,並擴展至推薦系統;對MI350X的卓越運算能力、次世代記憶體及FP4/FP6支援充滿期待。