世界上最大的芯片創下 AI 速度記錄,超越 NVIDIA

今天我親手握住了世界上最大的計算機芯片。雖然它的體積令人印象深刻,但其速度更爲驚人,也更爲重要。大多數計算機芯片都很小,只有郵票大小甚至更小。相比之下, Cerebras WSE (Wafer Scale Engine) 是一個巨大正方形,每邊長 8.5 英寸或 22 釐米,而最新型號在單個芯片上擁有驚人的 40 億個晶體管。正是因爲有了這數十億個晶體管,WSE 才創造了 AI 推理操作的世界速度記錄,比一個大體上性能相當的 NVIDIA 集羣快約 2.5 倍。

“這是全球最快的推理速度,” Cerebras 首席信息安全官 Naor Penso 今天在溫哥華 Web Summit 上對我說。 “上週 NVIDIA 宣佈在 Llama 4 上實現了每秒 1,000 個 token 的速度,這令人印象深刻。而我們今天剛剛發佈的基準測試達到了每秒 2,500 個 token。”

如果你對這些概念感到陌生,可以把“推理”理解爲思考或行動:根據你的輸入或提示構建句子、圖像或視頻。把“token”看作思維的基本單元:一個單詞、一個字符或一個符號。

AI 引擎每秒能處理的 token 越多,它返回結果的速度也就越快。而速度至關重要。也許對你個人來說意義不大,但當企業客戶希望在購物車中加入 AI 引擎,以便即時告訴你只需再加一種配料就能做出完美的韓式燒烤牛肉塔可時,他們必須能夠爲成千上萬的人迅速提供服務。

有趣的是,速度即將變得更加關鍵。

我們正邁入一個代理時代,屆時 AI 將能爲我們執行復雜的多步驟任務,例如規劃並預訂去奧斯汀觀看一級方程式比賽的週末旅行。代理並非魔法:他們對待大任務的方式和你一樣……一步一步來。也就是說,需要將一個龐大的任務分解爲 40、50 或甚至 100 個子任務,這就意味着工作量會大幅增加。

“AI 代理需要處理更多的工作,而且各個任務之間需要相互通信,” Penso 告訴我。 “你不能忍受推理速度緩慢。”

WSE 上的 40 億個晶體管正是實現這種高速性能的關鍵部分。作爲對比,英特爾 Core i9 擁有 33.5 億個晶體管,而 Apple M2 Max 芯片也僅提供 67 億個晶體管。但構建出高速計算怪獸的關鍵不僅僅在於晶體管數量,更在於系統的協同佈局:將所有組件整合在同一芯片上,同時配備 44GB 的最快型 RAM(內存)。

“AI 計算需要大量的內存,” Penso 說。 “NVIDIA 需要外部存儲,而使用 Cerebras 你不需要外部存儲。”

獨立機構 Artificial Analysis 驗證了這一速度數據,他們稱在 Llama 4 上測試該芯片時達到了每秒 2,522 個 token,而 NVIDIA Blackwell 的速度只有每秒 1,038 個 token。

“我們測試了數十家供應商,而 Cerebras 是唯一在 Meta 旗艦模型推理中表現優於 Blackwell 的解決方案,” Artificial Analysis 首席執行官 Micah Hill-Smith 表示。

WSE 芯片展示了計算機芯片設計的一次有趣演進。

自 1950 年代開始製造集成電路和 1960 年代開始製造微處理器以來,CPU 曾長期主導着計算領域。直到最近,GPU(圖形處理單元)才從圖形和遊戲領域的輔助工具轉變爲 AI 開發中關鍵的處理組件。Cerebras 首席營銷官 Julie Shin 告訴我,WSE 並非採用 x86 或 ARM 架構,而是一種全新架構,用於加速 GPU 計算。

“這不是一項漸進式技術,” 她補充道。 “這是芯片領域的又一次跨越性飛躍。”