☰

馬斯克的最貴模型Grok4，能碾壓人類博士，但“三觀不正”他沒提

出品 | 本站科技《態度》欄目

作者 | 袁寧

編輯 | 丁廣勝

相比GPT 5的遲遲未到，以及DeepSeek的一次次小更新。跳過“3.5”，馬斯克直接甩出版本“4”。

北京時間7月10日中午，馬斯克的人工智能公司 xAI 終於發了最新模型Grok4——不過，發佈會依然遲到一個多小時。

值得注意的是，在Grok4發佈的前一週，xAI纔剛剛再獲百億美元融資，估值飆至1130億，僅次於 OpenAI的3000億美元，遠超 Claude 背後 Anthropic 的615億美元。

不知道是不是被Grok反猶言論引發的爭議影響，這次發佈會中，馬斯克看起來沒有往日興奮。

但這並沒有影響他在直播中火力全開：Grok 4被他描述爲“比所有研究生都聰明”，“全面超越博士水準，沒有例外”，甚至放話稱它將在明年開始“發明新技術”。

兩個版本，最高訂閱費300美元/月

此次發佈的 Grok 4分爲兩個版本

其中Grok 4爲標準版本，支持單代理推理；Grok 4 Heavy爲多代理版本。兩者均爲純推理模型，上下文窗口最高支持256K tokens。

費用方面，Grok 4目前僅面向付費用戶開放，而SuperGrok Heavy 版本的訂閱費甚至高達300美元/月，遠超 OpenAI Pro 200美元/月的費用。

同時，xAI 也同步開放了 Grok 4的 API 權限，支持文字與視覺輸入、文字輸出，定價爲每百萬 tokens 輸入3美元、輸出15美元。

拿下“人類最後的考試”最高分

瞭解了模型的基本信息，下面來看最直觀的各個測評得分。這部分在正式發佈之前，X上就陸續有博主爆料。現在答案終於揭曉。

首先是Grok 4在“人類的最後考試” HLE（Human Level Evaluation）中的表現。這個測試包含2500個專家級問題，涵蓋上百個學科，被稱爲超高難度基準測試。

數據顯示，Grok 4無工具版本達到25.4%（也就是解決了25.4%的問題），使用工具後升至於38.6%。

而Grok 4 Heavy甚至取得了44.4% 的成績，直接大幅超越Google Gemini 2.5 Pro 26.9%的成績。

此外，在各項主流測評榜中，Grok 4 Heavy 也幾乎都拿下第一。其中GPQA得分88-89，刷新記錄；在AIME25數學競賽題中，Grok 4 Heavy 更是幾乎取得滿分。

官方稱，Grok 4的訓練量是 Grok 2的100倍，其中推理相關數據的訓練量更是提升了10倍。

用工具來理解世界

xAI 表示，Grok 4的強項是“用工具來理解世界，並用來完成任務”。發佈會上展示了多項具象能力，包括：

現實預測：分析 Polymarket 上的棒球比賽賠率，識別賠率誤差並計算出 Alpha；

科學模擬生成：生成黑洞碰撞的 HTML 動畫，調用文獻檢索、代碼生成、圖形渲染等多個工具；

主觀概念理解：識別“最古怪的員工頭像”，展現出對“古怪”這種模糊定義的理解；

語音生成：新增五種擬人化聲音，“Eve”可即興演唱歌劇，端到端延遲減半，語音更自然。

發佈會上，xAI 還公佈了接下來幾個月的產品節奏：

模型之外，系統問題仍待解

然而，就在發佈會前一週，Grok 聊天機器人卻因一系列激進內容上了頭條。

Grok 3在 X 平臺連發數條反猶言論，稱讚希特勒、使用“MechaHitler”作爲自稱，甚至被網友截圖記錄其對用戶發佈仇恨內容。

xAI 被迫緊急刪除相關帖子，併發聲明稱“將積極處理不當內容，禁止仇恨言論”。

而這場爭議正好發生在馬斯克宣稱 Grok “重大升級”的同一周——7月4日，他在 X 上寫道，“你們應該能感受到變化”。兩天後，Grok 的提示詞更新爲：

“不會迴避政治不正確的表達，只要有證據支撐。”但在後續更新中，該提示詞被移除。

這些問題的背後是 xAI 的獨特路徑——藉助社交平臺 X 上億級用戶的實時行爲數據，xAI 構建起一個“內容即數據、平臺即分發”的 AI 閉環生態。

自3月份完成對 X 的全資收購後，xAI 更是將 Grok 系列深度綁定在平臺底層。

此次發佈會上，馬斯克並沒有對爭議問題進行直接回應。

Grok 4無疑是一項突出的技術成就。但它的發佈，也再次提醒我們：

當模型在表現出博士後級別推理能力的同時，也仍可能發出極端言論，真正的問題早已不只是技術維度，而是整個訓練、部署、治理機制的系統問題。

在 AI 正以每月爲單位發生躍遷的時代，如何在創造力與約束之間找到邊界？如何保證“聰明的大腦”不成爲“失控的擴音器”？

這，或許與模型SOTA 一樣值得關注。

相關資訊