馬斯克的最貴模型Grok4,能碾壓人類博士,但“三觀不正”他沒提
出品 | 本站科技《態度》欄目
作者 | 袁寧
編輯 | 丁廣勝
相比GPT 5的遲遲未到,以及DeepSeek的一次次小更新。跳過“3.5”,馬斯克直接甩出版本“4”。
北京時間7月10日中午,馬斯克的人工智能公司 xAI 終於發了最新模型Grok4——不過,發佈會依然遲到一個多小時。
值得注意的是,在Grok4發佈的前一週,xAI纔剛剛再獲百億美元融資,估值飆至1130億,僅次於 OpenAI的3000億美元,遠超 Claude 背後 Anthropic 的615億美元。
不知道是不是被Grok反猶言論引發的爭議影響,這次發佈會中,馬斯克看起來沒有往日興奮。
但這並沒有影響他在直播中火力全開:Grok 4被他描述爲“比所有研究生都聰明”,“全面超越博士水準,沒有例外”,甚至放話稱它將在明年開始“發明新技術”。
兩個版本,最高訂閱費300美元/月
此次發佈的 Grok 4分爲兩個版本
其中Grok 4爲標準版本,支持單代理推理;Grok 4 Heavy爲多代理版本。兩者均爲純推理模型,上下文窗口最高支持256K tokens。
費用方面,Grok 4目前僅面向付費用戶開放,而SuperGrok Heavy 版本的訂閱費甚至高達300美元/月,遠超 OpenAI Pro 200美元/月的費用。
同時,xAI 也同步開放了 Grok 4的 API 權限,支持文字與視覺輸入、文字輸出,定價爲每百萬 tokens 輸入3美元、輸出15美元。
拿下“人類最後的考試”最高分
瞭解了模型的基本信息,下面來看最直觀的各個測評得分。這部分在正式發佈之前,X上就陸續有博主爆料。現在答案終於揭曉。
首先是Grok 4在“人類的最後考試” HLE(Human Level Evaluation) 中的表現。這個測試包含2500個專家級問題,涵蓋上百個學科,被稱爲超高難度基準測試。
數據顯示,Grok 4無工具版本達到25.4%(也就是解決了25.4%的問題),使用工具後升至於38.6%。
而Grok 4 Heavy甚至取得了44.4% 的成績,直接大幅超越Google Gemini 2.5 Pro 26.9%的成績。
此外,在各項主流測評榜中,Grok 4 Heavy 也幾乎都拿下第一。其中GPQA得分88-89,刷新記錄;在AIME25數學競賽題中,Grok 4 Heavy 更是幾乎取得滿分。
官方稱,Grok 4的訓練量是 Grok 2的100倍,其中推理相關數據的訓練量更是提升了10倍。
用工具來理解世界
xAI 表示,Grok 4的強項是“用工具來理解世界,並用來完成任務”。發佈會上展示了多項具象能力,包括:
現實預測:分析 Polymarket 上的棒球比賽賠率,識別賠率誤差並計算出 Alpha;
科學模擬生成:生成黑洞碰撞的 HTML 動畫,調用文獻檢索、代碼生成、圖形渲染等多個工具;
主觀概念理解:識別“最古怪的員工頭像”,展現出對“古怪”這種模糊定義的理解;
語音生成:新增五種擬人化聲音,“Eve”可即興演唱歌劇,端到端延遲減半,語音更自然。
發佈會上,xAI 還公佈了接下來幾個月的產品節奏:
模型之外,系統問題仍待解
然而,就在發佈會前一週,Grok 聊天機器人卻因一系列激進內容上了頭條。
Grok 3在 X 平臺連發數條反猶言論,稱讚希特勒、使用“MechaHitler”作爲自稱,甚至被網友截圖記錄其對用戶發佈仇恨內容。
xAI 被迫緊急刪除相關帖子,併發聲明稱“將積極處理不當內容,禁止仇恨言論”。
而這場爭議正好發生在馬斯克宣稱 Grok “重大升級”的同一周——7月4日,他在 X 上寫道,“你們應該能感受到變化”。兩天後,Grok 的提示詞更新爲:
“不會迴避政治不正確的表達,只要有證據支撐。”但在後續更新中,該提示詞被移除。
這些問題的背後是 xAI 的獨特路徑——藉助社交平臺 X 上億級用戶的實時行爲數據,xAI 構建起一個“內容即數據、平臺即分發”的 AI 閉環生態。
自3月份完成對 X 的全資收購後,xAI 更是將 Grok 系列深度綁定在平臺底層。
此次發佈會上,馬斯克並沒有對爭議問題進行直接回應。
Grok 4無疑是一項突出的技術成就。但它的發佈,也再次提醒我們:
當模型在表現出博士後級別推理能力的同時,也仍可能發出極端言論,真正的問題早已不只是技術維度,而是整個訓練、部署、治理機制的系統問題。
在 AI 正以每月爲單位發生躍遷的時代,如何在創造力與約束之間找到邊界?如何保證“聰明的大腦”不成爲“失控的擴音器”?
這,或許與模型SOTA 一樣值得關注。