Grok4成“宇宙最強模型”?AI競賽進入“馬斯克節奏”

21世紀經濟報道記者孔海麗、實習生鄭子涵 北京報道

雖然馬斯克本人一臉疲態,但他親自坐鎮,給Grok 4的噱頭拉到頂配。

“宇宙最強模型”“它比所有領域的人類博士都聰明,無一例外”“Grok 4還沒發明新科學或新物理定律只是時間問題”“Grok 4解決代碼問題,比Cursor更好用”……

以上宣言,是馬斯克爲旗下AI公司xAI最新旗艦大模型Grok 4的定調。

Grok 4也確實爭氣,在“人類最後的考試”(Humanity's Last Exam)中,拿到了38.6%的準確率,超過了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3的21%。多智能體版本Grok 4 Heavy拿到了44.4%,如果進一步使用工具輔助,則能達到50.7%。

這背後,是“暴力計算美學”,xAI耗時6個月搭建起來的10萬塊H100 GPU超級算力中心正在給出回報,Grok 4的訓練量是Grok 3的10倍,是Grok 2的100倍。

迴歸商業世界的馬斯克火力全開,接下來還計劃 8 月推出代碼模型,9 月上線多模態智能代理,10 月發佈視頻生成模型。

據悉,Grok已經被配置在了特斯拉最新固件裡,未來也將通過人形機器人與現實世界交互。

AI大模型、自動駕駛、人形機器人、商業航天,馬斯克的AI帝國正在越來越宏大,節奏也更甚從前。

Grok 4有多能打?

在多個高難度基準測試中,Grok 4表現出色。

馬斯克在直播中強調,Grok 4在人文、數學、物理、工程等學科均達到博士以上水平,“比幾乎所有學科的研究生更聰明”。

推理能力刷新紀錄。Grok 4 拿到歷史高分的“人類最後的考試”,是一份被稱爲“AI 世界終極試煉”的測試合集,這份專門針對AI的考卷,覆蓋了數學、化學、語言學、自然科學等一百多個學科,大模型在這份測試中無法依賴網絡搜索,只能憑自己的理解和推理能力作答。

能應對這份考卷的Grok 4,推理能力有大幅提升,可以減少對現有知識框架的依賴。

除HLE測試領先外,Grok 4在GPQA(研究生級問答)中拿到了88.9%,在美國數學邀請賽(AIME25)中拿下滿分,ARC-AGI-2測試中以16.2%得分登頂(超第二名Claude Opus 4近一倍)。

商業場景的落地驗證方面,在名爲 Vending-Bench 的商業模擬任務中,Grok 4 也表現突出,經營自動售貨機時平均淨資產達到 4684.15 美元,是第二名的兩倍,證明了長期規劃和多步驟推理能力。

值得注意的是,Grok 4的創新點在於“工具原生融合”架構。與多數模型後期接入工具不同,Grok 4在訓練階段嵌入了搜索、代碼執行等工具,使其能靈活調用資源解決複雜問題。例如直播演示中,它通過檢索學術論文、調用模擬工具,生成了黑洞碰撞的可視化動態模型。

不過,業內人士認爲,Grok 4 的強項主要集中在推理和複雜知識整合方面,而在代碼、多模態、圖像和視頻生成等方面還有進步空間。

“最貴”模型的想象空間

xAI同步推出了行業最貴訂閱計劃:Super Grok Heavy月費高達300美元,較OpenAI頂級訂閱貴50%。API定價同樣激進,每百萬token輸入3美元、輸出15美元。

高定價背後其實是訓練成本的陡增。Grok 4百倍於前代的訓練量,依託10萬塊H100 GPU集羣完成,xAI並未披露單次訓練耗資,但馬斯克提到的“我們快沒有合適問題考驗AI了”,側面印證了模型能力已逼近當前測試極限。

Grok 4的終極目標是與現實世界交互。馬斯克透露,今年Grok 4還將融合有限元分析、流體動力學等工具,構建高精度物理模擬器(如黑洞模擬)。在他的規劃中,Grok 4將通過Optimus(馬斯克旗下的擎天柱)人形機器人連接現實,“讓AI接受物理定律的最終檢驗”。另有消息顯示,目前特斯拉最新固件已預埋Grok,未來或將作爲車載語音助手及自動駕駛的“大腦”。

“我們正站在智能大爆炸的開端。”馬斯克表示,對AI的最終測試是現實世界,未來AI技術將會放到改進汽車或火箭等領域驗證有效性。

“睡在算力中心”的掌舵人歸來

從特斯拉Robotaxi(無人駕駛出租車)秀肌肉,到Grok 4的暴力美學,近10天,馬斯克已經稱霸輿論場兩回,他正以標誌性的激進節奏推進業務。

馬斯克所佈局的自動駕駛、AI大模型、人形機器人、商業航天,逐漸形成閉環。Grok大模型作爲“大腦”,驅動特斯拉自動駕駛、Optimus機器人行動決策;特斯拉車輛與機器人反饋的真實場景數據,反哺模型迭代;其旗下SpaceX星鏈提供全球低延遲通信,支撐實時AI交互。

OpenAI的ChatGPT-5還在醞釀中,目前AI軍備競賽進入“馬斯克節奏”。馬斯克的算力碾壓、多場景捆綁,確實具有更寬廣的應用想象力。

但在AI大模型快速迭代的當下,有多少用戶願意爲了300美元月費的Grok 4買單,還是未知數。

高調背後也暗藏風險。Grok近期因發表反猶言論遭土耳其封禁、波蘭政府投訴,迫使xAI緊急刪除不當內容並調整審覈策略。在“AI尋求真理”的路上,如何在開放性與安全性間平衡,不只是OpenAI 塞姆·奧特曼的難題,也是馬斯克的。

馬斯克在今天的直播中說:“安全是最重要的事,我們需要確保AI是一個好AI。你可以把AI看作是超級天才的孩子,它最終會比你聰明,但我們仍然要灌輸正確的價值觀。”