☰

馬斯克發佈Grok-3：性能更強了，但真有新突破？

2月19日消息，美國時間週一，埃隆·馬斯克（Elon Musk）旗下的人工智能初創公司xAI發佈了其最新大模型Grok-3。該公司不僅演示了新模型的強大性能，還展示了由20萬塊GPU組成的計算集羣，預示着更大的野心。

在發佈會上，馬斯克及其團隊重點強調了Grok-3強大的計算能力、基準測試表現以及即將推出的功能，儘管多數演示內容與競爭對手已實現的功能高度相似。

xAI發佈會初段的焦點並非人工智能本身，而是名爲“巨像”（Colossus）的超級計算集羣，該集羣由20萬塊GPU組成，爲Grok-3的訓練提供算力支撐。該系統分兩個階段完成：首先在10萬顆GPU上進行了122天的同步訓練，隨後又用了92天逐步擴展到20萬顆GPU上。xAI團隊坦言，構建這一基礎設施比開發人工智能模型本身更具挑戰性。

xAI已經計劃打造一個更強大的GPU集羣，馬斯克表示他們的目標是當前容量的五倍，這將使其成爲世界上最強大的GPU集羣。

在性能方面，Grok-3在標準AI基準測試中表現出色。基礎模型（未嵌入思維鏈與推理模塊的標準版）穩居數學（AIME）、科學（GPOA）與編程（LCB）測試榜首，其盲測表現同樣亮眼。

xAI證實，此前代號爲“Chocolate”的神秘模型實爲Grok-3的早期測試版，該版本曾被上傳至LLM Arena平臺。在這些測試中，它在所有大語言模型中獲得了最高的ELO評分，這意味着用戶更喜歡Grok-3的回答，而非其他人工智能模型生成的答案。此評估方式的獨特價值在於：模型無法通過針對性訓練在基準測試中“作弊”，其結果完全基於數千匿名用戶的盲測偏好。

Grok-3的"推理測試版"（Reasoning Beta）通過內置思維鏈處理模塊與測試階段額外算力投入，將數學成績提升至新高度——在AIME 2025基準測試中得到93分，而其他表現最佳的模型得分均低於87分。

值得注意的是，Grok-3 Mini推理測試版雖規模較小，卻因更長的訓練時長在部分場景下反超標準版。換句話說，完整版的Grok-3在獲得更多訓練後仍有提升空間，考慮到其更大的參數量，這似乎很有潛力。

不過當進入現場演示環節時，Grok-3的表現更像是技術追趕而非突破創新。xAI團隊展示了模型解決物理問題和從頭編寫遊戲代碼的能力，但ChatGPT、Claude和谷歌的Gemini等競品早在數月前就已實現。

新工具，舊範式

xAI同步推出深度搜索（DeepSearch）研究代理系統。該工具運作機制與OpenAI及谷歌服務類似，可實現全網信息抓取並生成多維度主題分析報告。

X Premium Plus訂閱用戶現已開放Grok-3基礎版訪問權限，但高階版本與迭代更新將獨家部署於獨立app或Grok.com平臺。

未來幾周內，xAI將推出類似於OpenAI“高級語音模式”的語音交互功能。馬斯克特別強調此非傳統文本轉語音（TTS）技術，而是一個真正的AI語音模型，能夠實現自然、富有表現力的語音交互。

開發者將在未來幾周內獲得API訪問權限以及音頻轉錄功能，這將使Grok-3成爲第三方AI驅動應用程序的強大工具。

值得關注的是，在演示Grok-3生成《俄羅斯方塊》遊戲代碼後，xAI還透露計劃成立一個AI遊戲工作室，讓開發者能夠利用Grok-3構建遊戲。

目前，Grok-3模型正在逐步推出。一些愛好者已經搶先體驗，並對結果表示滿意。

計算機科學家萊克斯·弗裡德曼（Lex Fridman）是人工智能領域最具影響力的人物之一，他對Grok-3的能力給予了高度評價。他寫道：“我開始大量使用Grok 3（早期）。我驚呆了，這個模型給人留下了非常深刻的印象。祝賀馬斯克及其團隊將它變爲現實。”

其他人則將Grok-3與市場上的領先競爭對手進行了比較。OpenAI前聯合創始人安德烈·卡帕西（Andrej Karpathy）在社交媒體上發帖稱：“Grok 3 + Thinking的表現接近OpenAI最強模型（o1-pro，200美元/月）的頂尖水平，略優於DeepSeek-R1和Gemini 2.0 Flash Thinking。我要向xAI團隊表示熱烈祝賀，他們顯然擁有巨大的發展速度和勢頭。”

X用戶Penny2x分享了一個由Grok-3從頭構建的遊戲——一個類似於《超級馬里奧兄弟》的2D平臺遊戲。他對Grok理解指令並通過多次迭代改進的能力印象深刻。該遊戲可以在Thank Doge平臺上進行測試。

Penny2x在帖子中寫道：“我只需要不斷提出調整要求，它就會生成一個獨立的遊戲文件，我可以直接放在桌面上運行。這簡直太不可思議了。我們生活在未來，現在每個人都可以成爲開發者。”

xAI還證實，計劃在Grok-3完全成熟並穩定運行後幾個月後，將Grok-2開源。此前，xAI已在Grok-2之後開源了其初代模型，延續了通過發佈舊版本激發創新的趨勢，儘管Grok-2的性能仍落後於頂級模型。

目前，Grok-3似乎已經能夠做到頂級人工智能模型所能做到的事情。真正的考驗將在未來幾周內到來，屆時xAI將推出其承諾的語音功能、遊戲工具和API訪問權限。現在，壓力來到了OpenAI這邊，該公司即將發佈GPT-4.5。（小小）

馬斯克發佈Grok-3：性能更強了，但真有新突破？

相關資訊