馬斯克發佈Grok-3:性能更強了,但真有新突破?
2月19日消息,美國時間週一,埃隆·馬斯克(Elon Musk)旗下的人工智能初創公司xAI發佈了其最新大模型Grok-3。該公司不僅演示了新模型的強大性能,還展示了由20萬塊GPU組成的計算集羣,預示着更大的野心。
在發佈會上,馬斯克及其團隊重點強調了Grok-3強大的計算能力、基準測試表現以及即將推出的功能,儘管多數演示內容與競爭對手已實現的功能高度相似。
xAI發佈會初段的焦點並非人工智能本身,而是名爲“巨像”(Colossus)的超級計算集羣,該集羣由20萬塊GPU組成,爲Grok-3的訓練提供算力支撐。該系統分兩個階段完成:首先在10萬顆GPU上進行了122天的同步訓練,隨後又用了92天逐步擴展到20萬顆GPU上。xAI團隊坦言,構建這一基礎設施比開發人工智能模型本身更具挑戰性。
xAI已經計劃打造一個更強大的GPU集羣,馬斯克表示他們的目標是當前容量的五倍,這將使其成爲世界上最強大的GPU集羣。
在性能方面,Grok-3在標準AI基準測試中表現出色。基礎模型(未嵌入思維鏈與推理模塊的標準版)穩居數學(AIME)、科學(GPOA)與編程(LCB)測試榜首,其盲測表現同樣亮眼。
xAI證實,此前代號爲“Chocolate”的神秘模型實爲Grok-3的早期測試版,該版本曾被上傳至LLM Arena平臺。在這些測試中,它在所有大語言模型中獲得了最高的ELO評分,這意味着用戶更喜歡Grok-3的回答,而非其他人工智能模型生成的答案。此評估方式的獨特價值在於:模型無法通過針對性訓練在基準測試中“作弊”,其結果完全基於數千匿名用戶的盲測偏好。
Grok-3的"推理測試版"(Reasoning Beta)通過內置思維鏈處理模塊與測試階段額外算力投入,將數學成績提升至新高度——在AIME 2025基準測試中得到93分,而其他表現最佳的模型得分均低於87分。
值得注意的是,Grok-3 Mini推理測試版雖規模較小,卻因更長的訓練時長在部分場景下反超標準版。換句話說,完整版的Grok-3在獲得更多訓練後仍有提升空間,考慮到其更大的參數量,這似乎很有潛力。
不過當進入現場演示環節時,Grok-3的表現更像是技術追趕而非突破創新。xAI團隊展示了模型解決物理問題和從頭編寫遊戲代碼的能力,但ChatGPT、Claude和谷歌的Gemini等競品早在數月前就已實現。
新工具,舊範式
xAI同步推出深度搜索(DeepSearch)研究代理系統。該工具運作機制與OpenAI及谷歌服務類似,可實現全網信息抓取並生成多維度主題分析報告。
X Premium Plus訂閱用戶現已開放Grok-3基礎版訪問權限,但高階版本與迭代更新將獨家部署於獨立app或Grok.com平臺。
未來幾周內,xAI將推出類似於OpenAI“高級語音模式”的語音交互功能。馬斯克特別強調此非傳統文本轉語音(TTS)技術,而是一個真正的AI語音模型,能夠實現自然、富有表現力的語音交互。
開發者將在未來幾周內獲得API訪問權限以及音頻轉錄功能,這將使Grok-3成爲第三方AI驅動應用程序的強大工具。
值得關注的是,在演示Grok-3生成《俄羅斯方塊》遊戲代碼後,xAI還透露計劃成立一個AI遊戲工作室,讓開發者能夠利用Grok-3構建遊戲。
目前,Grok-3模型正在逐步推出。一些愛好者已經搶先體驗,並對結果表示滿意。
計算機科學家萊克斯·弗裡德曼(Lex Fridman)是人工智能領域最具影響力的人物之一,他對Grok-3的能力給予了高度評價。他寫道:“我開始大量使用Grok 3(早期)。我驚呆了,這個模型給人留下了非常深刻的印象。祝賀馬斯克及其團隊將它變爲現實。”
其他人則將Grok-3與市場上的領先競爭對手進行了比較。OpenAI前聯合創始人安德烈·卡帕西(Andrej Karpathy)在社交媒體上發帖稱:“Grok 3 + Thinking的表現接近OpenAI最強模型(o1-pro,200美元/月)的頂尖水平,略優於DeepSeek-R1和Gemini 2.0 Flash Thinking。我要向xAI團隊表示熱烈祝賀,他們顯然擁有巨大的發展速度和勢頭。”
X用戶Penny2x分享了一個由Grok-3從頭構建的遊戲——一個類似於《超級馬里奧兄弟》的2D平臺遊戲。他對Grok理解指令並通過多次迭代改進的能力印象深刻。該遊戲可以在Thank Doge平臺上進行測試。
Penny2x在帖子中寫道:“我只需要不斷提出調整要求,它就會生成一個獨立的遊戲文件,我可以直接放在桌面上運行。這簡直太不可思議了。我們生活在未來,現在每個人都可以成爲開發者。”
xAI還證實,計劃在Grok-3完全成熟並穩定運行後幾個月後,將Grok-2開源。此前,xAI已在Grok-2之後開源了其初代模型,延續了通過發佈舊版本激發創新的趨勢,儘管Grok-2的性能仍落後於頂級模型。
目前,Grok-3似乎已經能夠做到頂級人工智能模型所能做到的事情。真正的考驗將在未來幾周內到來,屆時xAI將推出其承諾的語音功能、遊戲工具和API訪問權限。現在,壓力來到了OpenAI這邊,該公司即將發佈GPT-4.5。(小小)