☰

馬斯克再放大招！Grok 3 告訴你，AI的極限就是沒有極限！

馬斯克旗下xAI公司於2025年2月18日正式發佈新一代AI大模型Grok 3，其以20萬塊英偉達GPU集羣訓練近百天、算力投入規模達前代10倍的“重資產”模式，再次刷新了全球AI模型的性能邊界。Grok 3不僅成爲首個突破1400分的人類盲測競技場評分（LMSYS Chatbot Arena）的模型，更在數學推理、科學邏輯和代碼生成等核心能力測試中全面超越。而據報道，其訓練成本高達百億美元量級，Grok 3的發佈並未動搖當前AI行業競爭格局，反而印證了英偉達GPU在算力軍備競賽中的核心地位。

Grok 3的訓練成本和技術投入堪稱“天文數字”。xAI團隊在122天內完成10萬塊英偉達H100 GPU集羣的搭建，隨後僅用92天將算力規模翻倍至20萬塊。若以單卡3萬美元計算，僅GPU硬件採購成本就高達60億美元，而配套服務器、散熱設施及電力消耗的總成本預計接近百億美元。這一投入規模是前代Grok 2的10倍，也是中國廠商DeepSeek-V3訓練算力的263倍。

儘管高成本引發行業爭議，但算力堆疊仍是頭部模型性能突破的“硬門檻”。例如，Grok 3在2024年美國數學邀請賽（AIME）中獲得93分，超過DeepSeek-V3（39分）和GPT-4o（85分）；在科學推理GPQA測試中，其75分的成績同樣壓制谷歌Gemini 2 Pro（68分）。對比之下，中國廠商雖在性價比上有所突破（如DeepSeek以1/20成本完成模型研發），但Grok 3的算力規模仍確立了其在複雜任務上的技術優勢。

Grok 3最受關注的突破來自LMSYS Chatbot Arena評分體系。該平臺通過匿名隨機對比模型回答質量，由用戶投票生成綜合評分。Grok 3以1402分成爲首個突破1400分的模型，而排名第二的GPT-4o僅獲1365分。需注意的是，該評分體系採用“低分逆襲高分快速漲分”的獎懲機制，這意味着Grok 3的實際領先優勢遠高於分數差值所顯示的幅度。

在具體能力維度上，Grok 3展現出數學推理能力、科學邏輯推理、代碼生成效率等三項核心優勢。據有關報道稱，xAI團隊透露，Grok 3通過“思維鏈”推理機制和合成數據訓練，可自主檢測邏輯錯誤並修正數據，顯著提升了輸出結果的可靠性。

不過，Grok 3的“暴力堆料”策略也暴露侷限性。對比僅用2000塊GPU訓練的DeepSeek-V3，其算力投入超百倍但性能領先幅度不足20%，這引發業界對“算力邊際效益遞減”的討論。

Grok 3的發佈並未顛覆現有AI競爭版圖。在LMSYS競技場評分前十的模型中，除谷歌、OpenAI和xAI外，中國廠商深勢科技DeepSeek和阿里巴巴Qwen位列其中，而騰訊混元（Hunyuan）以1198分排名中游。這反映出中國企業在部分垂直領域已具備國際競爭力：例如，Qwen在多語言理解和本土化應用場景中表現穩定，DeepSeek則在中文推理任務中保持優勢。

從時間線來看，據公開資料顯示，2024年7月，馬斯克透露Grok 3用了10萬塊英偉達H100芯片進行訓練。 2025年1月3日（當地時間），特斯拉CEO馬斯克宣佈Grok 3即將推出；1月27日，已短暫現身獨立平臺和 X 平臺，開啓內部測試；2月16日，馬斯克表示，最新大模型Grok 3將於太平洋時間週一晚上8點發布。年2月18日，xAI正式發佈新一代聊天機器人Grok 3，並宣佈Grok 3推理模型引入名爲DeepSearch的新功能，該功能可掃描互聯網和X平臺以分析信息，並提供摘要來回應查詢。

本文源自：金融界

作者：AIkey

馬斯克再放大招！Grok 3 告訴你，AI的極限就是沒有極限！

相關資訊