馬斯克再放大招!Grok 3 告訴你,AI的極限就是沒有極限!

馬斯克旗下xAI公司於2025年2月18日正式發佈新一代AI大模型Grok 3,其以20萬塊英偉達GPU集羣訓練近百天、算力投入規模達前代10倍的“重資產”模式,再次刷新了全球AI模型的性能邊界。Grok 3不僅成爲首個突破1400分的人類盲測競技場評分(LMSYS Chatbot Arena)的模型,更在數學推理、科學邏輯和代碼生成等核心能力測試中全面超越。而據報道,其訓練成本高達百億美元量級,Grok 3的發佈並未動搖當前AI行業競爭格局,反而印證了英偉達GPU在算力軍備競賽中的核心地位。

Grok 3的訓練成本和技術投入堪稱“天文數字”。xAI團隊在122天內完成10萬塊英偉達H100 GPU集羣的搭建,隨後僅用92天將算力規模翻倍至20萬塊。若以單卡3萬美元計算,僅GPU硬件採購成本就高達60億美元,而配套服務器、散熱設施及電力消耗的總成本預計接近百億美元。這一投入規模是前代Grok 2的10倍,也是中國廠商DeepSeek-V3訓練算力的263倍。

儘管高成本引發行業爭議,但算力堆疊仍是頭部模型性能突破的“硬門檻”。例如,Grok 3在2024年美國數學邀請賽(AIME)中獲得93分,超過DeepSeek-V3(39分)和GPT-4o(85分);在科學推理GPQA測試中,其75分的成績同樣壓制谷歌Gemini 2 Pro(68分)。對比之下,中國廠商雖在性價比上有所突破(如DeepSeek以1/20成本完成模型研發),但Grok 3的算力規模仍確立了其在複雜任務上的技術優勢。

Grok 3最受關注的突破來自LMSYS Chatbot Arena評分體系。該平臺通過匿名隨機對比模型回答質量,由用戶投票生成綜合評分。Grok 3以1402分成爲首個突破1400分的模型,而排名第二的GPT-4o僅獲1365分。需注意的是,該評分體系採用“低分逆襲高分快速漲分”的獎懲機制,這意味着Grok 3的實際領先優勢遠高於分數差值所顯示的幅度。

在具體能力維度上,Grok 3展現出數學推理能力、科學邏輯推理、代碼生成效率等三項核心優勢。據有關報道稱,xAI團隊透露,Grok 3通過“思維鏈”推理機制和合成數據訓練,可自主檢測邏輯錯誤並修正數據,顯著提升了輸出結果的可靠性。

不過,Grok 3的“暴力堆料”策略也暴露侷限性。對比僅用2000塊GPU訓練的DeepSeek-V3,其算力投入超百倍但性能領先幅度不足20%,這引發業界對“算力邊際效益遞減”的討論。

Grok 3的發佈並未顛覆現有AI競爭版圖。在LMSYS競技場評分前十的模型中,除谷歌、OpenAI和xAI外,中國廠商深勢科技DeepSeek和阿里巴巴Qwen位列其中,而騰訊混元(Hunyuan)以1198分排名中游。這反映出中國企業在部分垂直領域已具備國際競爭力:例如,Qwen在多語言理解和本土化應用場景中表現穩定,DeepSeek則在中文推理任務中保持優勢。

從時間線來看,據公開資料顯示,2024年7月,馬斯克透露Grok 3用了10萬塊英偉達H100芯片進行訓練 。 2025年1月3日(當地時間),特斯拉CEO馬斯克宣佈Grok 3即將推出;1月27日,已短暫現身獨立平臺和 X 平臺,開啓內部測試;2月16日,馬斯克表示,最新大模型Grok 3將於太平洋時間週一晚上8點發布。年2月18日,xAI正式發佈新一代聊天機器人Grok 3,並宣佈Grok 3推理模型引入名爲DeepSearch的新功能,該功能可掃描互聯網和X平臺以分析信息,並提供摘要來回應查詢。

本文源自:金融界

作者:AIkey