☰

馬斯克口中最智能的Grok 3登場，號稱性能超ChatGPT及DeepSeek

2月18日午間，馬斯克旗下xAI公司的新一代大模型Grok 3正式發佈。發佈會採用視頻直播形式，觀看人數超過100萬人，馬斯克本人也出現在直播間。

據馬斯克介紹，Grok3在很短的時間內實現了功能比Grok2強大一個數量級，Grok-3和Grok-3 mini在多方面性能上都超過或媲美Gemini、DeepSeek和ChatGPT等對手。

xAI工程師則表示，雖然Grok起步較晚，但在MMLU得分上以超快的速度追上了ChatGPT，Grok 3所涉及的訓練是Grok 2的10倍，目前Grok 3已經在xAI內部運行了2周。MMLU是一個用於評估語言模型在多種任務上語言理解能力的基準測試。

此外，xAI推出名爲Deepsearch的Grok-3智能搜索引擎。xAI工程師強調，Deepsearch是xAI的第一代廣泛代理工具，它不僅幫助工程師、研究人員和科學家編寫代碼，也能幫助每個人回答日常遇到的問題。

馬斯克在現場演示了Grok 3的搜索能力，如問“下一次的星艦發射是什麼時候”，Grok 3會像DeepSeek一樣，顯示模型正在做什麼，包括瀏覽的網頁、思考的過程，並確認網頁上的信息是否可信，再得出一個相關的結論。最終，大模型以列表形式預測了下一次星艦的發射期。

值得注意的是，該搜索引擎在深度思考過程中還會顯示不同的次任務，這種功能據稱比現在的搜索引擎更爲強大，可節省更多時間，因對搜索引擎的算法和邏輯重新進行了設計。

對於用戶何時可以體驗到“地球上最聰明的人工智能”，馬斯克稱會首先向預定用戶開放。由於模型仍在不斷更新和改進中，蘋果應用商店上線的Grok版本會相對落後，而網頁版更新最爲及時。據其透露，Grok 3語音模式可能在一週後推出。

直播末尾，馬斯克和xAI工程師現場回答了網友提問。當被問及是否會開源時，馬斯克給出了肯定的答案，稱每次做下一個版本時會開源上一個版本，幾個月後會開源Grok 3。對於頗爲敏感的“Grok 3是男性還是女性”問題，馬斯克稱，性別是模型自己定義的，還提醒“不要愛上Grok”。

談及開發Grok 3最難的部分，馬斯克表示是訓練模型和100%的邏輯推理過程，那種複雜程度就像隨時隨地預測宇宙的發展情況。

如果Grok 3的推理能力真如視頻中所講的那樣強大，可能推動AI從 “生成答案” 向 “邏輯推導” 升級。

xAI公司成立於2023年7月，此前已推出過Grok-1、Grok-1.5、Grok-1.5 Vision、Grok-2等大模型產品。其中，Grok-1是迄今參數量最大的開源大語言模型；Grok-1.5具有改進的推理能力和128k的上下文長度；Grok-1.5 Vision是首個多模態智能模型；Grok-2在Chatbot Arena榜單排名第18位。

不過，當前大模型行業競爭態勢無比激烈。在Grok 3發佈當日，奧特曼在X上表示，“對於高要求的測試者來說，試用GPT-4.5帶來的感受AGI的體驗，遠比我預期的要深刻得多！”這似乎在預示着，GPT-4.5已經進入測試階段，距離正式發佈也不會太遠了。

而在2月初，谷歌也發佈了一系列新模型，包括Gemini 2.0 Flash、Gemini 2.0 Flash-Lite以及新一代旗艦大模型Gemini 2.0 Pro實驗版本。Grok 3能否佔據主導地位還需進一步觀察。

可以確定的是，包括OpenAI、谷歌等AI巨頭在內，近期都已感受到了來自中國大模型公司DeepSeek帶來的衝擊波，以往堅持閉源的OpenAI也有了進一步開源的跡象。2月18日，奧特曼在X上發起投票，問大家希望下一個OpenAI開源的大模型是哪種？是o3-mini還是手機上可運行的大模型？或是在爲開源某個大模型做預熱。

馬斯克口中最智能的Grok 3登場，號稱性能超ChatGPT及DeepSeek

相關資訊