馬斯克口中最智能的Grok 3登場,號稱性能超ChatGPT及DeepSeek

2月18日午間,馬斯克旗下xAI公司的新一代大模型Grok 3正式發佈。發佈會採用視頻直播形式,觀看人數超過100萬人,馬斯克本人也出現在直播間。

據馬斯克介紹,Grok3在很短的時間內實現了功能比Grok2強大一個數量級,Grok-3和Grok-3 mini在多方面性能上都超過或媲美Gemini、DeepSeek和ChatGPT等對手。

xAI工程師則表示,雖然Grok起步較晚,但在MMLU得分上以超快的速度追上了ChatGPT,Grok 3所涉及的訓練是Grok 2的10倍,目前Grok 3已經在xAI內部運行了2周。MMLU是一個用於評估語言模型在多種任務上語言理解能力的基準測試。

此外,xAI推出名爲Deepsearch的Grok-3智能搜索引擎。xAI工程師強調,Deepsearch是xAI的第一代廣泛代理工具,它不僅幫助工程師、研究人員和科學家編寫代碼,也能幫助每個人回答日常遇到的問題。

馬斯克在現場演示了Grok 3的搜索能力,如問“下一次的星艦發射是什麼時候”,Grok 3會像DeepSeek一樣,顯示模型正在做什麼,包括瀏覽的網頁、思考的過程,並確認網頁上的信息是否可信,再得出一個相關的結論。最終,大模型以列表形式預測了下一次星艦的發射期。

值得注意的是,該搜索引擎在深度思考過程中還會顯示不同的次任務,這種功能據稱比現在的搜索引擎更爲強大,可節省更多時間,因對搜索引擎的算法和邏輯重新進行了設計。

對於用戶何時可以體驗到“地球上最聰明的人工智能”,馬斯克稱會首先向預定用戶開放。由於模型仍在不斷更新和改進中,蘋果應用商店上線的Grok版本會相對落後,而網頁版更新最爲及時。據其透露,Grok 3語音模式可能在一週後推出。

直播末尾,馬斯克和xAI工程師現場回答了網友提問。當被問及是否會開源時,馬斯克給出了肯定的答案,稱每次做下一個版本時會開源上一個版本,幾個月後會開源Grok 3。對於頗爲敏感的“Grok 3是男性還是女性”問題,馬斯克稱,性別是模型自己定義的,還提醒“不要愛上Grok”。

談及開發Grok 3最難的部分,馬斯克表示是訓練模型和100%的邏輯推理過程,那種複雜程度就像隨時隨地預測宇宙的發展情況。

如果Grok 3的推理能力真如視頻中所講的那樣強大,可能推動AI從 “生成答案” 向 “邏輯推導” 升級。

xAI公司成立於2023年7月,此前已推出過Grok-1、Grok-1.5、Grok-1.5 Vision、Grok-2等大模型產品。其中,Grok-1是迄今參數量最大的開源大語言模型;Grok-1.5具有改進的推理能力和128k的上下文長度;Grok-1.5 Vision是首個多模態智能模型;Grok-2在Chatbot Arena榜單排名第18位。

不過,當前大模型行業競爭態勢無比激烈。在Grok 3發佈當日,奧特曼在X上表示,“對於高要求的測試者來說,試用GPT-4.5帶來的感受AGI的體驗,遠比我預期的要深刻得多!”這似乎在預示着,GPT-4.5已經進入測試階段,距離正式發佈也不會太遠了。

而在2月初,谷歌也發佈了一系列新模型,包括Gemini 2.0 Flash、Gemini 2.0 Flash-Lite以及新一代旗艦大模型Gemini 2.0 Pro實驗版本。Grok 3能否佔據主導地位還需進一步觀察。

可以確定的是,包括OpenAI、谷歌等AI巨頭在內,近期都已感受到了來自中國大模型公司DeepSeek帶來的衝擊波,以往堅持閉源的OpenAI也有了進一步開源的跡象。2月18日,奧特曼在X上發起投票,問大家希望下一個OpenAI開源的大模型是哪種?是o3-mini還是手機上可運行的大模型?或是在爲開源某個大模型做預熱。