Grok 3:可能重新定義 AI 行業的模型剖析

自成立不到兩年,xAI 就推出了可能是迄今爲止最先進的 AI 模型。Grok 3 在所有關鍵基準測試以及用戶評估的 Chatbot Arena 中都達到或超越了最先進的模型水平,而且其訓練甚至還未完成。

雖然 xAI 團隊尚未發佈論文或技術報告,我們對 Grok 3 的細節瞭解還不多。但根據 xAI 在演示中分享的內容,以及 AI 專家們對該模型進行的各種實驗,我們可以推測 Grok 3 在未來幾個月可能對 AI 行業產生的影響。

更快的發佈節奏

隨着 AI 實驗室之間競爭加劇 (比如 DeepSeek-R1 的發佈),我們可以預期模型發佈週期會變得更短。在 Grok 3 的演示中,xAI 創始人 Elon Musk 表示,用戶可能會"幾乎每天都注意到改進,因爲我們在持續優化模型"。

Allen Institute for AI 的機器學習科學家 Nathan Lambert 寫道:"來自 DeepSeek 和 Grok 的競爭壓力,加上國內外 AI 政治環境的變化,將促使established領先實驗室加快發佈速度。競爭加劇和監管減少意味着我們這些用戶將在更快的時間線上獲得更強大的 AI。"

一方面,這對用戶來說是好事,因爲他們可以持續獲取最新最強的模型,而不是等待長達數月的發佈。另一方面,這可能對期望模型行爲保持一致的開發者產生不穩定影響。之前的研究和用戶經驗表明,模型的不同版本對相同提示可能會有不同反應。

企業應該開發自定義評估並定期運行,以確保新更新不會破壞他們的應用程序。

擴展定律

最近 DeepSeek-R1 的發佈動搖了大公司在建立大型計算集羣上的鉅額投資。但 xAI 的突然崛起證明了科技公司在 AI 加速器上的鉅額投資是正確的。由於 xAI 在孟菲斯的 Collosus 超級計算集羣,Grok 3 創下了訓練速度記錄。

Lambert 寫道:"雖然我們沒有具體細節,但可以合理地認爲擴展仍然有助於提升性能 (但可能在成本上並非如此)。xAI 的方法和信息傳達一直是儘快部署最大的集羣。在我們獲得更多細節之前,最簡單的解釋是擴展確實有幫助,但 Grok 的性能可能主要來自於簡單擴展之外的技術。"

其他分析師指出,xAI 擴展計算集羣的能力是 Grok 3 成功的關鍵。然而,Musk 暗示這裡不僅僅是簡單的擴展。我們需要等待論文發佈才能瞭解完整細節。

開源文化

大語言模型 (LLM) 正在向開源方向轉變。xAI 已經開源了 Grok 1。根據 Musk 的說法,公司的總體政策是開源每個模型,除了最新版本。所以當 Grok 3 完全發佈時,Grok 2 將被開源。(Sam Altman 也在考慮開源一些 OpenAI 的模型。)

xAI 還將避免展示 Grok 3 推理的完整思維鏈 (CoT) tokens,以防止競爭對手複製。相反,它將展示模型推理過程的詳細概述 (就像 OpenAI 對 o3-mini 所做的那樣)。完整的 CoT 將只在 xAI 開源 Grok 3 時提供,這可能會在 Grok 4 發佈之後。

進行自己的體驗評估

儘管基準測試結果令人印象深刻,但對 Grok 3 的反應卻褒貶不一。前 OpenAI 和 Tesla AI 科學家 Andrej Karpathy 認爲其推理能力"處於最先進水平",與 o1-Pro 相當,但也指出它在某些任務上落後於其他最先進的模型,如創建可組合的可擴展矢量圖形或處理倫理問題。

其他用戶指出了 Grok 3 在編碼能力方面相比其他模型的缺陷,儘管也有很多 Grok 3 展現出令人印象深刻編碼能力的例子。