☰

谷歌發佈旗艦推理模型：單次可處理百萬token

3月26日消息，美國時間週二，谷歌發佈Gemini 2.5系列人工智能推理模型。該系列模型在回答問題前會“思考”片刻。

作爲這一系列模型的首發產品，Gemini 2.5 Pro Experimental已經率先亮相。這款多模態推理人工智能模型被谷歌稱爲“目前最智能的模型”。這一模型將於週二登陸谷歌開發者平臺Google AI Studio，同時向每月支付20美元訂閱“Gemini Advanced”的用戶開放。

谷歌表示，未來所有新推出的人工智能模型都將集成推理能力。

自從OpenAI於2024年9月份發佈首個人工智能推理模型o1以來，科技行業紛紛爭相開發推理模型，想要匹配或超越o1的性能。目前，Anthropic、DeepSeek（深度求索）、谷歌和xAI等公司均已推出各自的人工智能推理模型，這些模型利用額外算力和時間，在輸出答案之前先進行事實覈查和邏輯推演。

推理技術使得人工智能模型在數學與編程任務中實現突破。許多科技界人士認爲，推理模型將成爲智能體的重要組成部分，使得這些人工智能系統可以無需人工干預自動完成任務，但成本也更高。

谷歌此前也曾嘗試開發人工智能推理模型，去年12月份曾發佈過具備“思考能力的Gemini，但Gemini 2.5系列模型則是谷歌挑戰OpenAI“o”系列模型迄今最重磅嘗試。

谷歌聲稱，Gemini 2.5 Pro在多項基準測試中都超越了前沿模型以及頂級競爭對手的部分產品，在視覺化網頁應用開發和自動化編程等領域的表現尤爲突出。

谷歌稱，在名爲Aider Polyglot的代碼編輯評估中，Gemini 2.5 Pro得分爲68.6%，力壓OpenAI、Anthropic以及DeepSeek的部分頂尖模型。

但在軟件開發能力測試SWE-bench Verified中，Gemini 2.5 Pro得分只有63.8%，雖然優於OpenAI的o3-mini和DeepSeek R1，但表現仍不敵Anthropic的Claude 3.7 Sonnet，後者得分爲70.3%。

在涵蓋數學、人文以及自然科學的綜合性測試“人類終極考試”（Humanity’s Last Exam）中，谷歌表示Gemini 2.5 Pro得分爲18.8%，表現優於大多數競爭對手的旗艦級模型。

此外，谷歌表示Gemini 2.5 Pro支持高達100萬token的超大上下文窗口，單次可以處理約75萬英文單詞，遠超《指環王》三部曲的總字數。谷歌透露，未來Gemini 2.5 Pro將支持200萬token的雙倍輸入長度。

目前，谷歌尚未公佈Gemini 2.5 Pro的API定價，但表示將在未來幾周內公佈。（辰辰）

相關資訊