☰

谷歌向所有人開放其最強大AI模型，使用成本比OpenAI便宜太多

2月6日消息，美國時間週三，谷歌正式向公衆發佈Gemini 2.0人工智能模型套件，這是該公司迄今爲止推出的“最強大”AI系統。

雖然早在去年12月，谷歌已向開發者和受信任測試者開放了Gemini 2.0的早期版本，並將部分功能集成到自家產品中，但此次標誌着該系統的"全面正式發佈"。該模型套件包含三大核心模型套件：2.0 Flash作爲"主力模型"，專爲處理大規模高頻次任務優化；2.0 Pro Experimental針對編碼性能進行強化；而2.0 Flash-Lite則被定位爲"最具成本效益"的輕量化版本。

在定價策略上，Gemini Flash對文本、圖像和視頻輸入的處理費用爲每百萬token 10美分（token即AI模型處理的最小數據單元，相比而言GPT-4o的輸入成本爲每百萬token 5美元），其精簡版Flash-Lite價格更低至0.75美分/百萬token。這一系列產品發佈是谷歌在AI智能體領域的重要佈局。隨着科技巨頭與初創企業間的AI軍備競賽日趨激烈，包括Meta、亞馬遜、微軟、OpenAI及Anthropic等公司都在競相開發能自主完成多步驟複雜任務的智能體系統，而非需要逐步指導的傳統AI模型。

谷歌在去年12月的技術博客中闡釋："過去一年，我們持續投資研發更具自主性的模型，使其能夠深度感知環境、進行多步前瞻性思考，並在用戶監督下代爲執行操作。"Gemini 2.0不僅實現了原生圖像與音頻輸出的多模態突破，更具備原生工具調用能力，該系列模型將助力我們打造新一代AI智能體，向‘通用型數字助手’的願景邁進。"

值得關注的是由前OpenAI研究團隊創立、獲亞馬遜投資的Anthropic公司。這家AI新銳去年10月宣佈其智能體已具備類人類的計算機操作能力，能夠解析屏幕信息、點擊按鈕、輸入文本、瀏覽網頁，並通過各類軟件結合實時網絡數據完成任務。公司首席科學家賈裡德·卡普蘭（Jared Kaplan）當時表示："我們的系統能以近乎人類的方式操作電腦，處理包含數十乃至數百個步驟的複雜流程。"

OpenAI近期也推出名爲Operator的智能體系統，可自動完成旅行規劃、表格填寫、餐廳預訂等任務。這家微軟投資的明星企業將Operator定義爲"可聯網執行任務的數字代理"。本週早些時候，OpenAI又發佈Deep Research功能，支持智能體自主生成深度研究報告。值得注意的是，谷歌在去年12月也推出了同名工具，定位爲"能代用戶探索複雜課題的研究助手"。

去年12月曾有報道稱，谷歌計劃在2025年初推出多項AI新功能。公司首席執行官桑達爾·皮查伊（Sundar Pichai）在內部戰略會上強調："商業史上，先發優勢並非絕對關鍵，真正的成功在於卓越執行力與產品力。2025年對我們而言，正是兌現產品承諾的關鍵之年。"（小小）

谷歌向所有人開放其最強大AI模型，使用成本比OpenAI便宜太多

相關資訊