谷歌向所有人開放其最強大AI模型,使用成本比OpenAI便宜太多

2月6日消息,美國時間週三,谷歌正式向公衆發佈Gemini 2.0人工智能模型套件,這是該公司迄今爲止推出的“最強大”AI系統。

雖然早在去年12月,谷歌已向開發者和受信任測試者開放了Gemini 2.0的早期版本,並將部分功能集成到自家產品中,但此次標誌着該系統的"全面正式發佈"。該模型套件包含三大核心模型套件:2.0 Flash作爲"主力模型",專爲處理大規模高頻次任務優化;2.0 Pro Experimental針對編碼性能進行強化;而2.0 Flash-Lite則被定位爲"最具成本效益"的輕量化版本。

在定價策略上,Gemini Flash對文本、圖像和視頻輸入的處理費用爲每百萬token 10美分(token即AI模型處理的最小數據單元,相比而言GPT-4o的輸入成本爲每百萬token 5美元),其精簡版Flash-Lite價格更低至0.75美分/百萬token。這一系列產品發佈是谷歌在AI智能體領域的重要佈局。隨着科技巨頭與初創企業間的AI軍備競賽日趨激烈,包括Meta、亞馬遜、微軟、OpenAI及Anthropic等公司都在競相開發能自主完成多步驟複雜任務的智能體系統,而非需要逐步指導的傳統AI模型。

谷歌在去年12月的技術博客中闡釋:"過去一年,我們持續投資研發更具自主性的模型,使其能夠深度感知環境、進行多步前瞻性思考,並在用戶監督下代爲執行操作。"Gemini 2.0不僅實現了原生圖像與音頻輸出的多模態突破,更具備原生工具調用能力,該系列模型將助力我們打造新一代AI智能體,向‘通用型數字助手’的願景邁進。"

值得關注的是由前OpenAI研究團隊創立、獲亞馬遜投資的Anthropic公司。這家AI新銳去年10月宣佈其智能體已具備類人類的計算機操作能力,能夠解析屏幕信息、點擊按鈕、輸入文本、瀏覽網頁,並通過各類軟件結合實時網絡數據完成任務。公司首席科學家賈裡德·卡普蘭(Jared Kaplan)當時表示:"我們的系統能以近乎人類的方式操作電腦,處理包含數十乃至數百個步驟的複雜流程。"

OpenAI近期也推出名爲Operator的智能體系統,可自動完成旅行規劃、表格填寫、餐廳預訂等任務。這家微軟投資的明星企業將Operator定義爲"可聯網執行任務的數字代理"。本週早些時候,OpenAI又發佈Deep Research功能,支持智能體自主生成深度研究報告。值得注意的是,谷歌在去年12月也推出了同名工具,定位爲"能代用戶探索複雜課題的研究助手"。

去年12月曾有報道稱,谷歌計劃在2025年初推出多項AI新功能。公司首席執行官桑達爾·皮查伊(Sundar Pichai)在內部戰略會上強調:"商業史上,先發優勢並非絕對關鍵,真正的成功在於卓越執行力與產品力。2025年對我們而言,正是兌現產品承諾的關鍵之年。"(小小)