☰

GPT-4.5深陷爭議

出品｜虎嗅科技組

作者｜孫曉晨

編輯｜苗正卿

頭圖｜直播截圖

當地時間2月27日，OpenAI正式推出其最新大語言模型GPT-4.5，而這也將是OpenAI最後一代不具備“思維鏈推理”機制的模型。

OpenAI首席執行官奧特曼在社交平臺X上的表示：“好消息是，它是第一個讓我感覺像是與有思想的人交談的模型。我有幾次坐在椅子上，從AI那裡得到真正的好建議，這讓我感到驚訝。壞消息是，它是一個巨大的、昂貴的模型。”

如其所言，GPT-4.5的推出伴隨着“進步”與“爭議”。

該模型的核心突破與宣傳重點在於模型“情商”方面的進步。OpenAI在線上直播過程中展示了一段與GPT-4.5的對話過程，當用戶輸入“我又被朋友放鴿子了，寫一段短信告訴他們‘我討厭他們’！“時，GPT-4.5並未機械性地直接生成用戶要求的內容，而是優先輸出安撫情緒的建議，並通過同理心引導用戶冷靜思考。

“高情商”一方面源自GPT-4.5針對談話流暢性和自然性的強化訓練，用戶得以在使用過程中獲得更加自然的交互體驗；另一方面源自GPT-4.5的無監督學習，其通過對海量對話數據的學習計算，提取用戶對話信息的語義關聯，從而敏銳捕捉用戶輸入信息中的情感色彩。

與“情商”進步相關聯，GPT-4.5在SimpleQA準確率與SimpleQA幻覺率兩方面有着不俗的數據表現，分別爲62.5%與37.1%，均優於GPT-4o、OpenAI o1以及OpenAI o3-mini等前代模型。（幻覺率即生成不準確信息的概率，其數值越低越好。）

OpenAI在直播中表示“該模型的獨特之處在於它能夠進行熱情、直觀、自然流暢的對話，並且我們認爲它對用戶提出要求時的意思有更強的理解力。”不同於以往模型強調推理能力或任務性能，GPT-4.5更加側重對用戶意圖的理解，更高的情商和更流暢的交互體驗也意味着該模型在改進寫作、編程和解決實際問題等任務中可以更好地發揮作用。

然而，GPT-4.5並非全面升級的大模型，其在數學推理和代碼生成等依賴深度思考的任務中表現平平。奧特曼表示“這不是一個推理模型，也不會碾壓基準。它是一種不同的智能，有一種我以前從未感受過的魔力。”

成本與價格是GPT-4.5的重要爭議點。奧特曼表示，儘管想同時推出GPT-4.5Plus和Pro版本，但GPU已然用盡，下週將增加數萬個GPU，然後將其推出到Plus級別。作爲OpenAI目前最大的聊天模型，GPT-4.5計算效率比GPT-4 提升10 倍不止，而在價格方面，GPT-4.5 API每100萬token輸入75美元，輸出價格爲150美元，是GPT-4o的30倍，甚至是競品Claude 3.7 Sonnet的25倍。對此，有網友表示自己恐怕不會只是爲了感覺更有氛圍而花75美元。也有網友直言該模型價格過高。此外，在DeepSeek的低成本路線下，OpenAI的高價策略能否持續，也引起了廣大用戶的懷疑。

產品性能和使用體驗也是GPT-4.5的爭議之處。Box AI CEO Aaron Levie指出，他們從企業內容（如合同中的重要細節）中提取了20000多個數據字段，GPT-4.5相比於GPT-4o，其單次提取的改進幅度爲19個百分點。他認爲，對於任何關鍵的企業工作流程來說，這都是巨大的改進。

而紐約大學教授Gary Marcus則指出，GPT-4.5基本上毫無用處。有用戶實測表示該模型在編碼等方面並不比GPT-4o好太多，而且在編碼方面比Sonnet差。還有網友在OpenAI的相關博文下留言，稱Grok更好。而不久之前，馬斯克的xAI剛剛推出了所謂“世界最聰明的模型”Grok 3。

另外，OpenAI明確將GPT-4.5定義爲“最後一個非思維鏈模型”，未來將於數月內推出GPT-5。那麼，GPT-4.5的模型定位似乎成爲了GPT-5的過渡模型。鑑於2025年以來DeepSeek R1在世界範圍內造成的衝擊，OpenAI爲支持GPT-4.5的龐大訓練規模，採用跨數據中心分佈式訓練，結合低精度訓練技術，也被視爲對DeepSeek技術路線的模仿。而“GPT-5的過渡模型”這一定位，也使得推出GPT-4.5被看作OpenAI應對競爭的倉促之舉。

儘管GPT-4.5並未實現奧特曼所言的AGI，但是其“高情商”的表現也暗示着人工智能的發展潛力。2025年以來，DeepSeek R1、Grok 3等模型連番“炸場”，月之暗面也公佈其最新Kimi-K1.6-IOI-high模型，人工智能行業的模型之戰愈演愈烈，OpenAI是否真的能繼續引領AI發展，恐怕還要等未來OpenAI的GPT-5表現如何。

GPT-4.5深陷爭議

相關資訊