GPT-4.5深陷爭議

出品|虎嗅科技組

作者|孫曉晨

編輯|苗正卿

頭圖|直播截圖

當地時間2月27日,OpenAI正式推出其最新大語言模型GPT-4.5,而這也將是OpenAI最後一代不具備“思維鏈推理”機制的模型。

OpenAI首席執行官奧特曼在社交平臺X上的表示:“好消息是,它是第一個讓我感覺像是與有思想的人交談的模型。我有幾次坐在椅子上,從AI那裡得到真正的好建議,這讓我感到驚訝。壞消息是,它是一個巨大的、昂貴的模型。”

如其所言,GPT-4.5的推出伴隨着“進步”與“爭議”。

該模型的核心突破與宣傳重點在於模型“情商”方面的進步。OpenAI在線上直播過程中展示了一段與GPT-4.5的對話過程,當用戶輸入“我又被朋友放鴿子了,寫一段短信告訴他們‘我討厭他們’!“時,GPT-4.5並未機械性地直接生成用戶要求的內容,而是優先輸出安撫情緒的建議,並通過同理心引導用戶冷靜思考。

“高情商”一方面源自GPT-4.5針對談話流暢性和自然性的強化訓練,用戶得以在使用過程中獲得更加自然的交互體驗;另一方面源自GPT-4.5的無監督學習,其通過對海量對話數據的學習計算,提取用戶對話信息的語義關聯,從而敏銳捕捉用戶輸入信息中的情感色彩。

與“情商”進步相關聯,GPT-4.5在SimpleQA準確率與SimpleQA幻覺率兩方面有着不俗的數據表現,分別爲62.5%與37.1%,均優於GPT-4o、OpenAI o1以及OpenAI o3-mini等前代模型。(幻覺率即生成不準確信息的概率,其數值越低越好。)

OpenAI在直播中表示“該模型的獨特之處在於它能夠進行熱情、直觀、自然流暢的對話,並且我們認爲它對用戶提出要求時的意思有更強的理解力。”不同於以往模型強調推理能力或任務性能,GPT-4.5更加側重對用戶意圖的理解,更高的情商和更流暢的交互體驗也意味着該模型在改進寫作、編程和解決實際問題等任務中可以更好地發揮作用。

然而,GPT-4.5並非全面升級的大模型,其在數學推理和代碼生成等依賴深度思考的任務中表現平平。奧特曼表示“這不是一個推理模型,也不會碾壓基準。它是一種不同的智能,有一種我以前從未感受過的魔力。”

成本與價格是GPT-4.5的重要爭議點。奧特曼表示,儘管想同時推出GPT-4.5Plus和Pro版本,但GPU已然用盡,下週將增加數萬個GPU,然後將其推出到Plus級別。作爲OpenAI目前最大的聊天模型,GPT-4.5計算效率比GPT-4 提升10 倍不止,而在價格方面,GPT-4.5 API每100萬token輸入75美元,輸出價格爲150美元,是GPT-4o的30倍,甚至是競品Claude 3.7 Sonnet的25倍。對此,有網友表示自己恐怕不會只是爲了感覺更有氛圍而花75美元。也有網友直言該模型價格過高。此外,在DeepSeek的低成本路線下,OpenAI的高價策略能否持續,也引起了廣大用戶的懷疑。

產品性能和使用體驗也是GPT-4.5的爭議之處。Box AI CEO Aaron Levie指出,他們從企業內容(如合同中的重要細節)中提取了20000多個數據字段,GPT-4.5相比於GPT-4o,其單次提取的改進幅度爲19個百分點。他認爲,對於任何關鍵的企業工作流程來說,這都是巨大的改進。

而紐約大學教授Gary Marcus則指出,GPT-4.5基本上毫無用處。有用戶實測表示該模型在編碼等方面並不比GPT-4o好太多,而且在編碼方面比Sonnet差。還有網友在OpenAI的相關博文下留言,稱Grok更好。而不久之前,馬斯克的xAI剛剛推出了所謂“世界最聰明的模型”Grok 3。

另外,OpenAI明確將GPT-4.5定義爲“最後一個非思維鏈模型”,未來將於數月內推出GPT-5。那麼,GPT-4.5的模型定位似乎成爲了GPT-5的過渡模型。鑑於2025年以來DeepSeek R1在世界範圍內造成的衝擊,OpenAI爲支持GPT-4.5的龐大訓練規模,採用跨數據中心分佈式訓練,結合低精度訓練技術,也被視爲對DeepSeek技術路線的模仿。而“GPT-5的過渡模型”這一定位,也使得推出GPT-4.5被看作OpenAI應對競爭的倉促之舉。

儘管GPT-4.5並未實現奧特曼所言的AGI,但是其“高情商”的表現也暗示着人工智能的發展潛力。2025年以來,DeepSeek R1、Grok 3等模型連番“炸場”,月之暗面也公佈其最新Kimi-K1.6-IOI-high模型,人工智能行業的模型之戰愈演愈烈,OpenAI是否真的能繼續引領AI發展,恐怕還要等未來OpenAI的GPT-5表現如何。