☰

OpenAI最大最貴模型，來了！定價比DeepSeek貴1000倍

智東西（公衆號：zhidxcom）作者程茜編輯心緣

智東西2月28日報道，今日凌晨，OpenAI GPT-4.5降世！

OpenAI將GPT-4.5稱作其最大最好的聊天模型，其早期測試結果表明，GPT-4.5與人類的交互更加自然，知識庫更廣泛，具有高情商能瞭解用戶的暗示等，使得其在寫作、設計、編程等方面能力更加強大。

OpenAI CEO薩姆·阿爾特曼陪產之餘還在社交平臺上驚歎：“這是第一個感覺像是在和一個有思想的人說話的模型。”他還特別提到，GPT-4.5不是一個推理模型，也不會在基準測試中取得壓倒性優勢。它是一種不同類型的智能，其中有着他從未感受過的奇妙之處。

目前，GPT-4.5可以通過搜索訪問最新的信息，支持文件和圖像上傳，並使用畫布進行編寫和代碼。但是目前不支持ChatGPT中的語音模式，視頻和屏幕共享等多模式功能。

從OpenAI公佈的信息來看，和GPT-4o、o1、o3一樣，GPT-4.5的訓練知識截止日期都是2023年10月。

不過最令人震驚的是API價格，每百萬Tokens價格75美元，相比GPT-4o的2.5美元上漲30倍，即便如此，OpenAI的文章提到，GPT-4.5無法完全替代GPT-4o。

相比DeepSeek的正常價格，GPT-4.5輸入價格達到了驚人的280倍，DeepSeek前幾天還發布API淡季折扣價，GPT-4.5輸入價格（緩存命中）是其1000多倍。

從今天開始，ChatGPT Pro用戶將能夠在網頁、桌面和電腦端中選擇使用GPT-4.5，下週開始向Plus和Team用戶推出，再下週向Enterprise和Edu用戶推出。

GPT-4.5的系統卡已公開：

https://cdn.openai.com/gpt-4-5-system-card-2272025.pdf

一、高情商感知用戶沮喪，人類測試員更愛GPT-4.5

GPT-4.5在響應之前不會思考，這使得它的優勢與OpenAI o1等推理模型特別不同。與OpenAI o1和OpenAI o3-mini相比，GPT-4.5是一個更通用、更智能的模型。

OpenAI研究人員將GPT-4.5和o1的生成結果進行了對比：

當他詢問“我的朋友又取消了我的約會！寫一條短信告訴他們我討厭他們”，GPT-4.5會給在給出短信的同時，領會到用戶現在十分沮喪之一社交暗示，o1直接給出了一條充滿憤怒的短信。

第二個問題是“從第一性原理解釋AI對齊的必要性”，相比o1，GPT-4.5的回答會更加自然，引導用戶進行思考。

此外，OpenAI也在官網曬出了不少GPT-4.5的Demo對比：

用戶因爲考試不及格而沮喪時，GPT-4.5會安慰並引導用戶交流，GPT-4o則是給出了一堆冰冷的文字建議。

用戶與GPT-4.5交流太空探索時，它的回答更具“人情味”。

用戶還可以以聊天的口吻和GPT-4.5交流。

OpenAI的測試結果顯示，在準確性、幻覺測試方面，GPT-4.5的性能表現優於GPT系列其他表現。

此外，模型解決複雜問題時，能更好理解人類和需求意圖至關重要。OpenAI基於新的可擴展技術，可以使用來自較小模型的數據訓練更大，更強大的模型。這些技術提高了GPT-4.5的可操控性，對細微差別的理解和自然對話。

其對比顯示，人類偏好測試人員更喜歡GPT-4.5。

多語言性能方面，OpenAI使用專業翻譯人員將MMLU的測試集翻譯成14種語言，在該評估中，GPT-4.5優於GPT-4o。

GPT-4.5在標準學術基準上的結果，以說明它在傳統上與推理相關的任務上的當前性能。即使是單純的擴大無監督學習，GPT-4.5也顯示出比以前的模型（如GPT-4o）有意義的改進。

OpenAI在官方博客也提到，GPT-4.5並不能完全替代GPT-4o，在不少基準測試中其效果落後。

評估AI模型解決現實世界軟件問題的能力的基準測試SWE-Bench Verified中，GPT-4.5能力超過GPT-4o，但是低於o1、o3-mini、深度研究。

SWE-Lancer評估模型在現實世界中的性能，具有經濟價值的全棧軟件工程任務。GPT-4.5解決了20%的IC SWE任務和44%的SWE Manager任務，略高於o1。深度研究在此次評估中仍然得分最高，在SWE-Lancer上達到了最先進的性能，解決了大約46%的IC SWE任務和51%的SWE Manager任務。

二、阿爾特曼陪產，網友評論區吐槽價格太貴

此次發佈會阿爾特曼並未現身，就在阿爾特曼的評論區，有網友第一時間關心起了阿爾特曼的所在。阿爾特曼稱自己還在醫院陪孩子，OpenAI團隊完成了這次發佈。

作爲OpenAI前員工的AI大牛安德烈·卡帕西也第一時間在推特上撰寫長文評價，並放出多個他認爲能體現模型特點的案例。

卡帕西稱，這款模型的發佈讓他期待了整整兩年，由GPT-4到GPT-4.5這一0.5個版本號的提升，大約對應着10倍的預訓練計算。

作爲內部人士，卡帕西得到了提前體驗這款模型的機會。他稱這款模型的變化讓他回憶起GPT-3.5到GPT-4之間的微妙提升——一切都變得稍微好一點，詞彙選擇更加有創意，對提示詞中的細微差別理解得到改善，類比更加合理，模型有有趣，幻覺變得稍微少一些。

卡帕西也強調，在數學、代碼等領域，強化學習是至關重要的，GPT-4.5並不在這些領域擁有最強的能力，其主要提升在於非推理密集型任務上的改進。在他看來，這些任務更多與情商相關。

推文評論區中，卡帕西發佈了5個投票，讓網友在GPT-4與GPT-4.5的回覆之間進行盲測。目前，卡帕西還沒有揭曉答案。

價格也成爲網友們熱議的話題。一位來自HackerNews的網友評論列舉了GPT-4o與GPT-4.5的價格差距，可以看到後者的輸入價格是4o的整整30倍，輸出價格則爲15倍。

一位X網友專程到評論區@OpenAI，半開玩笑地詢問GPT-4.5的定價是不是搞錯了。

X網友也發揮傳統藝能，第一時間將GPT-4.5的定價製作成了梗圖，配文是：“用昂貴的東西給她留下點深刻印象。”

也有網友調侃道，這款模型本質上就是一個更慢，也沒那麼酷的Grok。

部分體驗上這款模型的Pro用戶已經分享了他們的案例。有一位網友發現，GPT-4.5依舊無法數清楚英文單詞草莓中究竟有幾個字母“r”。

不過，也有Pro用戶投訴，稱自己到現在還沒用上新模型。

三、兩大互補範式，更適合人類協作

在新模型發佈前不久，OpenAI首席研究官Mark Chen接受播客Big Technology採訪，他稱GPT-4.5“證明了我們可以延續原有的Scaling範式”，並回應了幾大網友可能會關注的問題。

新模型並未被命名爲GPT-5，這是因爲OpenAI內部對這款模型的評估還沒有到達整整一代的性能提升，升級的幅度與GPT-3到GPT-3.5類似。當主持人詢問OpenAI投入的數據、算力是否得到相同的回報時，馬克·陳堅定地稱回報率是一致的，性能提升也是在預期之內的。

OpenAI內部正在實驗各種提升AI性能的方式，而GPT-4.5是無監督學習路徑上的最新成果。目前他們內部主要專注於推理模型的研發，因此GPT-4.5的發佈時間稍顯延後。馬克·陳透露，GPT-5可能成爲前面兩種技術路徑的集大成者。

OpenAI通過擴展兩種互補的範式來推進AI能力：無監督學習和推理。

一方面，推理教導模型在響應之前進行思考併產生一系列思考，使它們能夠解決複雜的STEM或邏輯問題，像OpenAI o1和OpenAI o3-mini這樣的模型推進了這一範式；另一方面，無監督學習提高了世界模型的準確性和直觀性。

OpenAI的官方博客提到，該模型更適合人類協作，能更好理解人類的意思，並具有更高的情商能發現用戶需求中微妙的暗示或隱含的期望，此外其還具備更強的審美直覺和創造力，擅長幫助寫作和設計。

訓練數據方面，GPT-4.5在不同的數據集上進行了預訓練和後訓練，包括公開可用的數據，來自數據合作伙伴的專有數據以及內部開發的自定義數據集。

在部署前，OpenAI對GPT-4.5進行了廣泛的安全評估，包括有害性、越獄魯棒性、幻覺和偏見評估。

結語：人類協作潛力大幅提升

從技術革新角度看，GPT-4.5擁有更廣泛的知識庫，對人類意圖理解更爲精準，在寫作、編程及實際問題解決方面表現更爲出色，幻覺現象也大幅減少。這或許會使其在內容創作、軟件開發、智能客服、教育培訓、醫療診斷等衆多領域的應用更加廣泛和深入，增強與人類協作的場景。

此外，性能強勁的同時降低價格可以有效擴大市場規模和用戶基數，推動大模型在各個領域的應用落地因此GPT-4.5目前高昂的定價，也是大模型應用普及的一道門檻。

OpenAI最大最貴模型，來了！定價比DeepSeek貴1000倍

相關資訊