OpenAI最大最貴模型,來了!定價比DeepSeek貴1000倍
智東西(公衆號:zhidxcom)作者程茜編輯心緣
智東西2月28日報道,今日凌晨,OpenAI GPT-4.5降世!
OpenAI將GPT-4.5稱作其最大最好的聊天模型,其早期測試結果表明,GPT-4.5與人類的交互更加自然,知識庫更廣泛,具有高情商能瞭解用戶的暗示等,使得其在寫作、設計、編程等方面能力更加強大。
OpenAI CEO薩姆·阿爾特曼陪產之餘還在社交平臺上驚歎:“這是第一個感覺像是在和一個有思想的人說話的模型。”他還特別提到,GPT-4.5不是一個推理模型,也不會在基準測試中取得壓倒性優勢。它是一種不同類型的智能,其中有着他從未感受過的奇妙之處。
目前,GPT-4.5可以通過搜索訪問最新的信息,支持文件和圖像上傳,並使用畫布進行編寫和代碼。但是目前不支持ChatGPT中的語音模式,視頻和屏幕共享等多模式功能。
從OpenAI公佈的信息來看,和GPT-4o、o1、o3一樣,GPT-4.5的訓練知識截止日期都是2023年10月。
不過最令人震驚的是API價格,每百萬Tokens價格75美元,相比GPT-4o的2.5美元上漲30倍,即便如此,OpenAI的文章提到,GPT-4.5無法完全替代GPT-4o。
相比DeepSeek的正常價格,GPT-4.5輸入價格達到了驚人的280倍,DeepSeek前幾天還發布API淡季折扣價,GPT-4.5輸入價格(緩存命中)是其1000多倍。
從今天開始,ChatGPT Pro用戶將能夠在網頁、桌面和電腦端中選擇使用GPT-4.5,下週開始向Plus和Team用戶推出,再下週向Enterprise和Edu用戶推出。
GPT-4.5的系統卡已公開:
https://cdn.openai.com/gpt-4-5-system-card-2272025.pdf
一、高情商感知用戶沮喪,人類測試員更愛GPT-4.5
GPT-4.5在響應之前不會思考,這使得它的優勢與OpenAI o1等推理模型特別不同。與OpenAI o1和OpenAI o3-mini相比,GPT-4.5是一個更通用、更智能的模型。
OpenAI研究人員將GPT-4.5和o1的生成結果進行了對比:
當他詢問“我的朋友又取消了我的約會!寫一條短信告訴他們我討厭他們”,GPT-4.5會給在給出短信的同時,領會到用戶現在十分沮喪之一社交暗示,o1直接給出了一條充滿憤怒的短信。
第二個問題是“從第一性原理解釋AI對齊的必要性”,相比o1,GPT-4.5的回答會更加自然,引導用戶進行思考。
此外,OpenAI也在官網曬出了不少GPT-4.5的Demo對比:
用戶因爲考試不及格而沮喪時,GPT-4.5會安慰並引導用戶交流,GPT-4o則是給出了一堆冰冷的文字建議。
用戶與GPT-4.5交流太空探索時,它的回答更具“人情味”。
用戶還可以以聊天的口吻和GPT-4.5交流。
OpenAI的測試結果顯示,在準確性、幻覺測試方面,GPT-4.5的性能表現優於GPT系列其他表現。
此外,模型解決複雜問題時,能更好理解人類和需求意圖至關重要。OpenAI基於新的可擴展技術,可以使用來自較小模型的數據訓練更大,更強大的模型。這些技術提高了GPT-4.5的可操控性,對細微差別的理解和自然對話。
其對比顯示,人類偏好測試人員更喜歡GPT-4.5。
多語言性能方面,OpenAI使用專業翻譯人員將MMLU的測試集翻譯成14種語言,在該評估中,GPT-4.5優於GPT-4o。
GPT-4.5在標準學術基準上的結果,以說明它在傳統上與推理相關的任務上的當前性能。即使是單純的擴大無監督學習,GPT-4.5也顯示出比以前的模型(如GPT-4o)有意義的改進。
OpenAI在官方博客也提到,GPT-4.5並不能完全替代GPT-4o,在不少基準測試中其效果落後。
評估AI模型解決現實世界軟件問題的能力的基準測試SWE-Bench Verified中,GPT-4.5能力超過GPT-4o,但是低於o1、o3-mini、深度研究。
SWE-Lancer評估模型在現實世界中的性能,具有經濟價值的全棧軟件工程任務。GPT-4.5解決了20%的IC SWE任務和44%的SWE Manager任務,略高於o1。深度研究在此次評估中仍然得分最高,在SWE-Lancer上達到了最先進的性能,解決了大約46%的IC SWE任務和51%的SWE Manager任務。
二、阿爾特曼陪產,網友評論區吐槽價格太貴
此次發佈會阿爾特曼並未現身,就在阿爾特曼的評論區,有網友第一時間關心起了阿爾特曼的所在。阿爾特曼稱自己還在醫院陪孩子,OpenAI團隊完成了這次發佈。
作爲OpenAI前員工的AI大牛安德烈·卡帕西也第一時間在推特上撰寫長文評價,並放出多個他認爲能體現模型特點的案例。
卡帕西稱,這款模型的發佈讓他期待了整整兩年,由GPT-4到GPT-4.5這一0.5個版本號的提升,大約對應着10倍的預訓練計算。
作爲內部人士,卡帕西得到了提前體驗這款模型的機會。他稱這款模型的變化讓他回憶起GPT-3.5到GPT-4之間的微妙提升——一切都變得稍微好一點,詞彙選擇更加有創意,對提示詞中的細微差別理解得到改善,類比更加合理,模型有有趣,幻覺變得稍微少一些。
卡帕西也強調,在數學、代碼等領域,強化學習是至關重要的,GPT-4.5並不在這些領域擁有最強的能力,其主要提升在於非推理密集型任務上的改進。在他看來,這些任務更多與情商相關。
推文評論區中,卡帕西發佈了5個投票,讓網友在GPT-4與GPT-4.5的回覆之間進行盲測。目前,卡帕西還沒有揭曉答案。
價格也成爲網友們熱議的話題。一位來自HackerNews的網友評論列舉了GPT-4o與GPT-4.5的價格差距,可以看到後者的輸入價格是4o的整整30倍,輸出價格則爲15倍。
一位X網友專程到評論區@OpenAI,半開玩笑地詢問GPT-4.5的定價是不是搞錯了。
X網友也發揮傳統藝能,第一時間將GPT-4.5的定價製作成了梗圖,配文是:“用昂貴的東西給她留下點深刻印象。”
也有網友調侃道,這款模型本質上就是一個更慢,也沒那麼酷的Grok。
部分體驗上這款模型的Pro用戶已經分享了他們的案例。有一位網友發現,GPT-4.5依舊無法數清楚英文單詞草莓中究竟有幾個字母“r”。
不過,也有Pro用戶投訴,稱自己到現在還沒用上新模型。
三、兩大互補範式,更適合人類協作
在新模型發佈前不久,OpenAI首席研究官Mark Chen接受播客Big Technology採訪,他稱GPT-4.5“證明了我們可以延續原有的Scaling範式”,並回應了幾大網友可能會關注的問題。
新模型並未被命名爲GPT-5,這是因爲OpenAI內部對這款模型的評估還沒有到達整整一代的性能提升,升級的幅度與GPT-3到GPT-3.5類似。當主持人詢問OpenAI投入的數據、算力是否得到相同的回報時,馬克·陳堅定地稱回報率是一致的,性能提升也是在預期之內的。
OpenAI內部正在實驗各種提升AI性能的方式,而GPT-4.5是無監督學習路徑上的最新成果。目前他們內部主要專注於推理模型的研發,因此GPT-4.5的發佈時間稍顯延後。馬克·陳透露,GPT-5可能成爲前面兩種技術路徑的集大成者。
OpenAI通過擴展兩種互補的範式來推進AI能力:無監督學習和推理。
一方面,推理教導模型在響應之前進行思考併產生一系列思考,使它們能夠解決複雜的STEM或邏輯問題,像OpenAI o1和OpenAI o3-mini這樣的模型推進了這一範式;另一方面,無監督學習提高了世界模型的準確性和直觀性。
OpenAI的官方博客提到,該模型更適合人類協作,能更好理解人類的意思,並具有更高的情商能發現用戶需求中微妙的暗示或隱含的期望,此外其還具備更強的審美直覺和創造力,擅長幫助寫作和設計。
訓練數據方面,GPT-4.5在不同的數據集上進行了預訓練和後訓練,包括公開可用的數據,來自數據合作伙伴的專有數據以及內部開發的自定義數據集。
在部署前,OpenAI對GPT-4.5進行了廣泛的安全評估,包括有害性、越獄魯棒性、幻覺和偏見評估。
結語:人類協作潛力大幅提升
從技術革新角度看,GPT-4.5擁有更廣泛的知識庫,對人類意圖理解更爲精準,在寫作、編程及實際問題解決方面表現更爲出色,幻覺現象也大幅減少。這或許會使其在內容創作、軟件開發、智能客服、教育培訓、醫療診斷等衆多領域的應用更加廣泛和深入,增強與人類協作的場景。
此外,性能強勁的同時降低價格可以有效擴大市場規模和用戶基數,推動大模型在各個領域的應用落地因此GPT-4.5目前高昂的定價,也是大模型應用普及的一道門檻。