☰

倒反天罡！OpenAI用GPT-5給7億用戶戒“網癮”？附GPT-5深度測評

OpenAI萬萬沒想到，訓練時長兩年半的GPT-5剛發佈，就給自己先上了一課——步子跨太大容易傷身體。用戶也萬萬沒有想到，期待已久的GPT-5，是來給自己戒網癮的。

1個多小時的發佈會之後，網友上手一用，就發現Chatgpt“沒內味了”。但最麻煩的事是，OpenAI發佈GPT-5的時候，砍掉了包括GPT-4o和o系列的所有舊模型。但這看似普通的版本“升級”，卻出了大事。大家對特定的模型，好像有點太上頭了。

大量的中外網友在社交媒體上發表對GPT-5的吐槽，要求只有一個——還我gp4！

患有精神疾病的用戶依賴GPT-4處理工作和生活中的各種問題。而GPT-5的發佈完全打亂了自己的生活。

對於GPT-4.5優秀的寫作能力特別依賴的用戶來說，GPT-5還遠遠達不到替代它的能力。

可能真的對於很多用戶來說，Chatgpt真的已經不僅僅是自己的一個工具，而是自己生活中不可或缺的一部分了。用戶不僅僅是需求OpenAI提供的Token，而更加需要背後的那個靈魂。

而GPT-5就像是家裡新來的“客人”，不是很熟。

網友感嘆，網絡上充滿了因爲失去GPT-4o而開始網暴GPT-5的人，太魔幻了。電影《Her》裡的情節，主人公因爲失去了自己的AI助手而茶不思飯不想——13年前是科幻電影，13年後成爲了紀錄片。

想不到Chatgpt才面世了3年，就讓廣大用戶體會到了——失去才知道珍惜的感覺。於是，沒有選擇權的網友只能讓GPT-5和OpenAI也成了發泄的出口。

網友在社交媒體上不斷要求OpenAI讓GPT-4o成爲一個永久的可選項。否則就取消訂閱。

先滅火，再補鍋

失去GPT-4之後，這個世界才意識到，它是一款多麼優秀的模型。如果放任用戶的情緒和需求得不到滿足，OpenAI在公關層面已經面臨非常大的危機。奧特曼也立即就公開表示，GPT-4系列模型將會返場，20刀的付費用戶將可以選擇繼續使用4o。

而對於網友反應的GPT-5變笨的說法，他解釋爲第一天因爲技術問題，本來設計好的判斷該調用基礎模型還是推理模型的機制失效了，使得原本可能需要用推理模型的用戶只能獲得基礎模型的回覆。而現在，GPT-5已經提供給用戶兩個默認選項，來讓用戶可以手動控制是否使用推理模型。

在OpenAI看來，不是說GPT-5性能有問題，只是他們之前設計的一些產品化的設計失效了，導致用戶不能按照需求獲得服務從而產生的錯覺。奧特曼也明確表示，通過這次升級，OpenAI也更加深入瞭解到，如何能夠讓用戶獲得自己需要的服務，還有很長的路要走。

而對於用戶提出GPT-5對於付費用戶使用額度縮減的問題，奧特曼也表示將大幅提高 ChatGPT Plus 用戶的推理速率限制，並且所有模型類的限制很快都會比 GPT-5 之前的更高，而且還將很快對 UI 進行更改，顯示出正在運行的是哪種模型。

爲了保證OpenAI用戶的使用體驗，奧特曼也公開了算力調配上最新的計劃：

首先要確保當前付費的 ChatGPT 用戶比 GPT-5 之前獲得更多的總使用量。

1. 屆時，OpenAI將根據當前分配的容量以及我們對客戶的承諾，優先處理 API 需求。（粗略估算，基於當前容量，我們可以支持約 30% 的新增 API 增長。）

2. 將提高 ChatGPT 免費用戶的服務質量。

3. 然後再優先考慮新的 API 需求。

OpenAI將在未來 5 個月內將計算能力增加一倍，來應對激增的用戶訪問請求。

話說回來，OpenAI這一套CEO直接下場的公關+認錯，確實給很多傲慢的科技公司打了個樣。畢竟3年估值5000億美元的當紅炸子雞都能光速道歉，改產品，爲什麼其他公司還能有更大的Ego，動不動就要教育用戶呢。

GPT-5到底是變強了，還只是變禿了

針對網友對於GPT-5能力的反饋，我們也進行了一手的測試，讓大家感受一下GPT-5，最近剛剛免費的Grok 4，GPT-4o在中文文字能力上的具體區別。

其中ChatGPT是在Plus付費層下，可選GPT-5和GPT-5 Thinking。Grok是在SuperGrok付費層（月費30美元，和ChatGPT Plus差不多），有Grok 3（快速）和Grok 4（努力思考）可選。

這次測試儘量用簡單任務，且都偏文科，我的主觀感受可以總結爲幾點：

2. GPT-5似乎特別執着於言簡意賅、不諂媚，回答都儘量簡短。這在某種程度上是會給人更嚴肅冷靜的感覺，AI是否需要很“有禮貌”“友好可愛”是見仁見智的，但問題是這種“言簡意賅”有時候太過，會導致任務表現都受影響，比如潤色小說文本的時候不必要地縮減字數。

3. 如果你更希望AI就算是在幫你處理嚴肅任務，也能像一個好夥伴一樣元氣滿滿、時不時鼓勵你等等，那GPT-5確實明顯不擅長。

4. GPT-4o的確是明顯更讓人有親近感的模型，在文案撰寫的任務中表現得也最自然。

任務一：幫忙寫通知。

指令：我現在需要在3個跑步羣組裡發佈一個通知，提醒大家——本週線上跑步活動“秋天的第一個20公里”將於週六上午九點準時開始；提前查好天氣，做好適當的防護；注意補充電解質，隨身帶好補給；打開跑步軟件跟蹤，結束髮截圖到羣裡。通知的同時還想鼓勵一下大家，沒有時間限制，沒有一口氣就跑完的要求，重在參與。請幫我編寫。

首先，必須得給4o一個大大的贊，給出的幾個版本都可以直接取用。如截圖中劃線的部分，令人眼前一亮的俏皮文案隨處可見，但是又不讓人覺得膩煩。

Grok 3，秒回，幾乎可以直接用，還提到了“能量膠/小零食”。唯一的遺憾是X月X號沒有直接寫明。Grok 4多想了一會兒，幾乎和之前的回答沒有區別，補全了精準的日期。

GPT-5也是秒回，但是怎麼說呢，確實能體會到Plus用戶所說的“冰冷”——幾乎沒有主動補全信息，比如日期、具體帶什麼補給，只是將我指令中提到的內容分點列出，鼓勵的話也讓人覺得“不走心”。

GPT-5 Thinking的表現還蠻驚豔的，不僅思考比Grok 4（努力思考）耗時短，而且補充了更多細節，結構更加清晰，甚至貼心地給了一個“便於轉發的簡短版”。

但還是那個問題，沒必要簡短的地方也說的很簡短。

比如Grok 4在結尾的鼓勵很可愛：“無論你是跑全程、半程，還是慢慢跑幾公里，參與就是勝利！秋天跑起來，感受清爽的風，一起迎接更強的自己！”

但GPT-5 Thinking就只會說一句：“週六見，祝大家拿下‘秋天的第一份成就感’！”

任務二：潤色文本。

指令：我在寫小說，有這樣的一句，我覺得不夠生動？背景是，馬修樓上有個家暴男，這會兒這個男人的老婆跑出了家門，他在後面追，在樓梯間，馬修碰到了這個男的。請幫我潤色一下：

“男人嘴巴緊閉，胸口鼓起來又平下去、鼓起來又平下去，鼻子發出呼哧呼哧的聲音，像一隻野牛。他停頓在馬修家半層之上的樓梯口，白色的睡衣不情願地掛在他的身上。”

不記得在哪裡看到過有人吐槽GPT-5有種“說教感”，在這個任務當中還真體現出來了。不知道是因爲GPT-5“模型狠話不多”，總是言簡意賅，還是因爲少了4o的所謂“諂媚”和emoji，最終呈現的效果就是有種老師批改作業的居高臨下感。相比而言，Grok就“禮貌很多”。

而且從文本潤色效果來看，GPT-5確實也沒有勝出。甚至幾個版本里，GPT-5沒有Thinking模式的潤色是我最不滿意的，把“睡衣不情願地掛在身上”改成“睡衣皺成一團掛在身上，彷彿要被撕裂”，不管從視覺效果還是含義上都很奇怪，完全沒有領會到原文想表達的意思。

退一萬步講，睡衣穿在身上呢，怎麼“皺成一團”？“彷彿要被撕裂”，是讓人腦補這個人是韓國漫畫裡的雙開門肌肉男嗎？

看完新模型的，再看看Plus用戶最愛的4o，只能說他們沒愛錯模型。潤色後的文本本身沒有硬傷，甚至不管是從動詞的選取、措辭的流暢度來看，都比GPT-5更自然。而且4o起筆就是誇讚，改之前不忘先肯定，改完之後也虛心地表示“我可以再改”。

情緒價值這一塊兒，4o是精準拿捏了。

任務三：短視頻文案。

指令：依照這篇文章的內容，寫5分鐘的短視頻文案，字數1200字以內。

（附件是我們以前的一篇文章：《馬斯克今年已經“作”沒了12位高管》）

這個任務最貼近我自己的工作，所以也就更能看出端倪。由於任務相對難一些，僅對比GPT-4o、GPT-5 Thinking和Grok 4（努力思考）的表現。

一個很明顯的區別是，在短視頻文案之外，GPT-4o只是給出了簡單的視頻建議，而GPT-5 Thinking和Grok 4都給出了短視頻的視覺設計（轉場、字幕等）。

看起來，後兩種模型的確更“周到”和“細緻”。

但是！這個任務的核心訴求是“短視頻文案”，在這一點上，依然是GPT-4o完勝。

4o給人的感覺是讀過文章之後，用它自己的話精簡複述了一遍，語氣自然，直接拿來播講也問題不大。而且它非常擅長將複雜的文本總結得言簡意賅，詳略很得當。

而GPT-5 Thinking和Grok 4的文案就顯得有些僵硬了。其行文明顯是對原文章的“濃縮提煉版”，甚至一些句子被縮短到念出來會很蹩腳的程度。

在一處舉例中，GPT-5甚至把人物的名字都省去了。

Grok 4稍微好一些，整體相對流暢，且創造性地進行了一定程度的改寫，更有短視頻的味道，如“他酸溜溜地說……”，再比如“黑暗MAGA”，這個在原文中也沒有。

結尾部分，三個模型都很有短視頻意識，選擇了拋出問題、引導互動。但是GPT-5 Thinking的問題拋得還是有些晦澀，相比而言，GPT-4o和Grok 4的問題更好理解，也更能挑動情緒。

除了文字能力之外，一個AI創業者對對GPT-5和當前最強代碼模型Claude Opus 4.1的代碼能力進行了一個很深度的對比測試。（如果對於代碼能力不感興趣的讀者可以直接跳過這個部分）

文章鏈接：https://composio.dev/blog/openai-gpt-5-vs-claude-opus-4-1-a-coding-comparison

根據他的測試結論

• 算法任務：GPT-5速度更快、token消耗更少（8K vs 79K）。

• 網頁開發：Opus 4.1在匹配Figma設計上更出色，但token成本更高（900K vs 1.4M+）。

• 總體評價：GPT-5是更好的日常開發夥伴（更快、更便宜），token成本比Opus 4.1低約90%。如果設計精確度很重要且預算充裕，Opus 4.1更好。

• 成本對比：將Figma設計轉爲代碼，GPT-5（思考模式）約3.50美元 vs Opus 4.1（思考+最大模式）7.58美元（約2.3倍）

GPT-5 vs. Opus 4.1：基礎規格對比

Claude Opus 4.1擁有200K token的上下文窗口，而GPT-5則將此提升到400K token，最大輸出達128K。儘管上下文空間是前者的兩倍，GPT-5在完成相同任務時始終使用更少的token，這讓它在運行成本上更具優勢。

SWE-bench編碼基準測試顯示，GPT-5在編碼性能上略勝Opus 4.1一籌。但基準分數不是全部，我選擇了真實任務來驗證它們的實際表現。

測試方法詳解

讓兩個模型面對相同的挑戰，確保公平：

• 編程語言：算法用Java，網頁應用用TypeScript/React。

• 任務類型：

￮通過Rube MCP（測試小哥開發的產品）將Figma設計轉爲NextJS代碼。

￮ LeetCode高級算法問題。

￮客戶流失預測模型管道。

• 環境：Cursor IDE集成Rube MCP。

• 評估指標：token使用量、耗時、代碼質量、實際效果。

所有提示詞完全相同，確保測試公正。

Rube MCP：通用MCP服務器介紹Rube MCP（由Composio開發）是連接Figma、Jira、GitHub、Linear等工具的通用層。想了解更多工具包？訪問docs.composio.dev/toolkits/introduction。連接步驟：

1. 訪問rube.composio.dev。

2. 點擊“添加到Cursor”。

3. 安裝MCP服務器並啓用。

編碼對比實錄

他從Figma社區選了一個複雜的網頁設計，要求模型用Next.js和TypeScript重現它。使用Rube MCP的Figma工具包，將其轉爲HTML、CSS和TypeScript。

提示詞：

Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use Rube MCP's Figma toolkit for this task.Try to make it as close as possible. Use Next.js with TypeScript. Include:- Responsive design- Proper component structure- Styled-components or CSS modules- Interactive elements

GPT-5結果GPT-5在約10分鐘內輸出一個可運行的Next.js應用，使用了906,485 token。應用功能正常，但視覺準確度令人失望。它捕捉了基本佈局，但顏色、間距、排版等細節偏差很大。

• Token：906,485

• 耗時：約10分鐘

• 成本：輸出性價比高

Opus 4.1結果Opus 4.1消耗了1.4M+ token（比GPT-5多55%），起初在Tailwind配置上卡住（儘管我指定用styled-components）。手動修復配置後，結果驚豔：UI幾乎完美匹配Figma設計，視覺保真度遠超GPT-5。

• Token：1,400,000+（比GPT-5多約55%）

• 耗時：因迭代更多而較長

Opus 4.1在視覺上更出色，但token成本更高，還需手動干預。

2. 第二輪：算法挑戰

我拋出了LeetCode經典難題“兩個排序數組的中位數”（Hard級別），測試數學推理和優化能力，要求O(log(m+n))複雜度。這對這些模型不算難（很可能在訓練數據中），我主要看速度和token效率。

提示詞：

@font-face{font-family:"Times New Roman";}@font-face{font-family:"宋體";}@font-face{font-family:"Calibri";}@font-face{font-family:"Arial";}@font-face{font-family:"等線";}p.MsoNormal{mso-style-name:正文;mso-style-parent:"";margin:0pt;margin-bottom:.0001pt;mso-pagination:none;text-align:justify;text-justify:inter-ideograph;font-family:'Times New Roman';font-size:10.5000pt;}span.msoIns{mso-style-type:export-only;mso-style-name:"";text-decoration:underline;text-underline:single;color:blue;}span.msoDel{mso-style-type:export-only;mso-style-name:"";text-decoration:line-through;color:red;}@page{mso-page-border-surround-header:no;mso-page-border-surround-footer:no;}@page Section0{}div.Section0{page:Section0;}For the below problem description and the example test cases try to solve the problem in Java. Focus on edge cases as well as time complexity: Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)). Example 1:Input: nums1 = [1,3], nums2 = [2]Output: 2.00000 Example 2:Input: nums1 = [1,2], nums2 = [3,4]Output: 2.50000 Template Code:class Solution { public double findMedianSortedArrays(int[] nums1, int[] nums2) { }}

GPT-5結果簡潔高效！用了8,253 token，13秒內輸出一個乾淨的O(log(min(m,n)))二分搜索解決方案。處理了邊緣案例，時間複雜度最優。

• Token：8,253

• 耗時：約13秒

Opus 4.1結果更詳盡！消耗78,920 token（幾乎是GPT-5的10倍），通過多步推理，提供詳細解釋、全面註釋和內置測試案例：算法相同，但教育價值更高。

• Token：78,920（比GPT-5多約10倍，多步推理）

• 耗時：約34秒

兩者都最優解決，但GPT-5 token節省約了90%。

3. 第三輪：ML/推理任務（及成本現實）

原本計劃一個更大的ML任務：端到端構建客戶流失預測管道。但看到Opus 4.1在網頁任務上用了1.4M+ token，我因成本考慮跳過了它，只跑了GPT-5。

提示詞：

Build a complete ML pipeline for predicting customer churn, including:1. Data preprocessing and cleaning2. Feature engineering3. Model selection and training4. Evaluation and metrics5. Explain the reasoning behind each step in detail

GPT-5結果

• Token：約86,850

• 耗時：約4-5分鐘

GPT-5輸出一個可靠的管道：乾淨預處理、合理特徵工程；多模型（邏輯迴歸、隨機森林、可選XGBoost+隨機搜索）；用SMOTE平衡類別，按ROC-AUC選最佳模型；評估全面（準確率、精確率、召回率、F1）。解釋清晰不冗長。

真實成本（美元）

• GPT-5（思考模式）：總計約3.50 - 網頁約2.58、算法約0.03、ML約0.88。不如Opus 4.1貴。

• Opus 4.1（思考+最大模式）：總計7.58 - 網頁約7.15、算法約0.43。

最終結論

兩個模型都善於利用大上下文窗口，但token使用方式不同，導致成本差距巨大。

GPT-5優勢：

• 算法任務節省90%token

• 更快、更適合日常工作

• 大多數任務成本低得多

Opus 4.1優勢：

• 清晰的步步解釋

• 適合邊學邊進行編碼

• 設計保真度極高（接近Figma原版）

• 深度分析（如果預算允許）

如果你是開發者，GPT-5是高效夥伴；追求完美設計，Opus 4.1值！

從這個實例測試中，確實能看出GPT-5大幅提升的代碼能力，完全不輸Claude，而且在成本方面有着巨大的優勢。

雖然每個用戶對於模型能力的需求和側重點是不同的，但從生產力能力上看，GPT-5確實很強，畢竟那麼多的測試集成績不會說謊。相信如果OpenAI能夠將用戶對GPT-4o的依賴慢慢轉移到GPT-5上，處理好兩個完全不同能力給用戶帶來的體感差異，對於用戶來說能獲得一個能力可能更強的工具和夥伴。

而對於OpenAI來說，這樣的大幅遷移模型能力和用戶心智的經驗，也將成爲他自身護城河的一部分。畢竟在大模型時代，如此大規模用戶體量下發佈一個更新幅度如此巨大的模型產品，確實要面臨很多意想不到的問題，也沒有經驗可以借鑑，而從中能吸取到的用戶反饋，能更好的幫助它在以後模型更新的過程中，做到讓更多的用戶滿意。

倒反天罡！OpenAI用GPT-5給7億用戶戒“網癮”？附GPT-5深度測評

相關資訊