OpenAI發佈全新GPT-5 外媒:進步顯著,但離取代人還很遠

8月8日消息,週四,美國人工智能企業OpenAI正式推出備受期待的全新AI模型GPT-5,旨在通過更強大的性能,保持其在激烈競爭中的行業領先地位。

GPT-5於當天的直播活動中正式亮相,其在編程、創意寫作以及複雜問題推理等方面的能力均有顯著提升。OpenAI首席執行官薩姆·奧特曼(Sam Altman)在本週早些時候的記者吹風會上,稱其爲公司現有模型的一次“重大升級”,並表示GPT-5首次“真正讓人感覺是在與各領域專家直接對話”。

從週四起,OpenAI將向所有用戶開放GPT-5。付費客戶將享有更高使用額度,Pro會員可訪問GPT-5 Pro版本,免費用戶在配額用盡後將被切換至GPT-5 mini模型。教育和企業客戶預計下週獲得訪問權限。

近三年前,OpenAI發佈的聊天機器人ChatGPT(當時由GPT-3.5驅動)引爆了生成式AI熱潮。此後,OpenAI陸續推出了一系列日益複雜的系統,包括可模擬人類推理過程的模型,以及幾乎無需人工干預、可代替用戶執行任務的AI智能體。

今年以來,圍繞GPT-5的猜測甚囂塵上,其中部分信息源自奧特曼本人的“推波助瀾”。 今年4月,他曾表示GPT-5將“比公司最初預期好得多”,近期更直言新模型的能力“讓他本人都感到壓力”。奧特曼回憶:“我收到一封郵件,問題我沒太看懂,於是將其輸入GPT-5,結果它給出了完美答案。那一刻,與AI相比,我感覺自己毫無用處。”

OpenAI的ChatGPT團隊負責人尼克·特利(Nick Turley)表示,新模型響應速度更快,解答更精準,產生事實性錯誤的頻率也大幅減少。“當你和它對話時,感覺更加自然,”特利說。

作爲此次發佈的一部分,OpenAI還推出了四種預設“人格”供ChatGPT用戶選擇,以更好地定製與聊天機器人的互動。這些選項目前以“研究預覽”的形式開放,其中包括“犬儒”(Cynic)、機器人(Robot)、“傾聽者”(Listener)和“書呆子”(Nerd)。

OpenAI稱,GPT-5可自動判斷何時需要更深入思考,以及應投入多少時間,從而免去用戶在常規大模型與推理系統之間手動切換的麻煩。此機制既可優化算力資源,也能提升回答質量。

尤爲關鍵的是,OpenAI將GPT-5定位爲一款強大的編程工具。隨着越來越多科技巨頭和初創公司推出AI編程助手,“氛圍編程(vibe coding)”已成爲趨勢。奧特曼說:“‘軟件按需生成’將成爲GPT-5時代的標誌性特徵。”

在週三的現場演示中,一位研究員展示瞭如何利用GPT-5快速構建一個用於教英語使用者法語的網頁應用。在提出“美觀、高度互動”幷包含單詞卡、測驗和一個“老鼠吃奶酪”小遊戲的需求後,ChatGPT在幾分鐘內就生成了完整的軟件。

爲驗證模型能力,OpenAI邀請了多家公司作爲早期測試夥伴,其中包括熱門AI編程助手Cursor的開發商Anysphere,以及瑞典“氛圍編程”初創公司Lovable。

Lovable的聯合創始人兼CEO安東·奧西卡(Anton Osika)在接受採訪時評價稱,GPT-5在快速構建複雜應用方面表現優於其他模型。他舉例說,在構建一個內嵌聊天機器人的財務規劃應用這類複雜軟件時,開發者通常需要反覆迭代,但新模型生成的代碼更易於維護,並且在修復程序漏洞方面也表現出色。

一次審慎的飛躍:GPT-5性能亮眼,但AGI仍遙遠

路透社認爲,GPT-5有望繼續推動全球商業和文化的變革,但其發佈正值AI行業的一個關鍵時刻。報道援引經濟學作家諾亞·史密斯(Noah Smith)的觀點稱:“到目前爲止,企業的AI支出一直相當疲軟,但消費者支出則相對強勁……但僅靠消費者的支出,遠不足以支撐數據中心所投入的鉅額資金。”

《金融時報》也指出,GPT-5在數學、科學與編程方面的能力表現突出,但仍未跳脫“增量提升”的範疇,通用人工智能尚未到來。該報還提到,GPT-5在編程能力基準測試SWE-bench Verified上的得分,略微超過了該領域的領先者Anthropic的最新模型。不過,馬斯克旗下xAI公司於上月推出的Grok 4 Heavy模型,在一些評估推理和知識能力的測試中仍優於GPT-5。

儘管新模型在編碼和科學問題解決能力上表現亮眼,但部分早期測試用戶認爲,此次從GPT-4到GPT-5的性能飛躍,並未達到公司前幾次產品迭代時的顛覆性程度,且遠未達到能完全取代人類的水平。就連奧特曼本人也承認,GPT-5仍然缺乏自主學習能力,而這正是讓AI比肩人類能力的關鍵。

科技媒體The Verge則特別指出,發佈會上演示的部分圖表存在嚴重的視覺誤導(例如橫軸比例失真),引發了外界對GPT-5透明度及數據準確性的質疑。奧特曼事後承認這是一個“重大圖表失誤”,並表示營銷團隊已道歉並公佈了修正後的圖表。

彭博社認爲,OpenAI發佈GPT-5,是其應對來自中美AI企業激烈競爭的最新舉措。儘管OpenAI長期領跑AI市場,但如今正面臨多方挑戰,其中不乏來自前員工和盟友的競爭。谷歌、Anthropic以及由OpenAI聯合創始人埃隆·馬斯克創辦的xAI,都已發佈了對標OpenAI的推理模型和智能體產品,並全力角逐AI輔助編程市場。與此同時,像DeepSeek這樣的中國公司也在迅速崛起。Meta更是投入巨資爲新成立的AI實驗室招募頂尖人才,甚至不惜從OpenAI直接挖走了十多名員工。

爲了保持領先優勢,目前估值高達3000億美元的OpenAI已籌集到數百億美元資金,用於支付構建和支持GPT-5等尖端模型所需的人才、芯片和數據中心費用。據報道,OpenAI還在就潛在的員工售股進行初步談判,估值約爲5000億美元。

其核心護城河依然是家喻戶曉的聊天機器人ChatGPT。作爲公司各種付費服務的“門戶產品”,ChatGPT的周活躍用戶已近7億,付費企業用戶達500萬。爲進一步擴大影響力,OpenAI本週三表示,將以每年1美元的象徵性費用向美國聯邦機構提供ChatGPT的訪問權限;本週早些時候,公司還發布了兩款免費開源模型,以應對來自DeepSeek和Meta的競爭。

美聯社指出,GPT模型的更新是衡量生成式AI發展進程的關鍵指標,備受業界關注。市場之所以對GPT-5抱有極高期望,很大程度上是因爲OpenAI長期以來都將自身的技術迭代,描繪爲一條通往通用人工智能(AGI)的必經之路。

康奈爾大學計算機科學助理教授約翰·錫克斯頓(John Thickstun)認爲,從技術層面看,GPT-5在最新基準測試中顯示出“適度但顯著的改進”,且與GPT-4相比,其架構已煥然一新,這可能爲未來的創新奠定基礎。他補充道:“我並非‘工作終結論’的信徒,也不認爲AI能解決人類的所有問題。但我堅信,OpenAI及該領域的其他參與者,在持續改進技術方面仍有巨大的探索空間,而不是僅僅滿足於對現有成果的利用。”

高德納(Gartner)分析師奇拉格·德卡特(Chirag Dekate)則給出了更爲審慎的評價:“GPT-5在技術性能方面符合預期,在任務推理和編碼方面有所提升,但在其他領域則表現平平……其在寫作質量上只是漸進式的提升。”

但分析普遍認爲,即便只是漸進式的提升,在OpenAI與競爭對手的商業博弈中也具有重要意義。(辰辰)