蘋果掀桌,炮轟大模型"不會思考",是真急了還是真懂了?

6月12日消息,人工智能光鮮亮麗的外表令世人目眩神迷,大語言模型生成的對答文采斐然,看似與人類思維無異。然而在光鮮的外表之下,蘋果公司的最新研究清晰揭示出這樣一個令人不安的現實:雄辯不等於智慧,模仿也絕非理解。

蘋果公司這項新研究題爲《思考的幻覺》(The Illusion of Thinking),在人工智能學界掀起軒然大波。研究表明,即便是最頂尖的推理模型本質上也缺乏真正的認知能力。這一發現,印證了Facebook母公司Meta首席AI科學家楊立昆(Yann LeCun)等知名學者多年來所堅持的觀點:當前人工智能系統只是精密的“模式匹配機器”,而非能夠思考的實體。

人工智能的巨大幻象

蘋果研究團隊的研究過程具備系統性,結果則具備顛覆性。他們創建了可控的解謎環境,在保持邏輯一致性的前提下,能精確調整任務複雜度,從而揭示出大型推理模型(LRM)在三種不同難度下的表現。

研究發現,標準模型在低複雜度任務中的表現竟優於那些本應更強大的推理模型。而在中等複雜度任務中, 額外的“思考”過程帶來的效果增量微乎其微。在面對高複雜度任務時,兩種模型都徹底“癱瘓”。

更引人注目的是研究人員觀察到的反直覺“規模效應”。按理說真正的智能在面對更復雜的問題時,能力應該會隨之提升,但這些模型反而呈現出一種怪異模式:即便算力充足,其推理“努力程度”在達到某個臨界點後仍會急劇下降。這表明模型根本沒有真正進行推理;它們只是在沿用已習得的模式,一旦遇到新穎挑戰便不知從何下手。

這項研究暴露出當前模型在精確計算方面的根本侷限:它們無法運用明確算法,並且在面對類似謎題時推理邏輯不一致。當那層華麗的語言外衣被剝去,剩下的不過是精緻卻空洞的思維模仿。

專家看法

蘋果的這一研究結果讓專家們開始質疑當前人工智能能力的深度以及該領域未來的發展路徑。IBM技術內容經理阿什·米尼亞斯(Ash Minhas)表示:“這篇論文從根本上證明了大型語言模型無法進行推理。它們只是在進行模式匹配。”他補充說,這項研究的結果凸顯出“弱人工智能”與“通用人工智能”之間的區別,明確了當前大語言模型是弱人工智能。

OpenAI前董事會成員、喬治城大學安全與新興技術中心戰略總監海倫·託納(Helen Toner)最近在美國參議院司法小組委員會作證時就表示:“據我所知,公衆和圈內人士對人工智能的最大落差主要來自少數幾家致力於開發’通用人工智能’的公司內部。”她說,像OpenAI、谷歌和Anthropic等頂尖人工智能公司正將構建通用人工智能視爲“完全嚴肅的目標”。

有不少專家認爲,通用人工智能遠未成爲現實。正如米尼亞斯所言,“這篇論文強調我們仍處於弱人工智能階段,離通用人工智能還很遠。”

“僅靠Transformer架構不足以實現推理,”米尼亞斯總結道,“要獲得真正的推理能力,模型架構必須迎來新的突破。”

美國學者加里·馬庫斯(Gary Marcus)一直是人工智能模型能力的主要審慎派代表,他形容蘋果的研究“相當具有顛覆性”。

馬庫斯在個人專欄中補充道,這些發現對當前競相開發通用人工智能提出了疑問。在談及支撐着ChatGPT等工具的大語言模型時,馬庫斯寫道:“任何人如果認爲大語言模型是通往那種能夠從根本上改善社會的通用人工智能的直接路徑,那都是在自欺欺人。”

英國薩里大學以人爲本人工智能研究所的安德魯·羅戈伊斯基(Andrew Rogoyski)表示,蘋果論文標誌着整個行業在通用人工智能領域“仍在摸索前行”,並且當前方法可能已經走入一條“死衚衕”。

他說:“研究發現大型推理模型在複雜問題上會‘失去方向’,而在中低複雜度問題上表現良好,這意味着我們當前所採用的方法可能陷入了一個潛在的僵局。”

這些發現也與楊立昆等頂尖專家多年來發出的警告不謀而合。楊立昆一直堅稱,五年內現有的語言模型基本上都會被淘汰,這並非因爲有了更好的版本,而是因爲這條實現路徑存在根本缺陷。

但也有人質疑蘋果的研究結果和動機。科技類諮詢資深撰稿人克里斯·史密斯(Chris Smith)就認爲蘋果明顯有“吃不到葡萄說葡萄酸”的意味。史密斯說,畢竟“蘋果智能”遠落後於ChatGPT、Gemini以及其他主流人工智能模型,推理模型方面更是毫無建樹。Siri甚至連現在是幾月份都說不清楚。

史密斯表示,這項研究發佈的時間點也令人質疑。當時蘋果即將舉辦2025年全球開發者大會,而人工智能並非會上主要焦點。蘋果在已經發布商業推理模型的OpenAI、谷歌以及其他人工智能公司面前,仍然處於落後地位。而在大會前夕看到蘋果貶低推理模型,確實感覺有些奇怪。

史密斯還認爲,這項研究的發現很重要,相信其他人會嘗試驗證或挑戰這些發現。甚至有些人可能會利用這些見解來改進自己的推理模型。他說,自己作爲一名ChatGPT用戶,即使推理模型無法真正思考,也不會放棄使用。譬如ChatGPT o3雖然會犯錯,也會出現幻覺,但它的“推理”能力仍然感覺比基礎大語言模型更強。

基準測試亟待改進

蘋果論文也強調了人工智能行業需要更可靠的基準測試。米尼亞斯認爲,當前的基準測試問題存在缺陷,因爲模型可以通過模式匹配而非真正的推理來解決它們。他說:“如果基準測試是基於真正的推理,或者推理問題更復雜,那麼所有模型的表現都會很糟糕。”

米尼亞斯說,蘋果研究人員爲此構建了一個合成數據集,將符號打亂排列後得到用於訓練和測試模型的專項數據集。

“他們已經證明,一旦在輸入序列中對符號本身或額外語境進行調整,模型性能就會明顯下降,”他解釋道。

蘋果研究方法包括在訓練集中引入各種“干擾信息”和附加條款,用以觀察模型性能如何變化。然而,IBM數據科學家傑斯·博佐格(Jess Bozorg)指出這種研究也有侷限性:“他們沒有具體說明在添加內容時考慮了多少種干擾信息,也沒有具體說明他們使用了哪些干擾信息。”

人性的相似之處:更偏愛自信的“雄辯者”

或許最令人不安的是,蘋果研究指出的人工智能侷限性與人類根深蒂固的認知偏見何其相似。正如容易被人工智能的雄辯所矇蔽一樣,我們也一貫高估一個人的自信和外向性格,常常誤將伶牙俐齒等同於思維深刻。

“過度自信偏見”是人類判斷中最常見的缺陷之一,個人對自身能力的主觀自信遠遠超過客觀準確性。這種偏見在社交和職場環境中尤爲明顯,那些自信外向的人往往能獲得不成比例的關注和信任。

研究反覆表明,人類傾向於將自信等同於能力、音量等同於價值、能言善辯等同於大智大慧。人工智能雄辯之下的空洞,與偏愛自信溝通的人性偏見之間的相似性深刻揭示出“智能”的本質。這兩種現象都表明,我們是多麼容易將“理解”的表象與實質混爲一談;也表明精湛的溝通技巧如何能掩蓋推理與理解上的根本缺陷。

蘋果公司的研究發現與關於人類偏見的心理學研究在此交匯,爲我們如何駕馭這個日益複雜的世界提供了寶貴啓示。無論是評估人工智能系統還是人類同行,我們都必須學會區分“表現”與“能力”,“雄辯”與“理解”。

這需要一種理智上的謙遜,認識到真正的大智慧常常伴隨着恰如其分的不確定性;認識到最響亮最自信的未必是最可信的;認識到細緻觀察和檢驗完全可以將真正理解與精巧模仿區分開來。(辰辰)