GPT爲啥不能像人類一樣思考?背後真相是……
人工智能(AI),特別是像GPT - 4這樣的大型語言模型,在推理任務上表現得很厲害。但是人工智能真的理解抽象概念,還是僅僅在模仿模式呢?阿姆斯特丹大學和聖菲研究所的一項新研究表明,雖然GPT模型在一些類比任務上表現良好,但當問題發生變化時就會表現欠佳,這就把人工智能推理能力的關鍵弱點暴露出來了。這項研究發表在《機器學習研究彙刊》(Transactions on Machine Learning Research)上。
類比推理是基於兩個不同事物在某些方面的相似性進行比較的能力。這是人類試圖理解世界和做出決策的最常見方法之一。類比推理的一個例子:杯子之於咖啡就像湯之於???(答案是:碗)
像GPT - 4這樣的大型語言模型在各種測試中表現良好,包括那些需要類比推理的測試。但是人工智能模型真的能進行一般性的、可靠的推理,還是過度依賴其訓練數據中的模式呢?語言和人工智能專家瑪莎·劉易斯(阿姆斯特丹大學邏輯、語言與計算研究所)和梅蘭妮·米切爾(聖菲研究所)進行的這項研究檢驗了GPT模型在進行類比時是否像人類一樣靈活和穩健。
劉易斯解釋說:“這一點至關重要,因爲人工智能在現實世界中越來越多地被用於決策和解決問題。”
劉易斯(Lewis)和米切爾(Mitchell)比較了人類和GPT模型在三種不同類型類比問題上的表現:
一個真正理解類比的系統即使在變體上也應保持高性能
除了測試GPT模型能否解決原始問題,該研究還檢驗了問題被巧妙修改時它們的表現。作者在他們的文章中指出:“一個真正理解類比的系統即使在這些變體上也應保持高性能。”
人類在大多數問題的修改版本上都能保持高性能,但GPT模型雖然在標準類比問題上表現良好,卻在變體問題上表現欠佳。劉易斯解釋說:“這表明人工智能模型的推理往往不如人類靈活,它們的推理較少涉及真正的抽象理解,更多的是模式匹配。”
在數字矩陣裡,缺失數字的位置一變,GPT模型的性能就顯著下降,人類卻不會被難住。在故事類比中,GPT - 4往往更傾向於把給定的第一個答案當作正確答案,人類卻不受答案順序的影響。此外,故事的關鍵元素被重新表述時,GPT - 4比人類更費勁,這表明它依賴於表面的相似性,而不是更深層次的因果推理。
在更簡單的類比任務裡,測試GPT模型的修改版本時,其性能會下降,人類卻能保持穩定。不過,更復雜的類比推理任務,人類和人工智能都會覺得困難。
這項研究對一種廣泛存在的假設提出了挑戰,即像GPT - 4這樣的人工智能模型能夠以與人類相同的方式進行推理。劉易斯和米切爾總結道:“雖然人工智能模型展現出令人驚歎的能力,但這並不意味着它們真正理解自己在做什麼。它們跨不同情況進行歸納的能力仍然明顯弱於人類認知。GPT模型往往依賴表面模式而非深度理解。”
這是在教育、法律和醫療保健等重要決策領域使用人工智能時的一個重要警示。人工智能可以是一個強大的工具,但它還不能替代人類的思考和推理。