蘋果公司打假:DeepSeek-R1/o3/Claude都是假“思考”!

關於大型推理模型LRMs(o3-mini、DeepSeek-R1、 Claude-3.7- Sonnet),蘋果公司發表了一篇研究發現儘管這些模型具備複雜的自我反思機制,但在問題複雜性超過一定閾值後,其推理能力會完全崩潰,這揭示了當前LRMs在發展可泛化推理能力上的根本侷限性。

《思考的幻覺:通過問題複雜性的視角理解推理模型的優勢與侷限》

Apple研究人員設計了一個可控的實驗測試平臺,利用算法謎題環境來評估LRMs的推理能力。這些謎題環境允許精確控制問題複雜性,同時避免了現有基準中的數據污染問題。

四種謎題環境的示意圖。各列展示了謎題從初始狀態(頂部)經過中間狀態(中部)到目標狀態(底部)的演變過程,包括:漢諾塔(圓盤在柱子間的轉移)、跳棋(彩色棋子的位置互換)、過河問題(將實體運過河)以及積木世界(堆疊重構)。

通過調整問題規模N(如圓盤數量、棋子數量等)來控制問題複雜性,並生成25個樣本以報告每個模型的平均性能。

1、三種複雜性模式

低複雜性任務:標準LLMs的表現優於LRMs,推理模型在token效率上不如標準模型。

中等複雜性任務:LRMs開始展現出優勢,能夠生成更長的思考鏈,從而提高性能。

高複雜性任務:兩種模型的性能都完全崩潰。儘管LRMs在一定程度上延遲了性能崩潰,但最終仍無法避免。

2、推理模型的性能崩潰

性能崩潰:隨着問題複雜性的增加,所有推理模型的準確率逐漸下降,直到在特定複雜性閾值後完全崩潰。

推理努力的反直覺下降:在接近崩潰點時,儘管問題複雜性增加,模型的推理努力(以推理時的token數衡量)卻開始下降,這表明LRMs在面對高複雜性問題時存在根本的推理能力限制。

通過提取和分析模型的中間解決方案,研究了推理痕跡中的模式和特徵。

左下角和中間:在低複雜性情況下,非思考模型更準確且token效率更高。隨着複雜性的增加,推理模型表現更好,但需要更多的token。右下角:對於正確解決的情況,Claude 3.7 Thinking在低複雜性時傾向於早期找到答案,而在高複雜性時則更晚找到答案。在失敗的情況下,它通常會專注於一個早期的錯誤答案,浪費剩餘的token預算。這兩種情況都揭示了推理過程中的低效性。

複雜性依賴的推理模式:

在簡單問題中,推理模型通常能早期找到正確解決方案,但會繼續探索錯誤的替代方案(“過度思考”現象)。

在中等複雜性問題中,模型在探索了大量錯誤路徑後才找到正確解決方案。

在高複雜性問題中,模型完全無法找到正確解決方案。

精確計算的侷限性:(a)和(b)即使在提供了明確的解決方案算法的情況下,推理模型在執行邏輯步驟時仍表現出侷限性,這表明它們在驗證和執行邏輯步驟方面存在根本問題。

不同謎題類型的行爲差異:(c)和(d)例如,Claude 3.7 Sonnet模型在漢諾塔問題中可以執行多達100步的正確移動,但在過河問題中卻只能執行4步正確的移動,這可能表明模型在訓練過程中對某些問題類型的接觸較少。