中青報刊文:大模型成爲“考試明星” 意味着什麼

得益於深度思考和多模態能力的提升,大模型面對未經訓練的全新題目測試,已經達到人類優秀考生的水平。

AI大模型豆包嘗試着做了今年的山東高考卷,得了690分左右,排名在前80位左右,甚至有望考上清華、北大。這只不過是大模型成爲“考試明星”的最新一例。根據多份報告,人工智能系統已展現出通過大學入學考試及其他學術評估的能力。例如,ChatGPT通過了美國法學院和商學院的考試;同時,GPT-4模型能夠通過大多數STEM學科的評估,並在回答問題時實現高準確率。

人工智能通過這些考試的能力,引發了對教育的未來以及如何更好地培養學生掌握那些仍具有人類特質的技能的思考。

大模型的考試成績意味着什麼

首先,這可以理解爲規模化的模式識別的成功。大模型在識別和再現語言、推理和問題解決方面表現卓越。縱觀大模型通過的考試,通常結構清晰,格式固定,答案可以通過文本線索得出——而這正是大模型接受訓練的強項。

其次,大模型擁有廣泛的訓練數據來源,這使得它容易在考試中脫穎而出。許多考試題目與教材、輔導材料或歷年試題中的內容高度相似,可能出現在模型的訓練語料中,或在結構上與之類似。

再次,大模型實現了任務無關的通用性。通過這些考試的能力表明,大模型是通用型語言處理器——它們無須重新訓練就能在法律、醫學、STEM等領域間切換,這在系統設計層面非常了不起。

儘管成就不俗,我們也不必誇大大模型對人類考生的威脅。因爲,考過並不等於“理解”,大模型的“成功”多是統計上的匹配,而非概念性的掌握——它們並不“知道”答案爲何正確。

大模型還缺乏真實的推理基礎。如USMLE(美國醫生執照考試)默認考生具備現實世界的經驗積累和倫理判斷能力。大模型即使答對了題,也缺乏具身認知或臨牀直覺。

我們還需認識到,大模型不存在原生的學習過程。它們並不會像人類那樣通過學習獲得知識——機器人不會因誤解而苦惱,也不會主動反思,更不會隨着時間內化意義。

多元智能理論與大模型的考試表現

教育心理學家霍華德·加德納認爲,智力是多元的,不能僅用傳統智商或考試成績來衡量。根據加德納的智能類型,我們會發現,大模型的能力展現參差不齊:

在語言智能,即使用語言進行閱讀、寫作方面,大模型表現優秀。

在邏輯-數學智能,即抽象推理、問題解決、模式識別能力方面,大模型表現良好,對於數學題、邏輯題等結構化問題的解答能力十分強勁,儘管在複雜推理中仍有不穩定性。

在視覺-空間智能,即在頭腦當中想象和操控物體的能力方面,大模型功能有限:純文本模型本身不具備視覺-空間推理能力,多模態模型(擁有視覺能力)正試圖在一定程度上對此加以改善。

在身體-動覺智能,即控制身體動作、保持身體協調能力方面,非常遺憾,大模型付之闕如——它本身沒有身體,也無法展開物理體驗或動作。

在音樂-節奏智能,即對音高、節奏、旋律的敏感度和創作能力方面,大模型可以模仿歌曲或分析音樂理論,但缺乏真正的聽覺體驗與音樂直覺。

在人際智能,即理解他人情感、動機、關係的能力方面,大模型能模擬同理心,但沒有真正的社會意識、情感或動機。

在自我認知智能,即自我覺察、情緒反思和自我理解的能力方面,大模型沒有自我,並不像某些人聲稱的那樣獲得了自我意識、目標或主觀經驗。

最後,在自然觀察智能,即識別自然界模式、給出生物分類的能力方面,大模型可以檢索事實,但缺乏對自然環境的直觀感知與互動能力。

經由這些對比,我們可以發現,大模型在語言和邏輯智能方面表現卓越,但加德納強調具身性、情感性和經驗性的廣泛智能,這是大模型在結構上無法勝任的。

另一方面,從模擬與體驗的關係來看,大模型可以模擬某些智能(如共情或音樂創作),但缺乏真實的經驗基礎,而加德納的智能理論強調智力的發展與現實世界的互動密不可分。

教育上的反思:過度依賴大模型的害處

從教育評估的角度看,人工智能不斷提升的考試能力,引發了對學術誠信和潛在濫用的擔憂,促使教育工作者不得不重新思考傳統評估方法。

不過,我們也可以看到,儘管人工智能可以通過識別模式並生成正確答案來通過考試,卻並不一定意味着其對考試內容的理解與人類相同。人工智能在語言處理以及需要“常識”或主觀解讀的問題上仍面臨挑戰。今天,我們可以心存僥倖的是,人工智能還難以應對需要深入理解、批判性思維或個人反思的複雜或微妙問題。

這表明,理解意義是人類獨有的能力,而目前的人工智能系統仍缺乏這種能力。“高考出色”的機器人其實與一些學生非常相似,他們吸收知識,然後照本宣科,根本不理解其中的含義。所以,機器人超越這類學生毫不足奇。

多元智能理論主張因材施教、發展多種能力。如果學校在教育中過度依賴大模型完成寫作或數學等任務,可能會忽視身體性、人際交往和情感成長這些對人類發展至關重要的領域。

所以,必須思考一種新型的教育。如果大模型都能通過爲人類設計的考試,教育工作者就迫切需要重新思考考試的目標——不應只評估機械記憶或格式化的解題能力,還應涵蓋創造力、判斷力與情感智能。

與其驚歎於高級的人工智能水平,不如說“機器人考生”揭示了考試本身的結構與侷限性。我們的確打造了強大的工具,但它們終究只是工具。這些模型可以成爲強大的教學助手,但若將它們完全替代醫學、法律等領域的專業人員,可能帶來倫理和安全隱患。

大模型能通過各種考試,是工程複雜性的里程碑,但並不是與人類認知能力等價的標誌。人類未來將如何與人工智能共存,是我們必須基於確鑿證據認真思考的問題。同時,我們要儘快思考,因爲時間不多了。

(作者系北京大學新聞與傳播學院教授)

(來源:中國青年報)