當大模型成爲高考“尖子生”:靠的是什麼?
南方財經記者譚硯文 廣州報道
2025高考已經落幕,這場千萬學子的人生大考,也成了檢驗人工智能賦能教育的試金石。
“今年深度推理大模型在高考中的表現堪稱亮眼,數學成績已達到130分以上,而去年,大模型的高考數學成績普遍只能達到四五十分。”一位大型科技公司人工智能工程師說。
今年,大模型在高考中表現優異,有個別表現出色的大模型,已能在滿分60分的語文作文取得53分、總分150分的數學取得145分、滿分20分的英語作文取得19.5分,展現出強大的綜合實力。
一個大模型能成爲高考尖子生,靠的是什麼?
專家指出,大模型決戰高考,不僅僅比拼的是“題庫資源+生成式大模型能力”,人工智能技術能力維度只有足夠多、足夠廣、足夠垂直,才能真正賦能教育。
更重要的是,成爲高考尖子生並非大模型進階的終點,人工智能不僅懂考試,也懂教學,將爲教育打開新的天地。
那個在高考語文作文、數學、英語作文中全部表現突出的大模型,是誰?
6月7日高考語文結束後,“全國一卷 難”的話題迅速被推上熱搜。
但這難不住大模型。據某媒體6月7日高考語文結束當日進行的測評,訊飛星火大模型的一篇《以歌爲刃破長夜 且將熱血鑄山河》,被曾參與省級“新課標新技術背景下課堂教學探索”系列重點課題的楊小晴老師、海南省名校校本教材編者曹越老師分別打出了52分、54分的高分,名列六款國內主流大模型測評第一。
這篇文章的“叫座”之處是採用了六段式結構,並且每段都有分論點、分析和論據。比如,文章的骨幹部分分別以“個體的沉默往往是覺醒的前奏”“藝術的表達從來都是穿越荊棘的利刃”“文明的火種需要在代際傳遞中永續”牽引各段,緊扣“在逆境中堅守信念,用藝術或行動承擔家國責任”的論點,層次分明,起承有序。
評分老師給出了“結構如交響樂章,選材如歷史長卷,語言如金石擲地,是一篇兼具思辨性與感染力的考場佳作”的評價。
數學是對深度推理大模型的一場“硬核”檢驗。據某媒體6月7日高考數學結束當日進行的測評,7款國內外主流深度推理大模型中,訊飛星火表現突出,是唯二突破140分,即便在考生中也達到了“尖子生”標準。而在6月10日另一個自媒體博主進行的測評裡,訊飛星火又取得了145分。
參加考試的訊飛星火大模型是在4月20日升級,版本較早,比同場考試的DeepSeek R1早了一個月,但在模型量級更小(70b)的情況下,依然取得了141分的高分。
英語作文與語文作文有一定的相似性,考察的都是語言理解和生成能力。在某媒體的測評中,北京市十一學校一分校英語老師韓憲昌、深圳中學英語教師趙文嘉對訊飛星火的作文分別給出了20分、19分的高分,位列第一。
語文作文的六段式結構體現了訊飛星火的謀篇佈局能力,而在這篇英語作文裡,訊飛星火的作品同樣句式多樣,結構精緻。比如採用了比較巧妙的“twofold”結構,這在選詞準確但句式不夠豐富的大模型作文裡顯得獨樹一幟。
在多項測試裡,訊飛星火大模型紛紛拿下語文作文、數學、英語作文的高分,成爲高考尖子生靠的是什麼?
研究人員給出了詳細解讀。
語文和英語作文考驗的是大模型的文本生成能力,但高考作文側重的不是生成一篇文學作品,抑或一篇辦公文稿,而是在精準分析題目基礎上的作答。
在數據層面,“我們在對訊飛星火大模型進行預訓練時,會注重從海量的通用數據中有針對性地挖掘有價值的數據。”訊飛星火研發人員說。
科大訊飛紮根教育已經21年,服務了全國5萬多所中小學、1.3億師生,這些數字背後,是科大訊飛對教育的深刻理解與實踐沉澱。且科大訊飛深入各地,積累了海量區域化教育數據,能夠精準理解各地考情差異。
在算法層面,寫作文場景與生成其他文本的場景頗爲不同,更加考驗大模型的指令跟隨能力。這是因爲,在生成其他文本的過程中,用戶會不斷提問和提出要求,大模型從而得到特別具體、精確的提示(prompt);但寫作文場景下,大模型得到的只有題目要求,且審題難度極高,學生的習作則差別很大,也就是說,一個理解難度高的題目對應着數以萬計的差異化文本,這加大了大模型在訓練時進行指令跟隨的難度。
對此,“訊飛星火大模型基於‘機器思維鏈’的深厚基礎,深度融合優秀教師的實踐智慧,研發出以‘教學思維鏈’爲驅動的教育深度推理大模型。”訊飛星火研發人員說。
這就能夠理解,爲什麼在一衆大模型作文中,訊飛星火能寫出結構精妙的六段式結構。
“訓練訊飛星火大模型的優質數據裡,曾出現過這種結構的高分作文。深度思維鏈大模型理解了這樣的優質數據,並通過不斷地強化學習,學會了寫出這種結構的高分作文。”
據介紹,科大訊飛在教育行業深耕21年,深度參與中考、高考、英語四六級考試、全國普通話水平測試、全國碩士研究生統一招生考試、全國翻譯資格水平考試等重大考試服務,掌握中高考智能閱卷、口語評測、作文批改等同源技術。這也讓星火對相關教育數據的清洗更加精準,沉澱下來價值更高的數據。
“深度思考+強化學習”的技術方案,也推動大模型今年在高考數學上普遍超過130分。
但爲何訊飛星火大模型能取得140分以上的更高分?
“我們做了一些技術創新,包括算法上更加強調目標導向,即強調解題過程與答案的一致性;增加了評語模型,以提高大模型解題每一步驟的準確性,並避免用超綱解法答題;對知識點和解題思路進行了數據合成,從而提高大模型解題的泛化能力。”訊飛星火研發人員說。
值得注意的是,擅長深度思考並不必然擅長解數學題。一位數學自媒體博主對今年高考題目進行測評時發現,“一些大模型的推理思維鏈很長,而有的考題並沒有那麼複雜,所以導致它想着想着,就想歪了”。
如何將深度推理精準匹配高考答題?
訊飛星火首個推出了,基於快慢思考的統一模型訓練推理方法,充分發揮快慢思考數據相互促進作用,實現基於系統指令控制模型是否深度思考。基於問題難度的大規模多階段強化學習方法,在複雜推理、數學、代碼、語言理解等場景全面提升模型效果及泛化性;同時強化學習動態更新算法,基於樣本採樣長度動態調整強化學習更新速度,進一步提升深度思考強化學習效率及效果。
答題還建立在一些底層技術基礎上,比如OCR能力。只有更加準確地識別,才能讓大模型更加準確地理解、更加準確地思考、更加準確地答題。科大訊飛的語音、圖文識別技術則屢獲國際大賽冠軍。正是因爲在圖文識別、自然語言理解、智能評測等方面的突破,科大訊飛10年前率先在高考中參與了智能輔助評卷的探索。
當大模型能輕鬆超過絕大多數考生,成爲高考尖子生,這是否會給廣大學子帶來焦慮和不安?
其實完全不會,高考的目的是考查學生的關鍵能力和核心素養,人工智能賦能培養學生關鍵能力和核心素養的表現,遠遠超過了在高考考場上的表現。
當人工智能具備深度推理能力,人工智能賦能教育正在從提升學習成績升級到提升學業能力。一方面,人工智能實現了作業批改、學情分析、類題推送等方面的重大突破,從而幫助老師和學生更好地教與學、提升學業成績;另一方面,人工智能基於問題鏈與思維鏈進行深度推理,通過蘇格拉底式引導幫助學生真正掌握學習方法,做到因材施教。
“同學們,我現在將立方體的這一面填滿紅色,我們再一起看下這個立方體的展開圖是什麼樣的。”在棗莊市第九中學的課堂上,數學老師王寧在AI黑板上畫出一個立方體,點擊“展開”功能,立方體隨即動態展開,呈現出不同的平面圖。“這種動態的展示,不僅讓數學知識‘活’起來,讓抽象的知識變得更直觀,還能進一步激發學生的學習興趣和探索慾望。”王寧老師笑道。
目前,AI黑板所屬的訊飛智慧窗系列產品已在全國4.5萬所學校使用,覆蓋33個省級行政區、1000多個區縣。
“我們正在和七年級16班的學生們一起上課,我們在討論一件情緒商品,叫做情緒盒子,這是一種管理情緒的卡片遊戲,請問星火你是怎麼看待情緒盒子的呢?”
在合肥四十六中南校區的《改良“情緒商品”》項目化學習課堂上,王亞運老師通過星火教師助手提問,爲學生們引入“第三方視角”的看法,同時通過“分組作答”“實物展臺”“課堂討論”等互動形式,給每位同學展示自己創意的機會。
只要真正用上人工智能,就能打消畏難情緒。成都英華學校以“人人擁有教育教學‘智能體’”爲宗旨,組織開展首屆教學智能體創建比賽,鼓勵教師人人蔘與,通過訊飛星火大模型“餵養”屬於自己的學科教學智能體。
成都英華學校的周老師設計了一節英語寫作課,藉助人工智能技術引導學生經歷自主作文、自主修改、生生相互評閱後自主完善等學習過程。作文自評自改環節,AI作爲教學助手在2秒鐘內實現了對全班學生作文的檢錯和評改,完成了老師們平時2小時甚至更長時間的作文批改工作,並同步生成班級作文報告,學生的共性問題和個性問題一目瞭然。
“我們要有一桶水,才能倒出一碗水。”科大訊飛董事長劉慶峰表示,科大訊飛做教育絕非止步於解題批改的技術層面,而是要因材施教,要五育並舉,要能激發人的創造力,要心理健康全面發展。高考提分只是起點,而非終點。大模型對教育的深層變革,在於讓每個個體獲得適配的學習方法,發現成長的樂趣,這纔是技術賦能教育的終極意義。