☰

當大模型成爲高考“尖子生”：靠的是什麼？

南方財經記者譚硯文廣州報道

2025高考已經落幕，這場千萬學子的人生大考，也成了檢驗人工智能賦能教育的試金石。

“今年深度推理大模型在高考中的表現堪稱亮眼，數學成績已達到130分以上，而去年，大模型的高考數學成績普遍只能達到四五十分。”一位大型科技公司人工智能工程師說。

今年，大模型在高考中表現優異，有個別表現出色的大模型，已能在滿分60分的語文作文取得53分、總分150分的數學取得145分、滿分20分的英語作文取得19.5分，展現出強大的綜合實力。

一個大模型能成爲高考尖子生，靠的是什麼？

專家指出，大模型決戰高考，不僅僅比拼的是“題庫資源+生成式大模型能力”，人工智能技術能力維度只有足夠多、足夠廣、足夠垂直，才能真正賦能教育。

更重要的是，成爲高考尖子生並非大模型進階的終點，人工智能不僅懂考試，也懂教學，將爲教育打開新的天地。

那個在高考語文作文、數學、英語作文中全部表現突出的大模型，是誰？

6月7日高考語文結束後，“全國一卷難”的話題迅速被推上熱搜。

但這難不住大模型。據某媒體6月7日高考語文結束當日進行的測評，訊飛星火大模型的一篇《以歌爲刃破長夜且將熱血鑄山河》，被曾參與省級“新課標新技術背景下課堂教學探索”系列重點課題的楊小晴老師、海南省名校校本教材編者曹越老師分別打出了52分、54分的高分，名列六款國內主流大模型測評第一。

這篇文章的“叫座”之處是採用了六段式結構，並且每段都有分論點、分析和論據。比如，文章的骨幹部分分別以“個體的沉默往往是覺醒的前奏”“藝術的表達從來都是穿越荊棘的利刃”“文明的火種需要在代際傳遞中永續”牽引各段，緊扣“在逆境中堅守信念，用藝術或行動承擔家國責任”的論點，層次分明，起承有序。

評分老師給出了“結構如交響樂章，選材如歷史長卷，語言如金石擲地，是一篇兼具思辨性與感染力的考場佳作”的評價。

數學是對深度推理大模型的一場“硬核”檢驗。據某媒體6月7日高考數學結束當日進行的測評，7款國內外主流深度推理大模型中，訊飛星火表現突出，是唯二突破140分，即便在考生中也達到了“尖子生”標準。而在6月10日另一個自媒體博主進行的測評裡，訊飛星火又取得了145分。

參加考試的訊飛星火大模型是在4月20日升級，版本較早，比同場考試的DeepSeek R1早了一個月，但在模型量級更小（70b）的情況下，依然取得了141分的高分。

英語作文與語文作文有一定的相似性，考察的都是語言理解和生成能力。在某媒體的測評中，北京市十一學校一分校英語老師韓憲昌、深圳中學英語教師趙文嘉對訊飛星火的作文分別給出了20分、19分的高分，位列第一。

語文作文的六段式結構體現了訊飛星火的謀篇佈局能力，而在這篇英語作文裡，訊飛星火的作品同樣句式多樣，結構精緻。比如採用了比較巧妙的“twofold”結構，這在選詞準確但句式不夠豐富的大模型作文裡顯得獨樹一幟。

在多項測試裡，訊飛星火大模型紛紛拿下語文作文、數學、英語作文的高分，成爲高考尖子生靠的是什麼？

研究人員給出了詳細解讀。

語文和英語作文考驗的是大模型的文本生成能力，但高考作文側重的不是生成一篇文學作品，抑或一篇辦公文稿，而是在精準分析題目基礎上的作答。

在數據層面，“我們在對訊飛星火大模型進行預訓練時，會注重從海量的通用數據中有針對性地挖掘有價值的數據。”訊飛星火研發人員說。

科大訊飛紮根教育已經21年，服務了全國5萬多所中小學、1.3億師生，這些數字背後，是科大訊飛對教育的深刻理解與實踐沉澱。且科大訊飛深入各地，積累了海量區域化教育數據，能夠精準理解各地考情差異。

在算法層面，寫作文場景與生成其他文本的場景頗爲不同，更加考驗大模型的指令跟隨能力。這是因爲，在生成其他文本的過程中，用戶會不斷提問和提出要求，大模型從而得到特別具體、精確的提示（prompt）；但寫作文場景下，大模型得到的只有題目要求，且審題難度極高，學生的習作則差別很大，也就是說，一個理解難度高的題目對應着數以萬計的差異化文本，這加大了大模型在訓練時進行指令跟隨的難度。

對此，“訊飛星火大模型基於‘機器思維鏈’的深厚基礎，深度融合優秀教師的實踐智慧，研發出以‘教學思維鏈’爲驅動的教育深度推理大模型。”訊飛星火研發人員說。

這就能夠理解，爲什麼在一衆大模型作文中，訊飛星火能寫出結構精妙的六段式結構。

“訓練訊飛星火大模型的優質數據裡，曾出現過這種結構的高分作文。深度思維鏈大模型理解了這樣的優質數據，並通過不斷地強化學習，學會了寫出這種結構的高分作文。”

據介紹，科大訊飛在教育行業深耕21年，深度參與中考、高考、英語四六級考試、全國普通話水平測試、全國碩士研究生統一招生考試、全國翻譯資格水平考試等重大考試服務，掌握中高考智能閱卷、口語評測、作文批改等同源技術。這也讓星火對相關教育數據的清洗更加精準，沉澱下來價值更高的數據。

“深度思考+強化學習”的技術方案，也推動大模型今年在高考數學上普遍超過130分。

但爲何訊飛星火大模型能取得140分以上的更高分？

“我們做了一些技術創新，包括算法上更加強調目標導向，即強調解題過程與答案的一致性；增加了評語模型，以提高大模型解題每一步驟的準確性，並避免用超綱解法答題；對知識點和解題思路進行了數據合成，從而提高大模型解題的泛化能力。”訊飛星火研發人員說。

值得注意的是，擅長深度思考並不必然擅長解數學題。一位數學自媒體博主對今年高考題目進行測評時發現，“一些大模型的推理思維鏈很長，而有的考題並沒有那麼複雜，所以導致它想着想着，就想歪了”。

如何將深度推理精準匹配高考答題？

訊飛星火首個推出了，基於快慢思考的統一模型訓練推理方法，充分發揮快慢思考數據相互促進作用，實現基於系統指令控制模型是否深度思考。基於問題難度的大規模多階段強化學習方法，在複雜推理、數學、代碼、語言理解等場景全面提升模型效果及泛化性；同時強化學習動態更新算法，基於樣本採樣長度動態調整強化學習更新速度，進一步提升深度思考強化學習效率及效果。

答題還建立在一些底層技術基礎上，比如OCR能力。只有更加準確地識別，才能讓大模型更加準確地理解、更加準確地思考、更加準確地答題。科大訊飛的語音、圖文識別技術則屢獲國際大賽冠軍。正是因爲在圖文識別、自然語言理解、智能評測等方面的突破，科大訊飛10年前率先在高考中參與了智能輔助評卷的探索。

當大模型能輕鬆超過絕大多數考生，成爲高考尖子生，這是否會給廣大學子帶來焦慮和不安？

其實完全不會，高考的目的是考查學生的關鍵能力和核心素養，人工智能賦能培養學生關鍵能力和核心素養的表現，遠遠超過了在高考考場上的表現。

當人工智能具備深度推理能力，人工智能賦能教育正在從提升學習成績升級到提升學業能力。一方面，人工智能實現了作業批改、學情分析、類題推送等方面的重大突破，從而幫助老師和學生更好地教與學、提升學業成績；另一方面，人工智能基於問題鏈與思維鏈進行深度推理，通過蘇格拉底式引導幫助學生真正掌握學習方法，做到因材施教。

“同學們，我現在將立方體的這一面填滿紅色，我們再一起看下這個立方體的展開圖是什麼樣的。”在棗莊市第九中學的課堂上，數學老師王寧在AI黑板上畫出一個立方體，點擊“展開”功能，立方體隨即動態展開，呈現出不同的平面圖。“這種動態的展示，不僅讓數學知識‘活’起來，讓抽象的知識變得更直觀，還能進一步激發學生的學習興趣和探索慾望。”王寧老師笑道。

目前，AI黑板所屬的訊飛智慧窗系列產品已在全國4.5萬所學校使用，覆蓋33個省級行政區、1000多個區縣。

“我們正在和七年級16班的學生們一起上課，我們在討論一件情緒商品，叫做情緒盒子，這是一種管理情緒的卡片遊戲，請問星火你是怎麼看待情緒盒子的呢？”

在合肥四十六中南校區的《改良“情緒商品”》項目化學習課堂上，王亞運老師通過星火教師助手提問，爲學生們引入“第三方視角”的看法，同時通過“分組作答”“實物展臺”“課堂討論”等互動形式，給每位同學展示自己創意的機會。

只要真正用上人工智能，就能打消畏難情緒。成都英華學校以“人人擁有教育教學‘智能體’”爲宗旨，組織開展首屆教學智能體創建比賽，鼓勵教師人人蔘與，通過訊飛星火大模型“餵養”屬於自己的學科教學智能體。

成都英華學校的周老師設計了一節英語寫作課，藉助人工智能技術引導學生經歷自主作文、自主修改、生生相互評閱後自主完善等學習過程。作文自評自改環節，AI作爲教學助手在2秒鐘內實現了對全班學生作文的檢錯和評改，完成了老師們平時2小時甚至更長時間的作文批改工作，並同步生成班級作文報告，學生的共性問題和個性問題一目瞭然。

“我們要有一桶水，才能倒出一碗水。”科大訊飛董事長劉慶峰表示，科大訊飛做教育絕非止步於解題批改的技術層面，而是要因材施教，要五育並舉，要能激發人的創造力，要心理健康全面發展。高考提分只是起點，而非終點。大模型對教育的深層變革，在於讓每個個體獲得適配的學習方法，發現成長的樂趣，這纔是技術賦能教育的終極意義。

當大模型成爲高考“尖子生”：靠的是什麼？

相關資訊