☰

高考出分！大模型“考生”，有望衝擊“清北”！

6月26日，2025年全國高考志願填報全面開啓。在多個省份高考分數線揭曉之際，大模型“考生”的成績單也吸引了許多關注。

6月25日晚間，字節跳動Seed團隊公佈了豆包大模型1.6-Thinking版本的“高考成績”：文科總分683分，理科總分648分。這一成績以2025年山東高考試題作爲測評基準，其中語數外使用新課標全國新一卷，政史地/物化生則採用山東省自主命題。

最新公佈的山東高考分數線顯示，特殊類型招生控制線爲521分，普通類一段線爲441分。山東省內多位有着多年高三帶班經驗的資深教師判斷，根據山東省公佈的2025年夏季高考文化成績一分一段表，豆包大模型1.6-Thinking的科目組合的賦分成績最高能超過690分，排名在前80位左右，穩上985，並達到了衝擊“清北”的水平。

值得注意的是，本次測試還引入了OpenAI的o3 high、谷歌的Gemini 2.5 Pro、Anthropic的Claude Sonnet 4和DeepSeek的R1-0528等國內外多款主流模型作爲對比對象。成績顯示，4款大模型文理科成績均大幅超過了普通類一段線，顯示大模型已超越衆多普通考生，達到人類優秀考生的水平。

“學霸”誕生：大模型“考生”成績亮眼

據瞭解，目前全國大部分地區高考均採用賦分制，山東高考爲“3+3”形式，語數英3門主科採用原始分（各150分），考生自選的3門副科（政史地/物化生，各100分）採用賦分制，滿分爲750分。其中，選擇題、填空題等封閉題採用機判，開放題則由兩位重點高中、有聯考判卷經驗的高中老師進行匿名評估，並且後續引入了多輪質檢。

值得注意的是，在評測所採用的山東卷中，圖像類問題分數爲378分，佔比高達36%，非常考驗大模型的多模態理解和推理能力。豆包大模型基於較爲出色的多模態能力，在評測中佔據優勢。在同臺競技的4款主流大模型中，由於DeepSeek R1不具備多模態能力，無法正常解答圖像問題，但通過文本信息的推理也能獲得一部分圖像題分數。

評測結果顯示，文科成績方面，豆包1.6-Thinking總分達683，排名第一，谷歌Gemini 2.5 Pro以651分居於第二；理科成績方面，谷歌Gemini 2.5 Pro以655分奪得第一，豆包則以7分之差排名第二。各個模型在語、數、外等基礎學科的表現基本都比較好，達到了優秀考生的水平，而且區分度已經不大。不過，OpenAI的o3出現了作文跑題的失誤，導致語文單科得分較低，給整體成績拖了後腿。

據山東省內多位有着多年高三帶班經驗的資深教師判斷，3門自選科目的賦分相比原始分會有一定程度的提高，尤其是在化學、物理等難度較大的科目上，預估豆包大模型1.6-Thinking的科目組合的賦分成績最高能超過690分，排名在前80位左右，穩上985，並達到了衝擊“清北”的水平。

技術突破：豆包1.6系列模型持續進化

在大模型“考生”高考出分的同時，記者注意到字節跳動Seed團隊也公佈了Seed1.6 系列模型的詳細技術介紹。支撐高考優異成績的，正是豆包大模型1.6系列的重大技術革新。

在6月11日舉行的火山引擎Force原動力大會上，火山引擎正式發佈了豆包1.6系列模型。作爲Seed 團隊推出的最新通用模型系列，豆包1.6系列模型融合了多模態能力，支持自適應的深度思考、多模態理解、圖形界面操作，且支持 256K 長上下文的深度推理。

據Seed團隊介紹，Seed1.6沿用Seed1.5在稀疏MoE（混合專家模型）上的探索結果，使用23B激活、230B總參數進行預訓練。據會上披露的多項權威測評成績，在複雜推理、競賽級數學、多輪對話和指令遵循等測試集上，豆包1.6—Thinking的表現已躋身全球前列。

具體來看，在預訓練階段，Seed1.6通過純文本預訓練、多模態混合持續訓練、長上下文持續訓練階段，對模型架構、訓練算法等進行持續改進，性能在參數量不增加的情況下取得明顯提升。在後訓練階段，Seed1.6-Thinking強化了多模態融合的思考能力，並提出了“動態思考能力”，在性能和效果上實現更好的動態平衡。

羣“模”逐鹿：高考成爲“AI競技場”

如今，高考已經成爲了AI大廠們的重要“競技場”，形成了一場激烈的 “大模型高考競賽”。

對於大模型廠商爲何熱衷於做高考評測，業內人士分析指出，高考是大模型非常好的測試場景：一方面，題目全面，文科到理科，從文本到圖像理解，基礎知識都有覆蓋；另一方面，題目也比較新，能夠反映模型的泛化能力。此外，高考作爲國內最具權威性和影響力的人才選拔考試，也具備較高的社會關注度和話題討論度。

近年來，隨着大模型技術的不斷迭代，大模型“考生”在高考中取得的成績也有了大幅提升。在去年的媒體評測中，豆包大模型文理科總分分別只有542.5分和466.5分，而今年則“進步神速”，文理科總分分別提高了140.5分和181.5分。此外，其他的幾款主流大模型也取得了優異的成績。

不過，大模型也並非只能當“做題家”，在實際應用中，AI大模型的技術優勢正在轉化爲產業價值。艾媒諮詢發佈的《2024-2025年中國AI大模型市場現狀及發展趨勢研究報告》數據顯示，2024年中國AI大模型市場規模約爲294.16億元，預計2026年將突破700億元，中國AI大模型行業正處於爆發式發展階段。

艾媒諮詢分析師認爲，AI大模型已初步具有算力高效利用能力、真實世界感知能力、自主學習能力以及創作能力等。中國大部分的國產AI大模型可在文本、圖像等方面賦能，並廣泛滲透到娛樂、電商、工作以及垂直領域等各類應用之中，爲中國傳統行業進行數字化賦能。

以豆包爲例，據瞭解，目前豆包大模型已在汽車、智能終端、互聯網、金融、教育科研、零售消費等行業廣泛落地，覆蓋4億終端設備，如小米、OPPO、vivo、榮耀、聯想、三星等品牌；八成主流車企，如奔馳、寶馬、奧迪等；70%系統重要性銀行和數十家證券基金公司，如招商銀行、華泰證券等。

責編：萬健禕

校對：楊舒欣

高考出分！大模型“考生”，有望衝擊“清北”！

相關資訊