豆包1.6 “不偏科” ,高考成績直逼“清北”

文科成績683分,理科648分。

近日,豆包Seed1.6-Thinking模型測試了2025高考全科,交出一份成績優異的答卷。該測試採用全國新一卷和山東省自主命題。

豆包多項考試成績優異,高考成績直逼“清北”

隨着高考的結束,AI大模型也開啓了一輪“競技”。

2025年高考測試結果顯示,豆包的語文、英語、物理、歷史、地理、政治六門學科獲最高分,數學成績也超過140分;DeepSeek R1獲得數學最高分145分;Gemini 2.5 Pro以82分獲得化學最高分,並與OpenAI o3一起獲得生物最高分,成績爲77分。

這樣的成績是什麼水平?《半島都市報》專門諮詢了省內多位有着多年高三帶班經驗的資深教師:本次除化學成績相對稍低外,預估豆包大模型1.6的其餘科目組合的賦分成績最高能超過690分,具備衝擊“清北”的水平。

“因爲根據過往經驗判斷,3門自選科目的賦分相比原始分會有一定程度的提高,尤其是在化學、物理等難度較大的科目上。”上述資深老師表示。

6月25日,山東高考公佈一分一段表,690分排名全省前80左右。清華北大在山東的招生人數超過150名,這意味着豆包Seed1.6-Thinking模型測試成績超過“清北”錄取線。

在另一項國際測試中,豆包成績依然拔得頭籌。JEE Advanced是印度理工學院的第二階段入學考試,每年數百萬人蔘加第一階段考試,其中前25萬進入第二階段考試。考試分兩場,每場3小時,同時考查數學、物理、化學三科。

對比全印度人考生,第一名爲332分,第10名爲317分,Gemini-2.5-Pro和 Seed1.6-Thinking 可取得全印度top 10的成績。Gemini-2.5-Pro物理/化學表現出色,Seed1.6-Thinking在5次採樣的數學測試中回答全部正確。

豆包不“偏科”,推理效果和性能更加平衡

細心的網友可能看到,豆包理科成績怎麼比文科差幾十分?AI大模型是不是偏科呀?

Seed團隊表示,首次測試時使用的網絡版考卷清晰度較低,各大模型在化學、生物兩門非常依賴圖像的考試中丟分較多。該團隊在獲得更高清版本的高考試題圖片後,採用圖文交織的方式對化學和生物重新進行測試,發現豆包模型在這兩科上能夠提升近30分,理科總成績可達到676分,驗證了全模態推理可以更大程度激發模型的潛力。

這不但證明了豆包Seed1.6-Thinking模型並不偏科,同時也具備了較好的視覺推理能力。也說明結合文本和圖片進行全模態推理可以更大程度激發模型的潛力,相信這也是未來值得投入的研究方向。

另外,Seed團隊還提出了“動態思考能力”(AutoCoT),提供全思考、不思考、自適應思考三種推理模式,在保證效果的同時大幅壓縮了CoT長度。爲了實現動態思考能力,團隊在RL訓練中引入新的獎勵函數——懲罰過度思考、獎勵恰當思考。

“Seed1.6系列模型是Seed團隊在推理效果和性能平衡上的一次較好嘗試,同時模型從預訓練到後訓練融合了VLM多模態能力。”Seed團隊表示。

AI在高考領域展現出的潛力引發關注,6月19日,清華大學瀋陽教授團隊發佈的《AI賦能教育:高考志願填報工具使用指南》分析了志願填報中的常見誤區與AI解決方案。其中,“唯分數論,忽視位次”“唯熱門論,忽視發展性”“忽視地域因素影響”等,都可以通過AI功能有效規避和輔助決策。

豆包大模型Seed1.6是字節跳動Seed團隊推出的最新通用模型系列,融合了多模態能力,支持自適應的深度思考、多模態理解、圖形界面操作,且支持256K長上下文的深度推理。目前,Seed1.6系列已通過火山引擎對外開放API調用。

文/張帥