出分了!豆包大模型1.6高考成績出爐,直逼“清北”

從 “陪跑” 到 “領跑”

豆包如何實現技術躍遷?

高考作爲大模型絕佳測試場景,其價值無可替代:一方面,題目設計具有極強的系統性和全面性,可以全面檢驗模型的基礎知識儲備與跨領域處理能力;另一方面,高考題目每年更新,也能直觀反映模型面對新問題時的泛化能力。

山東是高考大省,此次字節跳動Seed團隊此次以2025年山東高考真題爲標尺,含金量不言而喻。

一同參考的考生還有業界主流的推理模型Gemini2.5-Pro-0605、DeepSeek-R1-0528、Claude-Sonnet-4、OpenAI-o3-high-0416。最終排名顯示,Seed1.6-Thinking 於理科方面排名第二,達到648分,其中物理表現比較突出;在文科上則排名第一,達683分,地理和歷史優勢較大,文科和理科分數均超出大部分 985 高校往年錄取分數線。

在所有科目試卷中,圖像類問題分數佔比超過30%,最終成績也表明,物理、化學、地理等學科的圖像題是檢驗多模態能力的分水嶺。具體來看,在語、數、外等基礎學科中,上述模型大多表現較好。拉開差距的是化學和生物等讀圖題,由於題目不是官方發佈,圖比較模糊,因此各模型失分較多。

大模型“高考”通關

重塑AI競爭格局

根據中研普華產業研究院的數據,2024年全球多模態AI市場規模達到24億美元,年均複合增長率超過28%。預計到2025年,全球多模態大模型市場規模將達到1280億美元。

目前在產業端,多模態正逐步推開,從智能家居到虛擬現實,從自動駕駛汽車到語音助手,多模態技術正在不斷拓展各個領域的應用。但要實現規模化應用,模型成本下降和多模態能力的提升是最重要的主線。

在多模態升級方面,豆包大模型Seed1.6已經展現了強大的技術潛力和實戰能力,高考這一複雜測試場景下的“不偏科”能力證明模型不僅“通用”,而且“懂行”。與之相對應的的是,火山引擎數據顯示,豆包大模型已接入多所高校的智能教輔系統,提供教學、管理、科研、服務多維度服務體系,這種應用潛力,驅動着人工智能大模型重構教學體系的核心架構。