OpenAI奪金IOI,但輸給3位中國高中生

剛剛,OpenAI官宣:IOI金牌收入囊中

其推理模型在今年IOI線上競賽中成績刷新紀錄:

總分533.29,在全球330名人類選手中總排名位列第六;而在所有AI參賽者中,穩居第一

PS:AI沒比過的五個人裡,有三個都是咱中國人,分別是劉恆熙(寧波市鎮海中學)、範斯喆(浙江省諸暨市海亮高級中學)、陳昕陽(杭州第二中學)。

有意思的是,OpenAI表示,這次並未爲IOI訓練新的參賽模型,而是集成了多個通用推理模型參賽。

並且這個奪金系統和前不久OpenAI自稱在IMO中奪金的,還是同一個。

從成績上來說,此AI推理系統相比去年模型在IOI上的表現進步了不止一點半點。

IOI 2024 OpenAI還專門在o1基礎上進行鍼對性訓練,最終得到的o1-ioi,在嚴格的比賽規則下僅拿到213分

今年靠通用模型直接奪金,排名大躍升,網友直呼震撼。

不過,前段時間OpenAI自稱模型拿下IMO金牌一事引發不少爭議,這次面對IOI的成績,網友們明顯謹慎了許多:

與此同時,還有不少網友喊話“還我4o”。

更有意思的是,馬斯克突然發佈了IOI Benchmark排名,結果顯示Grok 4在編碼方面超越GPT-5獲得第一(doge)。

來看這次OpenAI推理系統奪金細節。

IOI(國際信息學奧林匹克競賽)作爲是全球中學生計算機科學領域的最高級別賽事,有着嚴苛且標準化的賽制:

參賽學生需歷經2天賽程,每天在5小時內獨立解決3道高難度算法題,全程斷網且無法藉助外部資料,最終提交C++代碼方案,由隱藏測試用例自動評分。

IOI 2025總共有來自84個國家的330名參賽者參賽。滿分600分,金牌分數線是438.30分,最終只有28名參賽者獲得金牌

OpenAI表示他們正式參加了IOI的線上AI賽道,規則和人類參賽者一樣,有5小時的時間限制50次的提交次數限制

並且AI系統在競賽過程中全程未使用互聯網或檢索增強生成(RAG)技術,僅能使用基礎的終端工具。

具體來說,他們整合了幾個強大的推理模型,生成候選程序,運行這些程序,然後提交最優解。唯一的輔助工作是:挑選要提交的嘗試內容,並與競賽API交互。

在IOI線上AI賽道中,通過API獲取題目並提交解答,不會接受競賽組織者的直接監督。

OpenAI最新AI推理系統的表現超越98%的參賽者,不論是成績還是方法上都和去年形成鮮明對比。

在IOI 2024中,OpenAI使用了o1-ioi模型,這是一個在o1基礎上針對編程任務進行強化學習微調的專用模型。

o1-ioi嚴重依賴一套複雜且由人工設計的test-time推理策略(類似AlphaCode的人工設計的test-time推理策略),包括:

儘管投入了大量工程技巧,o1-ioi在IOI 2024中僅獲得213分,排名第49百分位,與銅牌失之交臂。

謝賽寧團隊前段時間推出了一個包含來自IOI、Codeforces和ICPC的競賽級編程問題的實時基準測試——LiveCodeBench Pro。

GPT-5最新測試成績出爐:

平均響應長度方面,GPT-5超過10萬token,是o3的3倍。

[1]https://x.com/OpenAI/status/1954969035713687975[2]https://x.com/rohanpaul_ai/status/1954992741101998099[3]https://x.com/wenhaocha1/status/1954751124050989213[4]https://x.com/elonmusk/status/1955047197487272362