陸AI模型性能 與美差距大幅縮小

史丹佛大學以人爲本人工智慧研究所(Stanford HAI)日前發佈「2025年人工智慧指數報告」指出,2023年美國領先的模型在性能上明顯優於中國大陸模型,然而這種差距在2024年底已大幅縮小。

該報告由史丹佛大學以人爲本AI研究員發佈,代表每年AI領域最核心和前沿的動向總結。今年報告長達456頁。Stanford HAI在官方網站上寫道,「AI對社會的影響從未如此明顯。2025年指數是我們迄今爲止最全面、也是在這一重要時刻發佈的報告」。

報告提及,2023年底美國模型在MMLU、MMMU、MATH和HumanEval等基準測試上的性能,分別領先中國模型17.5、13.5、24.3和31.6個百分點。而截至去年底,這些差距已經分別縮小至0.3、8.1、1.6和3.7個百分點。

目前從行業主導企業來看,美國仍然領先於中國。在2024年,90%的知名AI模型來自企業,美國以40個模型領先,中國有15個;中國在AI學術論文和專利申請量上持續領跑,中東、拉美和東南亞地區也涌現出具有競爭力的模型。

另外,對於AI的前景上,中國大陸有83%民衆持樂觀態度,美國則有39%民衆樂觀,相對保守。其他國家如印尼、泰國分別有80%與77%民衆保持積極態度,但如加拿大、德國與法國等地則相對謹慎。

此外,報告還提出幾個趨勢:一是大模型性能趨同,2024年TOP1和TOP10的模型的差距能有12%,如今差距已銳減至5%;二是AI性能再度攀升,生成高品質影音方面取得重大突破,甚至在某些場景下AI智能體甚至超越人類表現;三是AI已在特定領域,如編寫特定類型代碼,展現出與人類相當的專業水準,且執行效率更勝一籌;四是隨着小模型性能提升,達到GPT-3.5水準的推理成本在兩年間下降280倍,硬體成本以每年30%的速度遞減,能效年提升率達40%。

不過AI目前仍有些缺點,採用符號推理方法的AI系統,能較好解決IMO問題(雖未達人類頂尖水準),但LLM在MMMU等複雜推理任務中表現欠佳,尤其不擅長算術推導和規畫類強邏輯性任務;另外,2024年全球AI相關危害事件暴增至233起,創下歷史新高,較2023年暴漲56.4%。

報告也指出,科技大廠正大力投注資源在AI上,2024年美國私營AI投資達1,091億美元,約爲中國(93億)的12倍、英國(45億)的24倍;企業AI採用率從55%升至78%。

研究證實,AI不僅能提升生產力,多數情況下還可縮小勞動力技能差距。