剛剛!螞蟻推出首個金融推理大模型,登頂權威金融測評,超越OpenAI o1、DeepSeek-R1
智東西作者 王涵編輯 漠影
智東西7月28日報道,今天上午,螞蟻數科正式發佈螞蟻數科金融推理大模型Agentar-Fin-R1 。該模型基於Qwen3研發,在FinEval1.0、FinanceIQ等金融大模型評測基準上超越DeepSeek-R1等同尺寸開源通用大模型以及金融大模型。
Agentar-Fin-R1包括32B和8B參數兩個版本,還有非推理版本的14B和72B參數大模型,以滿足金融機構在多樣化場景下的部署需求。此外,螞蟻數科還推出基於百靈大模型的MoE(混合專家)架構模型,獲得更優推理速度。
同時,螞蟻數科還開源了大模型金融應用評測基準Finova以及Agentar-Deepfinance-100K金融領域訓練數據集。
一、螞蟻數科用3個特點登頂權威榜單,超越同類金融大模型
螞蟻數科首席技術官王維介紹,Agentar-Fin-R1 主要有“可靠、可控、可優化”的三大特點:
首先是“可靠”,王維認爲,行業大模型需要構建系統化專業化的金融任務體系。
爲此,Agentar-Fin-R1打造了6大類66小類的金融任務體系,覆蓋銀行、證券、保險、基金、信託等金融全場景。圍繞這一體系,通過可信的數據合成和長思維鏈的精標鏈路,從場景數據出發,螞蟻數科構建了100K的大規模訓練集。
基於任務體系和大規模數據訓練集,Agentar-Fin-R1在激活能力上和Qwen和DeepSeek等通用大模型旗鼓相當。在金融推理能力上,該模型在FinEval 1.0、FinancelQ以及Finova等金融榜單中,超越超越DeepSeek-R1等同尺寸開源通用大模型以及金融大模型。
在“可控”方面,王維介紹,在訓練金融大模型的過程中,該模型以金融任務體系爲靶點,結合主動學習的實踐,通過自動識別模型的薄弱項,可以有針對的合成數據、動態調節,在提升訓練效率的前提下,避免了大規模的遺忘。
Agentar-Fin-R1僅用不到一半的數據達成了更優的模型能力,在多任務的均衡訓練中,該模型能夠極大地降低微調階段需要的數據和算力,實現較高的遷移效率。
此外,Agentar-Fin-R1還將不斷進化。螞蟻數科首席技術官王維認爲,行業模型應該建立高頻的敏捷的迭代機制,讓模型能夠持續發現模型的問題和缺陷,進行快速修復。
這背後需要兩個方面的努力,一是密切關注實際數據,定位模型表現;另一方面就是緊密追蹤金融動態,市場調整以及產業機構和產品的變化。
最終,螞蟻數科將通過訓練和評測聯動以及高效生成的訓練數據,驅動模型進化,使Agentar-Fin-R1更加貼合金融業務需要。
二、全面開源金融基準測試集,聯合五大機構發佈
除此之外,螞蟻數科還聯合中國工商銀行、寧波銀行、北京前沿金融監管科技研究院、上海人工智能行業協會等機構,推出大模型金融應用評測基準Finova。
Finova是針對複雜推理任務和金融智能體任務的評測任務集,涵蓋意圖識別、工具調用和結構化表現等金融行業全方位測評的各個環節。
據介紹,螞蟻數科還首創了高複雜度的金融推理問題庫,該數據庫來源於螞蟻積累的多年的真實業務數據,經過5000萬道問題和人工篩選,再配合長思維鏈的精標鏈路,形成了一套全面評估真實業務能力的評測集。
此外,螞蟻數科還將Agentar-Deepfinance-100K大規模金融領域訓練數據集全面開源。
結語:金融與AI深度融合,步入“垂直專用”深水區
螞蟻數科CEO趙聞彪說到,AI智能體產業價值釋放的關鍵在於“水平通用”向“垂直專用”的戰略轉變。
此次Agentar-Fin-R1的推出,以及Finova評測基準和Agentar-Deepfinance-100K數據集的開源,正是這一轉變在金融領域的具體實踐。
隨着人工智能技術的不斷髮展,金融機構對大模型的需求日益精細化,從最初在客服、辦公等場景的淺層次應用,逐步深入到風控、財富管理、信貸審批等核心業務流程。
然而,在實際推廣和應用過程中,如何確保模型在不同金融機構的業務環境中穩定運行,如何平衡模型性能與數據安全保護之間的關係等等挑戰,依舊需要AI企業與金融機構共同解決。