上海財經大學張立文:金融大模型的落地需要高質量的語料體系
《科創板日報》2月23日訊(記者 黃心怡)2025全球開發者先鋒大會“共築金融新生態:AI 大模型落地應用與實踐“分論壇今日在上海徐匯西安藝術中心舉行。
上海財經大學統計與數據科學學院和滴水湖高級金融學院聯聘教授、博導,數據科學與統計研究院副院長張立文發表了題爲“中國金融領域大模型評測體系的探索”的演講。
大模型的浪潮對於金融行業而言也引起一場重大的變革,整個金融產業的業態或都將爲之重塑。一時間,金融領域大模型也紛紛崛起。何種金融大模型能夠真正賦能到金融機構乃至金融行業,它們應具備怎樣的能力?
爲此,上海財經大學提出了國內財經類院校首個金融大模型評測體系FinEval,從第三方視角公正客觀評測,填補了中國金融領域評估基準的空白。同時,上海財經大學在金融大模型的其他領域,如金融大模型的部署微調,金融業務結合以及更垂類金融場景如ESG大模型都有持續深入的研究。
在上海市委金融辦、市經信委的指導下,上海財經大學、上海人工智能實驗室、上海庫帕思科技有限公司共同發佈《金融大模型應用評測報告(2024)》。
模型基礎能力方面,參評模型平均得分爲59.8分;排名前三的模型分別爲:阿里巴巴的Qwen2.5-72B-Instruct(70.3分)Anthropic的Claude-3.5-Sonnet-20240620(68.9分)、階躍星辰/財躍星辰的Step-2-16k(65.7分)
金融安全與價值對齊能力方面,參評模型平均得分爲92.8 分;排名前三的模型分別爲:階躍星辰/財躍星辰的Step-2-16k(98.8 分)、智譜的 GLM-4-plus(96.3 分)、阿里巴巴的 Qwen2.5-72B-Instruct(95.9 分);得分最低的模型爲字節跳動的 Doubao-pro-32k(86.9 分)。
金融風險控制能力方面,參評模型平均得分77.1分;排名前三的模型爲Anthropic的Claude-3.5-Sonnet-20240620(84.1分)、階躍星辰/財躍星辰的Step-2-16k(83.3分)、零一萬物的 Yi-Lightning(79.6 分 )。
據悉,金融大模型評測報告將以每年1-2次頻率公開發布,以助力金融科技在智能化、專業化、精細化方向上的進一步突破與發展持續拓展以金融業務爲核心的評測框架。
在此框架下,上海財經大學重點推進了兩項重點工作:一是推出國內首個金融多模態評估基準VisFinEval;二是開發面向複雜金融推理任務的大模型Fin-R1。
VisFinEval 作爲評測體系的重要組成部分,聚焦金融多模態場景的深度評估需求。該基準基於財報、研報及財經網站中的八類通用金融圖表(如K線圖、財報、金融關係圖譜等),構建了覆蓋基礎場景、複雜場景與極端挑戰場景的三級評估標準,總題量達1.5萬+。其創新性在於提出“圖文一致性”檢測機制,以量化多模態大模型的文本信息丟失問題,並延伸至極限推理能力測試(如多模態長指令評估、複雜計算等),爲大模型在金融圖表解讀、多模態決策等場景的應用能力提供了系統性評估依據。Fin-R1 是上海財經大學基於DeepSeek技術路線開發的垂直領域大模型。
在前期實驗中,Fin-R1-Zero已展現出初步的推理能力,然而,該版本存在中英文混雜輸出及效果未達預期的侷限性。爲此,團隊提出數據合成管道與兩階段訓練方法:基於高質量金融數據和多模型蒸餾技術構建中英文混合數據集,並通過監督微調(SFT)增強長思維鏈能力,結合強化學習(RL)提升自發推理能力。訓練初期,模型已能生成包含多步驟複雜邏輯的“Aha Moment”輸出,初步驗證技術可行性。
未來計劃中,團隊將聚焦自動化數據構建、模型訓練與評測的一體化生態建設,並開源代碼與數據集;同時,也會持續探索優化金融推理效果,逐步拓展至風險評估、投資策略生成等場景,推動技術向產業應用的深度轉化。
對於大模型在金融業的落地思考,張立文認爲,高質量的語料體系十分關鍵,大模型專業能力依賴於海量、高質量、高時效訓練數據。金融領域的數據具有高度的專業性和複雜性,包括大量的專業術語、複雜的交易記錄、政策法規文本等。強大的AI中臺爲整個組織提供標準化、模塊化的AI服務,從而加快AI技術的應用和創新。
張立文稱,雖然積極探索生成式大模型金融應用,但距離規模應用仍較遙遠,需要持續增強模型的可控生成、專業性。“金融大模型的開發和應用需在保障數據安全、用戶隱私和滿足監管要求的同時,實現金融數據的高效處理和分析。”