國產大模型再創新!“安全增強版DeepSeek”來了

來源:新華網

新華網北京2月24日電(記者張漫子)“安全增強版DeepSeek”來了。清華大學與瑞萊智慧聯合團隊23日推出大語言模型RealSafe-R1,基於DeepSeek R1進行深度優化與後訓練,在性能穩定的基礎上,實現了安全性的顯著提升,爲開源大模型安全發展與風險治理提供了創新解決方案。

連日來,國產開源大模型DeepSeek的優異表現令人驚豔,其在自然語言處理和多任務推理方面的能力展現了強大的技術實力,尤其是在複雜問題解決和創造性任務中表現出色。然而DeepSeek-R1和DeepSeek-V3在面對供給等安全挑戰時仍存一定侷限。例如,模型可能會被惡意設計的輸入誤導,生成不符合預期或不安全的響應。

“這一安全短板並非DeepSeek所獨有的難題,而是當前開源大模型的通病,其根本缺陷源於安全對齊機制的不足。”瑞萊智慧首席執行官田天告訴記者。

爲此,清華大學與瑞萊智慧聯合團隊提出了基於模型自我提升的安全對齊方式,將安全對齊與內省推理相結合,使大語言模型能夠通過具有安全意識的思維鏈分析來檢查潛在風險,實現基礎模型自身能力的自主進化,可以應用於多種開源、閉源模型。

基於該方法,團隊對DeepSeek-R1系列模型進行後訓練,正式推出RealSafe-R1系列大模型。實驗數據表明,RealSafe-R1安全性提升顯著,在多個基準測試中有效增強了對各種越獄攻擊的抵抗力,並減輕了安全與性能之間“蹺蹺板”現象,不僅爲DeepSeek生態添磚加瓦,也爲大語言模型樹立了安全標杆。

記者瞭解到,RealSafe-R1各尺寸模型及數據集將於近期開源。“只有通過持續投入和攻堅補齊短板弱項,人工智能產業才能真正實現高質量發展。”田天說,這一成果將爲開源大模型的安全性加固提供有力支持,也爲政務、金融、醫療等場景應用提供更可靠、更堅實的基座。