清華瑞萊聯合團隊推出RealSafe-R1大模型

北京商報訊(記者 魏蔚)2月24日,北京商報記者獲悉,清華大學與瑞萊智慧聯合團隊推出大語言模型RealSafe-R1,該模型基於DeepSeek R1進行深度優化與後訓練。連日來,國產開源大模型DeepSeek的優異表現令人驚豔,尤其是在複雜問題解決和創造性任務中表現出色。但業內人士認爲DeepSeek R1和V3在面對越獄攻擊等安全性挑戰時仍存在一定的侷限性。例如,模型可能會被惡意設計的輸入誤導,生成不符合預期或不安全的響應。這一安全短板是當前開源大模型的通病,其根本缺陷源於安全對齊機制的深度不足。爲此,清華瑞萊聯合團隊提出了基於模型自我提升的安全對齊方式,將安全對齊與內省推理相結合,使大語言模型能夠通過具有安全意識的思維鏈分析來檢查潛在風險,實現基礎模型自身能力的自主進化,可以應用於多種開源、閉源模型。RealSafe-R1各尺寸模型及數據集,將於近期向全球開發者開源。