靈御大模型安全攻防評估平臺發佈,北京護航人工智能安全發展

新京報貝殼財經訊(記者羅亦丹)6月5日,2025全球數字經濟大會(GDEC 2025)數字安全主論壇暨2025北京網絡安全大會(BCS 2025)召開, 前瞻研究院院長、北京市重點實驗室主任曾毅受邀發表主旨演講,介紹了靈御平臺及從人工智能安全到安全人工智能的發展戰略。

據瞭解,當前在針對大模型領域的安全攻防中,成功的越獄攻擊能夠觸發有毒語言、錯誤信息甚至非法指令,從根本上破壞最先進的人工智能系統中內置的安全防護措施。

針對這一問題,北京前瞻人工智能安全與治理研究院、人工智能安全與超級對齊北京市重點實驗室、中國科學院自動化研究所人工智能倫理與治理中心聯合團隊正式發佈靈御(PandaGuard)大模型安全攻防評估平臺,該平臺創新性地採用多智能體系統建模方法對越獄攻擊進行系統性評估。該框架在現有研究基礎上實現了重要突破,爲構建安全可控的人工智能生態提供了重要保障。

曾毅表示,沒有安全治理框架的人工智能不僅沒有“剎車”,更是沒有“方向盤”。安全與治理是人工智能的核心能力,將加速人工智能穩健發展與應用。

校對 王心