AI内生安全能力建设：从安全评测到内生安全

Release Time：2025-10-27Number of visits：157

演讲者: 刘东瑞，上海人工智能实验室青年科学家

时间: 2025年10月29日，16:00

邀请人: 王雯婕

地点: 信息学院 1C-402

摘要:

为了应对和降低前沿AI模型和智能体的潜在风险，目前业界提升安全性的技术路线是先对模型进行安全评测，然后获取或模拟人类价值偏好的数据对模型和智能体进行“安全对齐”, 例如RLHF和DPO等技术。然而这类方法未能真正解决AI风险，一方面是因为对安全对齐方法的底层机理认识不深刻，另一方面是RLHF等方法仅教导AI拒绝回答敏感问题，并没有从模型内部删除敏感知识。本次讲座将分享“内生安全”技术路线上的探索和最新研究成果，即从安全评测到内生安全，包括动态发现前沿AI模型和智能体漏洞、缓解内在神经元的冲突、表征的可靠性等。

报告人简介:

刘东瑞，上海人工智能实验室可信安全中心青年科学家，博士毕业于上海交通大学。长期从事安全可信人工智能研究，包括大模型的可解释性、攻防、对齐和评测等。在 NeurIPs、ICLR、CVPR、AAAI、ACL、EMNLP, T-ITS、TCSVT 等会议期刊上发表论文数十篇。曾获得CVPR 2024 最佳论文候选奖和ACL 2025杰出论文奖和上海交通大学优秀博士毕业生等荣誉。

导航

AI内生安全能力建设：从安全评测到内生安全