演讲者: 刘东瑞,上海人工智能实验室青年科学家
时间: 2025年10月29日,16:00
邀请人: 王雯婕
地点: 信息学院 1C-402
摘要:
为了应对和降低前沿AI模型和智能体的潜在风险,目前业界提升安全性的技术路线是先对模型进行安全评测,然后获取或模拟人类价值偏好的数据对模型和智能体进行“安全对齐”, 例如RLHF和DPO等技术。然而这类方法未能真正解决AI风险,一方面是因为对安全对齐方法的底层机理认识不深刻,另一方面是RLHF等方法仅教导AI拒绝回答敏感问题,并没有从模型内部删除敏感知识。本次讲座将分享“内生安全”技术路线上的探索和最新研究成果,即从安全评测到内生安全,包括动态发现前沿AI模型和智能体漏洞、缓解内在神经元的冲突、表征的可靠性等。
报告人简介:
刘东瑞,上海人工智能实验室可信安全中心青年科学家,博士毕业于上海交通大学。长期从事安全可信人工智能研究,包括大模型的可解释性、攻防、对齐和评测等。在 NeurIPs、ICLR、CVPR、AAAI、ACL、EMNLP, T-ITS、TCSVT 等会议期刊上发表论文数十篇。曾获得CVPR 2024 最佳论文候选奖和ACL 2025杰出论文奖和上海交通大学优秀博士毕业生等荣誉。


沪公网安备 31011502006855号


