上海科技大学(简称:上科大)信息科学与技术学院王雯婕课题组(ASPIRE Lab)致力于构建负责、可靠、可信的新一代人工智能技术体系,重点关注大模型、多模态模型及AI智能体的安全性、隐私保护与鲁棒性问题。课题组围绕复杂AI系统所带来的新兴安全与伦理挑战,探索创新的算法机制与理论方法,推动人工智能的可持续、安全与可信发展。近期,课题组在大模型可信安全领域的一系列工作被多个国际知名会议接收。
大语言模型安全
随着大语言模型(Large Language Models, LLMs)在内容生成、智能助理等领域的广泛应用,其安全对齐(Safety Alignment)问题日益成为学术界和产业界关注的重要议题。尽管现有模型通过人类反馈强化学习(RLHF)等方式进行安全训练,但仍然容易受到“越狱攻击”(Jailbreaking Attack)的威胁,即攻击者通过巧妙设计提示词,使模型绕过安全限制,生成有害或不当内容。课题组在此方面展开系列工作:
1.基于拒绝抑制的大语言模型越狱攻击方法
针对现有攻击的攻击效果有限不能很好的反应模型潜在漏洞这一问题,课题组提出了一种全新的优化式越狱攻击方法——DSN(Don’t Say No)攻击。与以往依赖预设有害行为示例的优化方法不同,DSN通过重新设计损失函数,结合余弦衰减(cosine decay)策略与拒绝抑制(refusal suppression)机制,有效降低模型在攻击过程中的“拒答倾向”,提升了攻击成功率与泛化能力(图1)。研究结果表明,DSN在多个公开数据集和不同类型的语言模型上均取得了当前最先进的攻击成功率(ASR),并表现出强大的跨模型可迁移性与通用性。这项工作不仅提出了现有安全对齐机制的潜在漏洞,也为未来安全防御方法的设计提供了启示。

图1.1 DSN攻击算法工作流程图


图1.2 余弦衰减带来的优化影响
该工作被ACL2025收录为findings工作,第一作者为上科大信息学院2025级博士研究生周宇凯同学,王雯婕教授为通讯作者。
论文链接:
https://arxiv.org/pdf/2404.16369;
代码链接:
https://github.com/DSN-2024/DSN。
2.基于模型编辑的大模型越狱攻击的动态防御方法
现有防御方法(如安全微调与模型编辑)虽然在一定程度上缓解了风险,但往往存在参数改动范围大、泛化性不足或性能退化明显等问题,难以满足模型上线后的持续安全需求。针对上述问题,课题组提出了一种全新的动态越狱防御方法 DELMAN(Dynamic Editing for LLMs JAilbreak DefeNse)。该方法基于直接模型编辑(Direct Model Editing)思想,通过对模型内部仅与越狱行为相关的少量参数进行精准更新,实现对攻击行为的动态防御,同时最大程度保持模型的原始能力(图2)。此外,研究团队在 DELMAN 中引入了KL 散度正则化(KL-divergence regularization)机制,以确保在处理正常(良性)请求时,模型行为与原始模型保持一致,避免“过度防御”导致的安全误报。实验结果表明,DELMAN 在多种越狱攻击场景下均显著优于主流防御基线,不仅有效抑制了攻击成功率,还保持了模型在通用任务上的性能稳定性。同时,DELMAN 能够快速适应新的攻击实例,为大语言模型在真实部署阶段的持续安全防护提供了一种高效、灵活、可扩展的解决方案。


图2. DELMAN防御算法工作流程图
该工作被ACL2025收录为findings,第一作者为上科大信息学院2024级硕士研究生王一同学,王雯婕教授为通讯作者。
论文链接:
https://arxiv.org/pdf/2502.11647;
代码链接:
https://github.com/wanglne/DELMAN。
大语言模型偏见
1.面向大语言模型的自动化性别偏差消除框架
大语言模型在广泛预训练中展现出强大的语言理解能力,但同时潜藏社会性别偏差。针对这一问题,研究团队提出面向LLM的自动性别偏见缓解框架FaIRMaker,通过“自动搜索-自适应精炼”双阶段机制,自动生成并优化去偏提示词(Fairwords),并使其在面对性别相关任务时转化为去偏指令,在一般任务中则保持模型原有性能。不同于依赖参数修改或人工设计提示的方法,FaIRMaker在无须访问模型参数的前提下,实现开放与闭源 LLM 的公平性增强,兼具自动化、可移植与高可解释性,为可信 AI 和公平 NLP 提供了新范式(图3)。

图3. FairMaker工作流程图
该工作被NeurIPS2025收录。上科大信息学院2024级博士研究生徐悦为第一作者,王雯婕教授为通讯作者。
论文链接:
https://arxiv.org/abs/2502.11559;
代码链接:
https://github.com/SavannahXu79/FaIRMaker
多模态大模型安全
多模态大语言模型(VLM)将语言模型的能力拓展至跨模态理解,在众多以视觉为核心的任务中展现出卓越性能。然而,这一扩展也使得模型更容易受到越狱攻击的威胁。现有的防御方法往往依赖高昂的计算资源,或需对模型结构进行修改,普遍忽视了不同模态间的语义关联。
1. MMJ-Bench:多模态大模型对抗攻防统一测评框架
尽管针对多模态大模型的越狱攻击已有一些攻防方法被提出,但目前仍缺乏统一而全面的评估体系,各类方法在不同数据集与评价指标下的验证结果难以直接比较,无法客观衡量其实际效果。为填补这一空白,课题组推出MMJ-Bench,一个面向VLM越狱攻击与防御技术评估的统一流程框架(图4)。通过大量实验,团队系统评估了多种攻击方法对当前前沿VLM的实际影响,并分析了各类防御机制在防护效果及正常任务模型效用方面的表现。这一全面评估工作不仅为该领域贡献了首个公开可用的、系统化的VLM越狱研究评测基准,也建立起一套统一且标准化的评估体系。

图4. MMJ-Bench工作流程图
该工作被AAAI2025收录。上科大信息学院2025级博士研究生翁丰华为第一作者,2024级博士研究生徐悦与2023级硕士研究生傅铖彦共同参与了方法的测评和平台的搭建,王雯婕教授为通讯作者。
论文链接:
https://ojs.aaai.org/index.php/AAAI/article/view/34983;
代码链接:
https://github.com/thunxxx/MLLM-Jailbreakevaluation-MMJ-Bench 。
2. CIDER: 基于跨模态信息的多模态大语言模型越狱行为检测方法
从防御方面,课题组首先开展了小规模实验,发现尽管视觉信息的引入增强了模型的脆弱性,但也提供了额外的防御线索(图5)。

图5. 多模态是一把双刃剑。研究表明:(1)对抗图像往往嵌入了有害语义信息;(2)直接基于正常图像与对抗图像在与有害问题上的语义差异进行检测具有挑战性;(3)图像去噪可一定程度减少有害信息,但无法彻底清除;(4)图像在去噪前后与文本的语义距离变化,可为检测提供有效信号。
在此基础上,课题组提出了 CIDER(Cross-modality Information DEtectoR),一种即插即用的多模态越狱攻击检测器,专为识别通过优化方式生成、更加隐蔽且具有攻击性的图像扰动而设计。CIDER 的核心思想是利用图像在去噪前后与文本模态之间语义相似度的变化,作为对抗扰动的判别依据(图6)。大量实验证明,CIDER 相较于现有基线方法具有更高的检测成功率,同时显著降低了计算开销。更重要的是,CIDER 展现出良好的跨模型与跨攻击迁移能力,适用于多种白盒与黑盒 MLLM 场景。

图6. 基于 CIDER 的多模态大模型越狱攻击防护流程
该工作发表于 EMNLP 2024。上科大信息学院2024级博士研究生徐悦与2021级本科生齐修远(现2025级硕士研究生)为论文的共同第一作者,王雯婕教授为通讯作者。
论文链接:
https://arxiv.org/pdf/2407.21659;
代码链接:
https://github.com/PandragonXIII/CIDER。
3. ADPO:增强预训练阶段多模态大模型对抗鲁棒性
当前视觉语言模型(VLM)的安全对齐多依赖后训练阶段微调,然而该类方法在面对白盒攻击时防御效果有限。为突破这一局限,我们提出Adversary-aware DPO(ADPO),一种创新的训练框架,通过显式引入对抗性考量,将对抗训练机制融入DPO,以增强VLM在最恶劣对抗扰动下的安全对齐能力。ADPO架构包含两大核心模块:(1)经对抗训练的参考模型,可在强扰动下生成符合人类偏好的响应;(2)对抗感知的DPO损失函数,能够构建考虑对抗干扰的胜负样本对(图7)。通过上述协同设计,ADPO使得VLM即使在复杂越狱攻击下仍能保持鲁棒性与可靠性。大量实验结果表明,ADPO在VLM的安全对齐效能与通用能力保持上均显著优于基线方法。

图7. ADPO对抗预训练算法工作流程图
该工作发表于 EMNLP 2025。上科大信息学院2025级博士研究生翁丰华为论文的第一作者,王雯婕教授为通讯作者。
论文链接:
https://arxiv.org/abs/2502.11455;
代码链接:
https://github.com/thunxxx/Adversary-aware-DPO。


沪公网安备 31011502006855号


