王雯婕课题组王一(硕)2025年7月参加ACL 2025会议并做海报展示

发布者:闻天明发布时间:2025-09-05浏览次数:3094

本人于2025726日至82日有幸前往奥地利维也纳,参加了第63届计算语言学协会年会 (Annual Meeting of the Association for Computational Linguistics, ACL 2025)。计算语言学协会年会是自然语言处理和计算语言学领域最具影响力的国际学术会议之一,汇集了来自世界各地的顶尖研究人员、学者和业界专家,共同探讨自然语言处理技术的最新进展和未来发展方向。作为王雯婕老师课题组的硕士生,我在王老师指导下完成了一项关于针对大语言模型越狱攻击的动态防御方法的工作,研究成果被ACL 2025会议接收为海报展示论文。此次出访旨在通过参加国际学术会议,展示研究成果,与国际同行研究人员进行学术交流,了解领域前沿动态,提升学术视野和研究能力。

ACL 2025在奥地利维也纳中心举行,会议内容包括主题演讲、论文报告、海报论文展示以及研讨会等;会议过程采用了线上线下相结合的方式。本次参会的主要任务包括:(1)在会议的指定时间段和场所进行研究成果的海报展示,向参会的同行研究人员介绍我们的研究成果,收到了多位学者的积极反馈和建议。(2)参与会议的各项学术活动,包括主题演讲、论文报告等,主要聆听关于大语言模型安全对齐,智能体安全,模型可解释性等方面的内容,拓宽了研究视野,了解了最新研究趋势和技术发展方向。

会议期间,我在海报展示环节展示了我们的工作《DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing》。该研究提出了一种新颖的防御方法,直接在大语言模型的关键层实施小范围编辑,把“有害触发词”映射到“安全响应”,同时保持模型在正常语境下不受影响。与之前的防御方法相比,DELMAN对模型改动小,适合部署后快速更新,防御效果显著,泛化性更好。且该方法在多个主流大语言模型上显著降低了攻击的成功率,多数场景攻击成功率直接降到0%,且在常规任务上几乎无性能损失。

聆听报告期间,我关注到来自Google DeepMindVerena Rieser发表的主题演讲 《Whose Gold? Re-imagining Alignment for Truly Beneficial AI》。该报告深入探讨了当前大模型对齐技术面临的根本性挑战,提出了超越传统harmlessnesshelpfulness目标的全新对齐框架。Verena从三个核心维度重新定义了对齐的本质:首先是“黄金标准”的重新构建,她强调对齐目标应明确区分“谁来定义”与“定义什么”的问题,并将对齐过程细分为三个渐进阶段,从短期的安全性考量转向更长期和复杂的应用场景;其次是多样性问题的深度剖析,她指出传统的多数投票机制在确定黄金标签时会丢失重要的少数群体观点,并提出了针对多数派与少数派群体进行差异化对齐提取的修正方案;最后是长期陪伴AI的对齐挑战,她通过具体案例分析了人类对AI依赖的利弊权衡,探讨了如何在保持人类自主性的同时实现长期陪伴模型的有效对齐,这仍然是一个开放性的研究课题。这一报告不仅为大模型对齐研究提供了全新的理论视角和实践方向,也在更深层次上推动了我们对AI与人类价值观协调问题的系统性思考,为构建更加可信、包容且可持续的人工智能系统奠定了重要的理论基础。

此次参加学术会议收获颇丰,通过海报展示成功地向国际学术界展示了研究成果,得到了同行的认可和宝贵建议。通过参与会议的各项学术活动,我与多位国际学者建立了联系,探讨了潜在的合作方向,并全面了解了自然语言处理领域的最新研究进展和发展趋势,特别是在大语言模型安全对齐、模型可解释性和多模态学习等方向上获得了深入认识。此外,积极参与学术讨论与交流提升了我的英语和学术表达能力,接触国际前沿研究方法也为今后的研究工作提供了新思路和方向。