陈宇奇课题组郁钧哲（本）2024年11月参加ASE会议并作汇报

发布时间：2025-02-19

我在会议现场就课题组工作进行汇报

我此次出访，参加的是39th IEEE/ACM International Conference on Automated Software Engineering (ASE 2024)会议。我于2024年10月27日由浦东国际机场启程，于西雅图国塔克马机场入境美国，当地时间10月27日抵达并下榻会址加利福尼亚州萨克拉门托市喜来登大酒店。会程于当地时间11月1日结束。当地时间11月2日，我从萨克拉门托机场出发，经达拉斯沃斯堡机场中转，于北京时间11月4日抵达上海，实际出访时间为9天。我汇报的工作《Efficient Detection of Toxic Prompts in Large Language Models》是上海科技大学陈宇奇教授课题组和南洋理工大学刘杨教授课题组合作完成的。由于陈教授以及课题组另一位论文作者有其他任务，所以我独自由上海前往会议地点。对方课题组有一人也参加了这次会议。

我是该工作的共同第一作者，承担了方法实现与实验和部分的论文撰写工作。我们的这篇工作的核心是通过大语言模型中对上下文的表征来识别和检测有害的提示词。在工作的最初阶段，我们的设想是通过对大模型的表征进行注入攻击，从而使得其防御机制失效，继而同意回应有害提示词的要求。但是在实验的过程中，我们发现效果并不理想。于是我们对大模型中间表征的有关工作做了进一步的探究，并在实验中发现其中的部分表征和提示词的有害与否有着很强的关联性。于是，我们转而研究有害提示词的检测方法。我们发现，现有方法存在诸多问题，比如运算资源开销过大或延迟过大、重新训练成本较高、适应性不够等等。比如，有些基于机器学习的私有模型需要调用远程服务器的API，造成实时性不好，而这些模型本身又是语言模型，需要重新对自然语言形式的提示词进行重新的编码和推理，其效率也不高。于是，我们创新性的通过直接在运行时提取大语言模型的中间表征，结合可人为随时调控的“有害概念提示词”的比较分析，实现了一个轻量级的、灰盒的、实时性的、可解释的有害提示词检测方法，对基于AI的应用的自动化防御作出了一定的贡献。

当地时间2024年10月31日上午，AIWare方向的会议在酒店Camellia会议厅举行，我在会场就我们的工作作了报告。报告总结了我们工作的背景、目前方法的挑战、我们的设计、实验评估的结果以及对未来研究的启示。我的报告得到了会议主席和在场研究人员的认可。

在会议中，我还与参会师生进行了其他的一些讨论，增进了对软件工程自动化领域的热点问题的了解和兴趣，这对于我对自己科研生涯的规划有着极大的的帮助。除了AIWare的会议之外，我还参加了博士生论坛、LLM for SE、Program Analysis等的讨论，和来自美国、印度、韩国等许多国家的研究人员有着密切的交流，其中也有像我一样寻求博士生职位的本科生，也有很多相关方向的博士生和教授，他们都热情地分享自己的科研和生涯心得，对我有深刻的启发。比如，我与一位来自UC Davis的本科生讨论了如何认识自己的科研兴趣、如何寻找心仪的课题组等问题，一位来自加州州立大学的教授向我们细致地分享了怎样在美国的校园里从容应对科研与教学压力，从而掌控和丰富自己的生活。

通过参加此次会议，我还对美国的生活和文化有了更深入的了解。萨克拉门托市既保留着老西部风貌，又展现出现代城市的繁华与活力：在老城区漫步时，可以看到充满历史韵味的木板人行道和复古风格建筑；在主办方的精心安排下，我们还专程前往河畔（Riverfront）散步，欣赏沿岸风光，并参观了火车博物馆（California State Railroad Museum），近距离了解美国铁路发展史。而位于市中心的加利福尼亚州议会大厦更是这座城市的标志性区域，周围不仅有整洁的街道和优美的花园，也集中了不少艺术画廊和文化场所，为这座首府城市增添了独特的庄严与魅力。

最后，请允许我感谢陈教授的悉心指导、课题组学长学姐的支持与关心、各位合作者的鼎力相助以及学校和课题组给我的慷慨资助，使得我有了这样一段宝贵的经历。在未来的科研之中，我会再接再厉，争取获得更多优秀的科研成果，以回报学校、老师和同学给我的支持。

导航

陈宇奇课题组郁钧哲（本）2024年11月参加ASE会议并作汇报