王雯婕题组博士生2025年12月参加NeurIPS会议并做海报展示

Release Time：2026-04-13Number of visits：10

王雯婕题组博士生徐悦于2025年12月1日至9日前往美国加利福尼亚州圣地亚哥市参与NeurIPS 2025会议，并对本人中稿论文做海报展示。本次参会是一次非常重要的国际学术交流经历，不仅让我更直接地接触到人工智能领域最前沿的研究成果，也使我对自身研究工作的定位、未来研究方向的选择，以及如何开展高质量科研合作有了更深入的认识。现将此次参会、交流与返校后的相关情况总结如下。

首先，在论文工作方面，我此次展示的论文题为 Auto-Search and Refinement: An Automated Framework for Gender Bias Mitigation in Large Language Models。该工作主要聚焦大语言模型中的性别偏见缓解问题。当前大语言模型虽然在多种自然语言处理任务中表现优异，但由于预训练语料中隐含社会偏见，模型在实际使用中仍可能生成带有性别刻板印象甚至歧视倾向的内容。现有方法中，参数修改类方法通常需要访问模型内部参数，计算成本高，也不适合闭源模型；而基于人工设计提示词的方法虽然更灵活，但往往会干扰模型对原始任务的理解，导致通用任务性能下降。针对这些问题，论文提出了 FaIRMaker 框架，核心思想是“自动搜索 + 自适应精炼”。其首先通过梯度优化方式自动搜索能够抑制偏见的触发词 Fairwords，再利用一个 seq2seq 精炼模块将这些原本不可解释的触发词转化为自然语言指令，从而在面对性别相关问题时引导模型生成更公平的回答，而在普通问题上尽量保持甚至提升原有性能。实验结果表明，该方法在开源模型和闭源模型上都具有良好的适用性，能够有效降低性别偏见，同时保持任务完整性和通用能力。论文还进一步分析了Fairwords 的多样性、解释性、推理开销和可扩展性，说明该框架不仅是一种偏见缓解方法，也提供了一种面向闭源模型的轻量化对齐思路。

其次，在海报汇报与现场交流方面，此次展示过程使我切身感受到国际顶级会议中学术讨论的高强度与高质量。海报展示期间，来自不同研究背景的学者、学生和工业界研究人员对我的工作表现出较高兴趣，交流主要集中在以下几个方面：第一，FaIRMaker 与传统 prompt-based debiasing 方法相比，其自动搜索 Fairwords 的优势究竟体现在哪里；第二，seq2seq 精炼模块是否会在不同模型之间存在泛化边界；第三，该方法是否可以从性别偏见扩展到种族、职业、文化价值观等更广义的社会偏见场景；第四，若面向更复杂的 agent 场景或多轮交互场景，该方法如何保持稳定性。这些讨论一方面帮助我更清晰地表达自己工作的创新点，例如自动搜索扩大了有效提示空间、精炼模块增强了可解释性与闭源适用性；另一方面也让我意识到，偏见缓解不能只停留在单轮文本生成层面，而应进一步考虑多轮交互、长时程人机协作以及 agent 决策链条中的偏差传播问题。通过与参会者的反复交流，我对论文中方法设计的合理性、当前工作的边界以及后续可能的改进方向都有了更明确的认识。

在会议期间，我还系统了解和阅读了许多本领域及相邻领域的工作，收获非常丰富。结合会议报告、海报、口头报告以及与研究者的交流，我尤其关注了 alignment、agent、RLHF、多智能体系统、人机长期交互、可解释性和评测方法等方向。通过这些学习，我逐渐形成了几项较为明确的思考。第一，未来对齐研究将越来越强调“真实世界影响”，不仅关注静态 benchmark 上的安全性和公平性，也更加重视模型在现实应用中对用户行为、价值判断和决策过程的实际影响。第二，agent 系统的快速发展意味着单一模型层面的对齐已不足够，多智能体协作、自演化机制以及长期交互中的风险积累会成为新的重要问题。第三，评价方法本身将成为关键研究对象，尤其是在开放式问答和个性化生成任务中，如何构建更加稳健的 LLM-as-a-judge 体系，以及如何把多样性、鲁棒性与公平性纳入同一评价框架，值得持续探索。第四，我也开始进一步思考所谓 “Artificial Hivemind” 效应，即模型在大规模对齐和偏好优化后可能呈现出风格、判断趋同的问题。围绕这一点，未来可从数据增强与随机采样、奖励模型设计、对抗训练、多样性感知解码、交互式生成等层面寻找解决方案。同时，安全对齐是否会在某些条件下放大这种趋同效应，以及能否反过来利用这种机制提升多智能体系统的安全协同能力，也都是值得深入研究的问题。最后，在安全相关方向上，我还关注到一个很有启发性的思路：未来或许不应仅仅停留在“检测有害生成”，而需要更进一步研究“如何真正让模型完成对齐”，包括如何在没有现成 aligned model 的情况下获得安全相关神经元、如何设计双路径推理并根据输入自适应调用不同安全机制等。

最后，回校后我将此次参会收获系统反馈给课题组，结合会议期间所见所闻，对当前大模型研究中值得关注的方向进行梳理，包括 agent safety、多轮交互中的对齐、评价体系建设、多样性与个性化之间的平衡等内容，帮助组内同学拓展视野、把握前沿趋势。我希望通过这次分享，不仅总结本人参会收获，也能把国际会议中的前沿问题、研究方法和学术氛围带回课题组，促进后续更深入的讨论与合作。

总体而言，参加 NeurIPS 2025 并进行海报展示，是一次极具价值的学术经历。它不仅提升了我对自身研究工作的理解和表达能力，也帮助我更清楚地认识到当前大模型公平性与对齐研究的核心挑战与发展趋势。未来，我将继续围绕相关问题深入开展研究，并将此次会议收获转化为后续科研工作的动力与方向。

导航

王雯婕题组博士生2025年12月参加NeurIPS会议并做海报展示