王雯婕
助理教授、研究员、博导
博士毕业院校: 美国埃默里大学
电话: 18115135470
办公室: 信息学院1C-503E室
个人主页: https://wwj95.github.io
专业方向:
单位:
所属课题组:
研究方向: 大模型安全对齐,智能体安全,可信人工智能,隐私计算
招聘主页:
简介
团队
科研
教学
服务
成果
论文
影集
报道
主要岗位职责(A角)
兼任岗位职责(B角)
兼任岗位职业(C角)

王雯婕博士现为上海科技大学信息科技与技术学院的助理教授、研究员、博士生导师。2017在华中科技大学获得学士学位,2022在美国埃默里大学计算机科学系获得博士学位。2023年加入上海科技大学成立ASPIRE Lab,主要研究领域是可信人工智能和大模型安全,视觉语言模型安全。



在校生
  • 姓名:徐悦
    身份:微小行星联合培养博士生
    教育背景:
    邮箱:xuyue2022@shanghaitech.edu.cn
    研究方向:大模型偏见消除、个性化对齐
  • 姓名:翁丰华
    身份:博士生
    教育背景:
    邮箱:wengfh2023@shanghaitech.edu.cn
    研究方向:多模态大模型安全对齐
  • 姓名:周宇凯
    身份:博士生
    教育背景:
    邮箱:zhouyk12023@shanghaitech.edu.cn
    研究方向:大模型安全
  • 姓名:傅铖彦
    身份:研究生
    教育背景:
    邮箱:
    研究方向:对抗攻击
  • 姓名:陆飞扬
    身份:研究生
    教育背景:
    邮箱:
    研究方向:语音大模型安全
  • 姓名:陈天宇
    身份:研究生
    教育背景:
    邮箱:
    研究方向:大模型水印技术、智能体安全
  • 姓名:王一
    身份:研究生
    教育背景:
    邮箱:
    研究方向:大模型安全
  • 姓名:杨俊杰
    身份:研究生
    教育背景:
    邮箱:
    研究方向:联邦学习,隐私计算
  • 姓名:张昊
    身份:研究生
    教育背景:
    邮箱:
    研究方向:LLM-as-a-Judge鲁棒性
  • 姓名:姚蕴杰
    身份:研究生
    教育背景:
    邮箱:
    研究方向:大模型安全
  • 姓名:邱红叶
    身份:研究生
    教育背景:
    邮箱:
    研究方向:大模型偏见消除
  • 姓名:齐修远
    身份:研究生
    教育背景:
    邮箱:
    研究方向:大模型个性化对齐
  • 姓名:胡楚嘉
    身份:研究生
    教育背景:
    邮箱:
    研究方向:大模型安全对齐
校友
  • 姓名:徐悦
    身份:微小行星联合培养博士生
    教育背景:
    研究方向:大模型偏见消除、个性化对齐
    毕业去向:
  • 姓名:翁丰华
    身份:博士生
    教育背景:
    研究方向:多模态大模型安全对齐
    毕业去向:
  • 姓名:周宇凯
    身份:博士生
    教育背景:
    研究方向:大模型安全
    毕业去向:
  • 姓名:傅铖彦
    身份:研究生
    教育背景:
    研究方向:对抗攻击
    毕业去向:
  • 姓名:陆飞扬
    身份:研究生
    教育背景:
    研究方向:语音大模型安全
    毕业去向:
  • 姓名:陈天宇
    身份:研究生
    教育背景:
    研究方向:大模型水印技术、智能体安全
    毕业去向:
  • 姓名:王一
    身份:研究生
    教育背景:
    研究方向:大模型安全
    毕业去向:
  • 姓名:杨俊杰
    身份:研究生
    教育背景:
    研究方向:联邦学习,隐私计算
    毕业去向:
  • 姓名:张昊
    身份:研究生
    教育背景:
    研究方向:LLM-as-a-Judge鲁棒性
    毕业去向:
  • 姓名:姚蕴杰
    身份:研究生
    教育背景:
    研究方向:大模型安全
    毕业去向:
  • 姓名:邱红叶
    身份:研究生
    教育背景:
    研究方向:大模型偏见消除
    毕业去向:
  • 姓名:齐修远
    身份:研究生
    教育背景:
    研究方向:大模型个性化对齐
    毕业去向:
  • 姓名:胡楚嘉
    身份:研究生
    教育背景:
    研究方向:大模型安全对齐
    毕业去向:

本科生课程:

    CS181 人工智能:2025Fall

    CS150A 数据库:2024Spring, 2024Fall

研究生课程:

    CS246 可信机器学习:2023Fall, 2025Spring 



  • 1. Fenghua Weng, Jian Lou, Jun Feng, Minlie Huang, Wenjie Wan#, Adversary-Aware DPO: Enhancing Safety Alignment in Vision Language Models via Adversarial Training, Empirical Methods in Natural Language Processing (EMNLP Findings), 2025,
  • 2. Yukai Zhou, Jian Lou, Zhijie Huang, Zhan Qin, Yibei Yang, Wenjie Wang#, Don't say no: Jailbreaking llm by suppressing refusal, Annual Meeting of the Association for Computational Linguistics (ACL Findings), 2025,
  • 3. Yi Wang, Fenghua Weng, Sibei Yang, Zhan Qin, Minglie Huang, Wenjie Wang#, DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing, Annual Meeting of the Association for Computational Linguistics (ACL Findings), 2025,
  • 4. Fenghua Weng, Yue Xu, Chengyan Fu, Wenjie Wang#, MMJ-Bench: A Comprehensive Study on Jailbreak Attacks and Defenses for Multimodal Large Language Models, The Association for the Advancement of Artificial Intelligence (AAAI), 2025,
  • 5. Yue Xu, Xiuyuan Qi, Zhan Qin, Wenjie Wang#, Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models, Conference on Empirical Methods in Natural Language Processing (EMNLP Findings), 2024,
  • 6. Yue Xu, Wenjie Wang#, LinkPrompt : Natural and Universal Adversarial Attacks on Prompt-based Language Models, North American Chapter of the Association for Computational Linguistics (NAACL), 2024,
  • 7. Wenjie Wang, Pengfei Tang, Jian Lou, Yuanming Shao, Lance Waller, Yi-an Ko, Li Xiong#, IGAMT: Privacy-Preserving Electronic Health Record Synthesization with Heterogeneity and Irregularity, The Association for the Advancement of Artificial Intelligence (AAAI), 2024,
  • 8. Jia Cui; Heng Lu; Wenjie Wang; Shiyin Kang; Liqiang He; Guangzhi Li; Dong Yu#, EFFICIENT TEXT ANALYSIS WITH PRE-TRAINED NEURAL NETWORK MODELS, IEEE Workshop on Spoken Language Technology, 2023,
  • 9. Wenjie Wang; Pengfei Tang; Jian Lou; Li Xiong#, Certified Robustness to Word Substitution Attack with Differential Privacy, North American Chapter of the Association for Computational Linguistics (NAACL), 2021,
  • 10. Pengfei Tang; Wenjie Wang; Jian Lou; Li Xiong#, Generating Adversarial Examples with Distance Constrained Adversarial Imitation Networks, IEEE TRANSACTIONS ON DEPENDABLE AND SECURE COMPUTING (TDSC), 2021,
  • 11. Wenjie Wang; Pengfei Tang; Li Xiong; Xiaoqian Jiang#, RADAR: Recurrent Autoencoder Based Detector for Adversarial Examples on Temporal EHR, European Conference on Machine Learning and Data Mining, 2020,
  • 12. Wenjie Wang; Youngja Park; Taesung Lee; Ian Molloy; Pengfei Tang; Li Xiong#, Utilizing Multimodal Feature Consistency to Detect Adversarial Examples on Clinical Summaries, The 3rd Clinical Natural Language Processing Workshop At EMNLP , 2020,
  • 13. Xue Zhu; Xi Li; Wenjie Wang; Kang Ning#, Bacterial contamination screening and interpretation for biological laboratory environments, Medicine in Microecology , 2020,