科研进展|信息学院李权课题组在人机交互领域取得多项成果

发布时间:2026-04-01浏览次数:10

上海科技大学信息科学与技术学院李权课题组(交互智能与可视分析实验室ViSeer LAB: https://viseerlab.cn/)专注于构建以人为中心的、可解释的人工智能系统。实验室融合交互式可视分析与自动机器学习技术,重点提升模型的可信性、公平性与鲁棒性,深化人机协同。研究涵盖人工智能驱动的可视化与创意设计自动化,包括视觉编码、数据叙事生成等创新应用;同时聚焦面向重大社会与科学问题的人机协同可视分析,为数据驱动的决策支持与方案优化提供支撑。近期,课题组在人机交互领域最有影响力的国际会议ACM CHI 2026(ACM计算机人因会议)上发表了五篇长文研究成果,涵盖多模态语言学习、医学诊疗与虚实训练、大模型合作信任、以及社交媒体去偏见交互等多个前沿方向。该会议将于2026年4月13日至17日在西班牙巴塞罗那召开。


一、医生如何评估AI诊断?新研究揭示医疗AI信任的关键


在医疗人工智能快速发展的背景下,大语言模型展现出辅助疾病诊断的巨大潜力。然而,其融入临床实践的核心障碍,即医生是否真正信任AI的判断,仍未得到充分理解。针对这一关键问题,李权课题组与上海临床研究中心合作开展了深入研究。


该研究创新性地提出一套量化评估框架,将医生对AI的主观感知转化为可比较的“感知能力得分”,为构建更安全、可信的AI辅助诊断系统提供了关键依据。区别于传统依赖标准化医学题库准确率的评估方式,本研究紧密贴合真实临床决策的动态性与复杂性,完整涵盖从病史询问、证据整合到鉴别诊断与治疗规划的全流程。


研究采用两阶段交互式实验设计。首先,团队构建了9个涵盖不同专科的真实临床病例,由不同资历的医生与包括GPT、Gemini在内的6个主流大语言模型分别进行独立诊断分析。随后,邀请多名医生作为评估者,从诊断逻辑连贯性、准确性、推理可靠性等7个核心维度,对所有分析报告进行盲评与排序。通过采用Bradley-Terry排序回归模型及累积链接混合模型等统计方法,研究者成功将多维评分综合为统一的“感知能力得分”,从而实现了对AI临床推理能力的量化度量。


图1. 使用系统与大模型模拟的病人问诊,收集案例分析的诊断数据。


研究发现了几项关键洞察。其一,AI在标准化基准测试上的表现与医生的感知能力虽呈正相关,但达到一定阈值后呈现边际效益递减,表明仅追求基准高分不足以建立充分信任。其二,“临床可接受性”,即诊断与治疗方案在实际场景中的可行性、可操作性及风险意识,在所有维度中对医生整体评价的影响权重最高,这意味着即便诊断结论正确,若推理过程脱离临床实际,也难以获得医生认可。其三,传统评估体系过度聚焦“诊断结论准确性”,相对忽视了医生同样重视的“诊断询问逻辑性”、“治疗原则全面性”等维度,暴露出与真实临床需求的脱节。其四,表现最佳的大语言模型在整体评估中稳定优于多数非专科医生,并与专科高年资医师表现相当,证实了其在辅助复杂临床推理方面的切实潜力。


图2. 使用系统对不同的案例分析进行排序和具体维度的打分,收集用户感知的临床推理数据。


该研究成果由上海科技大学信息科学与技术学院李权课题组与上海临床研究中心合作完成,并以“Do I Trust the AI? Towards Trustworthy AI-Assisted Diagnosis: Understanding User Perception in LLM-Supported Reasoning”为题发表于ACM CHI 2026。信息科学与技术学院2023级博士研究生徐源松(https://yansen-xu.github.io/)为论文的第一作者,李权教授为通讯作者。


论文链接:

https://arxiv.org/abs/2601.19540


二、助力医疗培训:实时自适应VR系统,助力新手医生战胜手术压力


在手术室中,患者生命体征的骤然恶化让每一秒都至关重要。新手医生在此类高压情境下,常因突如其来的压力而出现“大脑空白”、决策迟缓,这不仅构成个人心理挑战,更直接关乎患者安全。针对这一紧迫问题,李权课题组研发出一套创新的虚拟现实(VR)应激接种训练系统。该系统能够扮演“智能教练”的角色,在医生压力峰值时刻,实时提供个性化的认知与情绪支持。


与传统侧重于场景模拟与事后评估的VR医疗训练不同,本研究的核心创新在于引入了“适时自适应干预”框架,使系统首次具备动态感知与实时响应的能力。通过集成光电容积描记(PPG)与皮电反应(GSR)传感器,系统可实时监测受训医生的心率、心率变异性及皮肤导电性等生理指标,从而精准判断其压力水平。当检测到压力超过阈值、预示可能出现“认知冻结”或“决策滞后”时,系统便会自动触发一套分层、个性化的干预策略。


图3. 模拟病房。系统采用虚幻5引擎开发,增强用户的沉浸式体验。


这些策略基于一项先导研究,精准回应了新手医生的三大核心需求:一是自我调节辅助,如在视野边缘提供节律性呼吸引导光效与实时压力颜色反馈,帮助平复生理唤起、恢复认知控制;二是流程引导,采用从目标提醒到步骤指示再到关键物体高亮的分级提示,根据操作犹豫程度动态调整,在提供支持的同时保护决策自主性;三是情绪与感官支持,如智能过滤环境噪音,或调派虚拟护士进行语音鼓励,以缓解孤独与焦虑。


图4. 系统模拟的甲状腺切除术后颈部血肿处理工作流。


为验证系统有效性,研究团队以“甲状腺切除术后颈部血肿”这一典型急诊场景进行了对照实验,结果表明,使用该系统的实验组在任务完成率(69.23% 对 15.38%)与操作速度上均显著优于对照组。更重要的是,实验组的认知恢复时间平均仅为5.09秒,比对照组的11.19秒缩短了一半以上,且主观挫折感大幅降低。


该研究成果由上海科技大学信息科学与技术学院李权课题组与上海临床研究中心合作完成,并以“When Seconds Count: Designing Real-Time VR Interventions for Stress Inoculation Training in Novice Physicians”为题发表于ACM CHI 2026。信息科学与技术学院2024级硕士研究生张书豪(https://keithz1004.github.io/)及2025级硕士研究生董佳和(http://dongjh.site/)为论文共同第一作者,李权教授为通讯作者。


论文链接:

https://arxiv.org/abs/2601.17458


三、基于大语言模型的口头病例汇报训练:推动医学教育智能化变革


清晰、准确的口头病例汇报是医学生与临床医师必须掌握的核心技能。然而,传统训练模式常面临学生参与不均、教师反馈不足与资源有限等挑战。针对这一问题,李权课题组开发的智能训练系统CaseMaster,通过深度融合大语言模型技术,为医学口头病例汇报培训带来了突破性进展。


图5. 口头病例汇报示例。 左侧为临床环境中的病例汇报场景,医疗专业人员围绕病例展开讨论;右侧为口头病例汇报的结构化框架,包括四个核心部分:主观信息、客观信息、评估和计划,分别对应病史与症状、检查结果、诊断分析及治疗方案。


CaseMaster并非简单的对话工具或语音评测软件,而是构建了一个分阶段、强引导、可反馈的完整训练闭环。其核心创新体现在三个方面:首先,采用双阶段训练架构,在准备阶段引导学生按SOAP(主观、客观、评估、计划)结构逐步构建汇报内容,系统提供搜索知识点、评估逻辑性等预设活动以辅助系统化思考;在反思阶段,系统则自动比对参考答案,通过可视化差异高亮与量规化评分提供即时、精准的反馈。其次,实现LLM 的深度教学集成,通过精心设计的提示模板,将模型输出严格约束于教学框架内:在准备阶段扮演“智能导师”,在反思阶段则作为“自动评分员”,其评分与专家评分具有高度一致性(ICC = 0.88)。第三,坚持数据驱动与教育适配,系统内置经医学专家审核的30个真实临床病例,并通过控制温度参数与输出长度,确保生成内容既具启发性又符合医学规范。


图6. CaseMaster 支持的口头病例汇报训练流程。训练流程分为准备阶段与反思阶段:在准备阶段,学习者完成病例选择与聚焦,并借助预设活动进行结构化准备;在反思阶段,学习者进行口头病例汇报,并通过问题标注与反馈支持对汇报表现的反思与改进。



研究团队通过两项实验验证了系统效能。在针对医学生的实验中,使用CaseMaster的学生在鉴别诊断清晰度上显著优于使用传统工具(如ChatGPT)的对照组,并在内容组织与逻辑性上呈现积极趋势,学生反馈系统“降低了认知负荷”。在医学教师的评估中,专家认可系统在提供即时反馈、减轻教学负担方面的价值,认为其可作为传统教学的有效补充,尤其在规模化培训与自主学习中潜力显著。


该研究成果由上海科技大学信息科学与技术学院李权课题组与上海临床研究中心合作完成,并以“CaseMaster: Designing and Evaluating a Probe for Oral Case Presentation Training with LLM Assistance”为题被ACM CHI 2026接收。2023级博士研究生欧阳阳(https://cat-ouyang.github.io/)为论文第一作者,李权教授为通讯作者。


论文链接:

https://arxiv.org/abs/2601.19332


四、突破信息茧房:让在线评论浏览更理性、更公正


在数字化时代的信息洪流中,在线评论深刻影响着人们的消费、旅行乃至健康决策。然而,平台算法往往基于热度或情感强度进行排序,极易引发用户的“锚定效应”等认知偏差,导致判断失衡。为应对这一普遍问题,李权课题组研发了一款名为CommSense的智能浏览器插件。该插件通过创新的界面设计与轻量级提示机制,引导用户更理性、全面、反思性地浏览与评估评论。


CommSense的核心创新在于其“四阶段决策路径”模型与即插即用的轻量化架构。基于前期研究发现的用户认知规律:初始定位、证据搜集、信念更新与综合判断,系统设计了三段式交互界面:首先,通过语义聚类概览图直观呈现评论的情感与话题分布,帮助用户建立整体认知,避免以偏概全;其次,借助导航与标注面板支持按主题筛选、内容标注与观点对比,并在检测到“选择性阅读”时触发智能提醒;最后,通过动态综合看板整合标注记录、浏览历史与生成摘要,辅助用户梳理思路、形成结构化判断。


为实现上述功能,CommSense融合了语义嵌入与降维、情感分析、主题提取等关键技术,并构建了响应式前端与模块化后端。其意义不仅在于技术创新,更体现为一种“认知界面”的探索:它有助于提升公众信息素养,帮助用户在复杂信息中保持批判性思维;为社交、电商等平台提供了可落地的去偏见设计范式;通过融合认知心理学、行为科学与可视化技术,拓展了人机协同决策的研究路径;其框架也可扩展至医疗讨论、产品评测等高冲突信息场景,具备广泛适用性。


图7. CommSense 在用户评论阅读过程中提供整体情绪分布概览与反思式提示,帮助用户意识潜在偏见并调整浏览策略。


通过三阶段实验(初步实验、协同设计工作坊与系统评估),团队验证了CommSense的有效性。在对比实验中,使用该插件的用户在多项指标上显著优于传统界面用户:判断质量更高(逻辑一致性、证据支持度等提升约20%);认知负荷更低(NASA-TLX量表显示心理需求、时间压力等维度负担减轻);浏览行为更均衡(阅读内容在语义与情感分布上更接近真实情况,有效打破了“信息茧房”)。


该研究成果以“CommSense: Facilitating Bias-Aware and Reflective Navigation of Online Comments for Rational Judgment”为题被ACM CHI 2026接收。论文由上海科技大学信息科学与技术学院李权课题组与创意与艺术学院顾小煜老师合作完成,2023 级博士研究生欧阳阳(https://cat-ouyang.github.io/)与2021级本科生高胜寒(https://gaoshh711.github.io/)为共同第一作者,李权教授为通讯作者。


论文链接:

https://arxiv.org/abs/2601.19347


五、AI重塑记忆法:多模态大模型如何成为外语词汇的“认知脚手架”


关键词记忆法是一种经典的外语词汇记忆方法,其核心在于借助语音相似的母语关键词并构建视觉联想以强化记忆。尽管认知心理学研究已证实该方法的有效性,但学习者在实际运用中常面临三项主要挑战:寻找语音高度契合的关键词、构建逻辑连贯的联想关系,以及形成生动清晰的心智图像。现有的技术解决方案往往趋于两极:要么完全自动化生成,削弱学习者的主动认知参与;要么缺乏过程引导,导致学习成效有限。


针对上述问题,李权课题组提出了面向关键词记忆法的人机协同学习系统WordCraft。该系统融合多模态大语言模型与交互式技术,围绕关键词记忆法的核心认知流程,构建了“关键词生成—联想构建—意象形成”三阶段过程支架,旨在降低学习负担的同时,保留学习者自主生成内容所带来的认知增益,实现“辅助而非替代思考”的智能化学习支持。


图8. WordCraft系统整体流程与界面概览。系统围绕关键词记忆法构建完整学习闭环。


WordCraft的核心创新在于其过程导向的交互设计与多模态大语言模型的深度融合。系统将关键词记忆法分解为三个阶段,并为每个阶段提供动态且适度的AI支持。首先,在关键词生成阶段,学习者可对单词的国际音标进行自由切分,系统基于语音片段推荐语义相关的中文关键词,并提供词义解释与推理依据,在维持语音关联的同时强化语义理解。其次,在联想构建阶段,系统通过“联想图谱”可视化工具,协助学习者将关键词与目标词义相连接,并提供启发式建议,以构建逻辑清晰、便于记忆的联想关系。最后,在图像形成阶段,学习者可在“心智画布”上布局关键词及相关联想元素,系统依据布局与文字描述生成对应图像,从而将抽象联想转化为具体视觉记忆。


研究团队通过两项用户实验验证了WordCraft的有效性。在对比实验中,WordCraft在词汇记忆保持率与学习体验满意度等方面均显著优于基于GPT-4o的开放式对话界面及传统单词卡方法。特别值得注意的是,WordCraft在延迟记忆测试(一周后)中表现突出,表明其有助于形成更为持久的记忆效果。团队也验证了WordCraft能够有效保持“生成效应”——即学习者通过自主思考生成的内容比被动接收的内容记忆更深。实验结果表明,使用自创记忆线索的学习者在长期回忆任务中显著优于使用他人生成线索的学习者。


图9. 使用 WordCraft 和 GPT-4o 生成的输出示例对比。


该研究成果由上海科技大学信息科学与技术学院李权课题组完成,也得到了来自创意与艺术学院的设计支持,以及上海市奉贤区待问中学的教研支持。论文以“WordCraft: Scaffolding the Keyword Method for L2 Vocabulary Learning with Multimodal LLMs”为题发表于ACM CHI 2026。信息科学与技术学院 2024 级硕士研究生邵煜恒(syh-1018.github.io)与 2025 级硕士研究生熊俊杰(bearxjj.github.io)为论文共同第一作者,李权教授为通讯作者。


论文链接:

https://arxiv.org/abs/2602.00762