

#
上科大信息学院视觉与数据智能中心
Visual and Data Intelligence Center
上海科技大学信息科学与技术学院(以下简称“信息学院”)信息学院以中国科学院的科研平台为支撑,聚焦人工智能、芯片(含计算机架构、电路与器件)、可视计算、大数据、量子通信与计算、云计算与边缘计算、金融科技、无人驾驶、电动汽车、新能源、智能医学等涉及信息科学与技术的前沿和交叉研究领域。学院下设七大研究中心:视觉与数据智能中心、智能网络中心、后摩尔器件与集成系统中心、智慧电气科学中心、自动化与机器人中心、系统与安全中心、智能医学信息研究中心。
视觉与数据智能中心(Visual and Data Intelligence Center, VDI)聚焦视觉感知、数据智能、机器学习、自然语言处理、计算机图形学、科学计算、人机交互和可信大模型等方向,面向开放世界多模态理解、智能交互、具身智能、可解释 AI 与数据科学等前沿问题,推动人工智能从“感知理解”走向“推理决策”和“人机协同”。
● 推文看点 中心定位、研究版图、年度科研进展、科研成果、教师团队、国际合作与学生培养
● 关键词 视觉智能|数据智能|多模态大模型|可信 AI|计算机视觉|图形学|科学计算|人机协同



# 01 #
VDI 是什么?

VDI 面向人工智能从感知走向认知、从单点模型走向系统协同的关键趋势,汇聚计算机视觉、图形学、自然语言处理、机器学习理论、科学计算、可视分析、数据挖掘和人机交互等多方向力量。中心关注的不只是模型指标,也关注智能系统能否在复杂环境中理解场景、解释结果、生成内容、支撑决策,并与人类形成可信协作。
在 VDI 的研究框架中,视觉与数据并不是彼此独立的方向:视觉模型负责理解真实世界,数据智能负责发现规律与支撑决策,多模态大模型连接语言、图像、视频、三维结构和交互行为,最终服务于具身智能、科学发现、工业设计、数字人、智慧金融和人机协同等应用场景。
# 02 #
研究版图:从开放世界感知到可信智能体

· 开放世界多模态感知理解:面向复杂真实场景,研究视觉、语言、三维结构和行为数据的统一建模。
· 智能建模交互:围绕光场感知、场景重建、图形生成、数字人与交互式内容创作开展研究。
· 机器学习理论与数据科学:从扩散模型、强化学习、优化算法到金融科技和行为数据挖掘,构建可解释、可泛化的方法体系。
· 可信大模型与 AI Agent:关注大语言模型/多模态模型的安全、对齐、偏见消除、机制解释与通用智能体。
· 科学计算与高性能模拟:面向复杂流固热耦合、高精度求解器和物理仿真,连接计算科学与人工智能。
· 人机协同与可视分析:发展可解释 AI、数据可视化、人机交互和混合智能系统,提升真实数据分析效率。
# 03 #
科研亮点:多方向并进的智能研究生态

2025 年,VDI 各课题组在自然语言处理与可信大模型、科学计算与智能图形生成、机器学习理论与数据科学、计算机视觉、三维视觉与图形学、可视分析与人机交互等方向持续高质量产出,成果多发表于CCF-A类会议/国际领域知名会议、期刊,形成了从基础理论、模型机制到产业落地的完整研究链条。
向下滑动查看更多
# 04 #
科研成果:顶会顶刊与真实应用并重

VDI中心科研成果覆盖人工智能核心理论、视觉与图形学算法、数据科学方法、可信大模型系统及高性能科学计算等多个方向,坚持顶会顶刊前沿探索与真实场景落地并重,斩获多项国际顶级学术奖项,成果广泛应用于具身智能、自动驾驶、机器人操作、图形设计、数字人、金融科技、科学计算与人机协作等领域。
在人工智能技术飞速演进的今天,我们正面临一个核心命题:如何让 AI 真正成为人类的 “超强搭档”——既精准理解物理世界,又具备可靠推理与自然交互能力,更能以可信、透明、协同的方式服务于复杂场景?上海科技大学视觉与数据智能中心(VDI Center),正是以这一愿景为锚点,致力于构建可信、协同、认知的新一代人工智能系统,探索人机共生的未来图景。

VDI中心各组研究方向
中心围绕智能感知与3D重建前沿方向,突破单目图像重建、光场智能感知等关键技术瓶颈。中心的研究团队提出的CAST方法斩获SIGGRAPH 2025最佳论文奖,实现了从单张RGB图像到部件对齐3D场景的高精度重建;通过开放世界多模态感知理解、高效3D数据驱动生成技术,让AI 不仅能 “看见”,更能 “理解” 物体间的空间关系与物理规律,为建筑设计、数字孪生、智能制造等领域提供从实景捕捉到数字建模的全链路支撑。

智能三维感知重建
聚焦人机协同与可视分析方向,推动AI从 “工具” 向 “协作伙伴” 升级。团队研发的 ClueCart系统获CHI 2025最佳论文奖,可辅助游戏创作者从碎片化线索中构建叙事逻辑;在IEEE VIS 2025智能体可视化挑战赛中,该多智能体框架凭借通用化数据报告生成能力获得荣誉提名。从风险投资预测、大规模人类行为建模,到游戏叙事推理、古诗情感解码,研究团队以可视分析技术为桥梁,将复杂数据转化为可交互、可理解的场景,让不同领域的从业者都能借助AI放大专业能力,实现人机高效协同。

人机协同可视分析
面向大模型安全与可信AI领域诸多挑战,研究搭建起全维度安全防护与公平性保障体系。针对恶意诱导攻击、内容偏见输出等行业难题,相关研究提出多模态大模型安全对齐框架,依托动态防御技术精准识别并拦截各类有害指令;依托FairMaker公平性优化方法,能够有效消解智能输出内容中的性别偏见,保障人工智能交互回应客观公正。此外,领域内持续深耕大模型高效架构设计与句法语言模型相关研究,在稳步增强模型逻辑推理能力的同时,达成安全、公平、高效三大发展目标,为通用人工智能规模化落地应用筑牢坚实可信根基。

自然语言处理及可信大模型
# 05 #
教师团队:覆盖视觉、数据与智能系统的多方向力量

向下滑动查看更多
# 06 #
国际合作与学生培养:在真实问题中训练智能系统能力

VDI 各课题组与国内外高校、科研机构和产业界保持合作联系,合作网络覆盖 MIT、UC Berkeley、University of Maryland、University of Southampton、University of Sydney、Nanyang Technological University、HKUST、Tsinghua University、Google Research、Adobe Research、微软亚洲研究院、华为、百度、腾讯、蚂蚁、字节跳动等高校与企业。

在学生培养方面,中心鼓励学生尽早进入真实科研问题:从顶会论文发表,到国际会议交流;从大模型安全评测,到机器人操作与三维重建;从金融科技数据挖掘,到人机协同可视分析。学生可在跨学科问题、真实数据与产业场景中提升科研能力和工程能力。
# 07 #
就业与深造去向:VDI中心学生毕业概况

VDI 中心2023–2025 届硕博毕业生共 168 人,其中就业 123 人、深造 37 人。

毕业生风采展示(部分)
向下滑动查看更多
# 08 #
结语:面向下一代人工智能的视觉与数据引擎

从视觉感知到多模态理解,从数据建模到智能决策,从科学计算到具身智能,从可解释 AI 到可信大模型,VDI 正在构建一个连接算法、系统、场景与人的研究生态。未来,中心将继续面向开放世界与真实应用,推动视觉与数据智能走向更加可信、协同和通用的新阶段。
如果你希望理解人工智能如何“看见世界、理解世界、改变世界”,VDI 将为你打开一扇通向视觉智能与数据智能前沿研究的大门。
七大中心介绍将陆续放送,敬请关注!
























沪公网安备 31011502006855号


