我于2025年10月18日至24日参加了在美国夏威夷举行的2025年国际计算机视觉大会(ICCV 2025),展示了我们课题组在视觉定位领域的最新研究成果。我们提出了一种名为GeoDistill的几何引导弱监督自蒸馏框架,通过新颖的教师-学生学习模式,有效解决了跨视角定位任务中对昂贵位姿真值的依赖问题。该方法能够引导模型自主学习关键的几何特征,显著提升了在弱监督条件下的定位精度。本项成果已被ICCV 2025会议录用,并在大会的海报展示环节(Poster Session)进行了展示与交流。
国际计算机视觉大会(International Conference on Computer Vision, ICCV)是计算机视觉领域三大顶级会议之一,由IEEE主办,每两年举办一次。ICCV代表了该领域全球最高的学术水平和最新的发展方向,是汇聚全球顶尖学者与产业界研究人员的核心平台。
本次汇报的论文题为《GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization》(GeoDistill: 用于弱监督跨视角定位的几何引导自蒸馏方法)。近年来,通过匹配地面与卫星图像进行定位的跨视角技术,在自动驾驶、增强现实等领域展现出巨大潜力。现有方法大多依赖全监督学习,需要大规模、高精度的相机位姿真值进行训练,获取成本高昂,极大地限制了其实际应用。针对这一挑战,本文提出了GeoDistill框架。该方法创新性地采用教师-学生自蒸馏学习范式,其中教师模型负责定位信息丰富的全景图像,而学生模型则通过我们设计的基于视场角(FoV)的掩码机制,从信息受限的普通视角图像中进行学习。通过促使学生模型的预测结果与教师模型对齐,模型能够自主学会关注车道线等稳定的几何结构,同时忽略道路等无纹理区域的干扰,从而在无需精确位姿标注的弱监督条件下实现鲁棒的特征学习。实验结果表明,GeoDistill能够显著提升多种主流定位框架的性能,为现实世界中的大规模跨视角定位问题提供了一个可扩展且高效的解决方案。

除论文展示外,我还积极参与了多场学术活动。在会议的海报展示期间,我与来自谷歌、英伟达以及苏黎世联邦理工学院(ETH Zurich)等机构的研究人员就弱监督学习在机器人导航中的应用前景进行了深入交流。这些讨论不仅验证了我们研究方向的价值,也为未来可能的学术合作建立了初步联系。
此次ICCV 2025之行让我深刻体会到计算机视觉领域,特别是三维视觉与定位方向的最新发展趋势。随着自动驾驶和增强现实等应用的快速落地,学术界和工业界对鲁棒、高效且无需大量人工标注的定位技术需求日益迫切。弱监督或自监督学习已成为解决这一挑战的核心研究范式,旨在降低算法对数据的依赖,推动技术在真实世界中的大规模部署。
未来,我们课题组将继续在视觉定位方向深耕。一方面,我们将探索如何将GeoDistill框架扩展至更复杂的动态场景,并提升模型在极端光照或恶劣天气条件下的泛化能力。另一方面,我们将研究如何把这种几何引导的自蒸馏思想应用于其他相关的三维视觉任务,如三维重建和场景理解,致力于开发更通用、更智能的视觉感知系统,为推动大规模自主系统在现实世界中的部署与应用贡献力量。