我院13篇论文被CVPR 2018接收

发布时间:2018-07-02浏览次数:5453

      在刚刚过去的CVPR大会上,我院师生共有13篇论文被接收,被接收论文数量居国内高校前列,这充分展示了信息学院在计算机视觉领域一流的科研创新实力。
      CVPR(Computer Vision and Pattern Recognition, 计算机视觉与模式识别 )大会是计算机视觉与模式识别、人工智能领域的国际顶级会议,该会议每年的录取率都严格保持在29%左右。今年的CVPR大会于6.18-6.22期间在美国盐湖城举行。在人工智能学术与产业的风口下,会议总共吸引了来自全世界的6500多人参与,149家企业赞助或参展,可谓盛况空前。
      此次我校被接收的论文分布于四个教授研究组,他们分别是虞晶怡组、高盛华组、何旭明组和Laurent Kenip组,其被接收的论文数目分别是 5、5、3、1。其中论文6是虞教授组和高教授组合作完成的。

      

      虞晶怡教授组:

      论文1: Automatic 3D Indoor Scene Modeling from Single Panorama(Yang Yang, Shi Jin,  Ruiyang Liu, Sing Bing Kang, Jingyi Yu)
      我们的算法利用几何和语义的信息从一张普通的室内全景图恢复三维结构,并且能够处理对于其他方法较为困难的包含大量复杂几何的场景。
      论文2: Focus Manipulation Detection via Photometric Histogram Analysis (Can Chen, Scott McCloskey, Jingyi Yu)
随着图像修改变得日益便捷,该论文提出一种基于光度直方图的方法检测图片中人为的模糊化效果。在相应的数据集上,该方法达到了98%的准确率。
      论文3: 4D Human Body Correspondences from Panoramic Depth Maps(Zhong Li, Minye Wu, Wangyiteng Zhou, Jingyi Yu)
      本文提出了一种用深度学习网络来实现端到端的模型序列的压缩,先找到模型序列间的对应关系,继而压缩模型。不同于普通的方法,网络的输入为“全景”深度图,这样大大的减少冗余的图片信息,训练时间和数据大小,并且提高了准确率。
      论文4: Sparse Photometric 3D Face Reconstruction Guided by Morphable Models(Xuan Cao, Zhang Chen, Anpei Chen, Xin Chen, Shiying Li, Jingyi Yu)
      该论文针对人脸三维重建的问题提出一种新的结合光度立体重建和三维可变形人脸的方法,并且提出近点光源自标定的方法。实验结果显示该方法在非常少量的输入图片下就可以重建出包含皱纹、毛孔的精细模型,在同等输入下比已有方法有明显提高。


      高盛华教授组:

      论文5:  Future Frame Prediction for Anomaly Detection – A New Baseline(刘闻,罗伟鑫,廉东泽,高盛华)
      视频中的异常行为检测的目标是检测不符合预期的事件。我们在约束目标函数中除了外貌约束之外,还加入连续帧之间的光流图约束,这样最后能迫使视频预测网络在预测的过程中,不仅能很好地刻画外貌信息,还能刻画时序信息。在模拟数据上被证实具有很好的鲁棒性,并且在大量的真实开源数据集上取得了最好的效果。
      论文6: Gaze Prediction in Dynamic 360 Immersive Videos(徐衍钰, 董艳兵, 吴俊儒, 孙政忠, 石志儒, 虞晶怡, 高盛华)
      这篇论文探索了动态360度沉浸式视频中的凝视点预测,我们基于观看者历史的凝视路径和虚拟现实视频的内容,预测观看者接下来会看哪里。我们把卷积神经网络特征和长短期记忆网络特征结合起来去预测当前帧和接下来一帧观看者在凝视点上的偏差。通过扩展实验,我们的方法在动态虚拟现实场景中预测凝视点的有效性得到了验证。
      论文7: Face Aging with Identity-Preserved Conditional Generative Adversarial Networks(王宗伟,汤旭,罗伟鑫,高盛华)
      人脸老化对跨年龄人脸识别和娱乐相关的任务都很重要。然而现有数据集缺乏同一个人在不同年龄段的照片让年龄老化任务非常具有挑战性。我们假定每个年龄段的人脸都服从独特的数据分布,人脸老化就是将目标年龄段的人脸模式迁移到输入人脸上。我们提出的IPCGANs既可以拥有非常明显的人脸老化效果,又可以保持输入人脸的身份信息。定性和定量的实验结果都显示我们的模型在生成的图像质量、身份信息保持以及年龄分类方面是state-of-the-art。
      论文8: Learning to Parse Wireframes in Images of Man-Made Environments(黄坤,王一帆,周子寒,丁天骄,高盛华,马毅)
      我们提出了一个基于学习的方法来自动获取杂乱人造环境中的wireframe。该wireframe包含了场景中所有显著的长直线以及他们的连接点,这些准确的编码了场景大尺度的几何以及物体形状。为此,我们建立了一个超过5000张图片的大数据集,由人工提供标注。我们提出了一个基于神经网络的方法来检测线段和线段的交点,在我们数据集上训练的网络相较于其他经典算法取得了明显更好的效果。我们做了充分的实验来定量和定性的评估我们的算法,都显示我们的算法取得了更好的效果。wireframe对于很多3D应用都很有价值,期待进一步的探索。
      论文9: Encoding Crowd Interaction with Deep Neural Network for Pedestrian Trajectory Prediction(徐衍钰,朴志新,高盛华)
      行人轨迹预测是一项具有挑战性的任务,源于行人行走过程中复杂的属性。在本文中,我们通过考虑每个行人的运动信息及其与人群的相互作用,利用深度学习方法解决问题。具体来说,受深度学习中的残留学习的启发,我们提出预测每个行人的相邻帧之间的位移的方法。为了预测这种位移,我们设计了一个人群交互深度神经网络(CIDNN),它考虑了不同行人的不同重要性对目标行人的位移预测。在公开可用的数据集上进行广泛的实验验证了我们的方法在轨迹预测中的有效性。


      何旭明教授组:

      论文10:One-shot Action Localization by Learning Sequence Matching Network (Hongtao Yang, Xuming He, Fatih Porikli)
      当前基于学习的时序动作定位方法需要海量的训练数据。本文提出一个新的基于样例的动作定位问题:当仅提供少部分样例时,找到在未修剪的视频序列中跟样例有相同动作的区域。为了解决这个问题,本文引入了一种新颖的基于样例匹配的动作定位方法,通过匹配网络的一次学习技术并利用相关性来挖掘和定位之前没有见过的动作类别。
      论文11: Geometry-aware Deep Network for Single-Image Novel View Synthesis (Miaomiao Liu, Xuming He, Mathieu Salzmann)
      在本文中,我们提出利用三维场景的几何特征来合成新颖的视图。具体而言,我们用固定数量的平面逼近真实世界的场景,并学习预测一组单应性及其相应的区域掩码来将输入图像转换为新颖视图。为此,我们开发了一个新的区域感知型几何变换网络,在一个通用框架中执行这些多任务。
      论文12: SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text (Alexander Mathews, Lexing Xie, Xuming He)
      本文主要解决生成图像描述的问题,这些图像描述既在视觉上合理,又具有某种风格。我们开发了一个模型,学习如何从没有对齐图像的大型语料库的风格化文本中生成视觉相关的风格描述。这个模型的核心思想叫做SemStyle,用于分离语义和风格。一个关键部分是使用自然语言处理技术和框架语义生成的新颖简洁的语义术语表示。另外,我们开发了一个统一的语言模型,可以针对不同风格的多种词汇选择和语法解码句子。这项工作提供了从网上可用的大量语言数据中学习更丰富的图像描述的可能性。


      Laurent Kneip教授组:

      论文13:A Certifiably Globally Optimal Solution to the Non-Minimal Relative Pose Problem.( J Briales, L Kneip, and J Gonzalez-Jimenez.)

      本文针对非最少匹配点条件下两个标定视角之间的相对姿态问题提出了一种可证明的全局最优的计算方法。本文被CVPR接收为oral论文,oral论文的录取率仅为5%左右。

撰稿人       王宗伟