基于深度学习的单张图像人群密度估计 (CVPR2016)

发布时间：2016-04-19浏览次数：3283

在各大城市中，随着居住人口密度的增长，人群大量聚集的行为越来越多，且规模越来越大。虽然在城市的每个角落几乎都装有摄像设备，但目前人群的聚集仍然缺乏有效的的管理和控制。人群密度过大很容易导致秩序失控，从而引发事故，如：人群的拥挤、混乱导致大量人员被挤伤、窒息或踩踏死亡。由于人群拥挤引发的事故在国内外屡见不鲜：1989年4月，在英格兰的希尔斯伯勒足球场由于球迷拥堵踩踏，造成200多人受伤96人死亡；2004年2月，北京迎春灯展发生特大踩踏事故，造成37人死亡15人受伤；2015年1月，上海外滩发生踩踏事故，造成36人死亡49人受伤。全球范围内，死亡人数过百的大规模踩踏事件每年都有发生，而事后分析表明，这些事故都有人群密度过大的特点，如果能够实时对人群密度进行估计、分析，及时进行合理的疏导后将会大大减少甚至完全避免类似事件的发生。另一方面，人群密度本身是非常重要、有意义的信息。比如对城市公交系统而言，同过及时获得乘客在空间上、时间上的分布情况来灵活调整车辆时间表；对于大型商场及连锁机构，可以通过乘客的流量信息来定制高效率的营销策略，等等。图1. 展示一些不同场景下的人群图片。

然而现实中，由于视角的不同，人群身体相互遮挡等难题，使得人群人数统计很困难。对此，信息学院的研究生张营营（导师：高盛华助理教授）和周德森（导师：马毅教授）、陈思秦（导师：马毅教授）等人从实际出发，提出一种基于多列卷积神经网络的深度学习模型，并将其用于人群密度估计算法，可以有效的解决现有人群人数统计中存在的问题。该算法的显著特征是可以针对任意大小的图片或者视频帧，输出图片中群的密度图，以及人群人数的预测。该模型由深度相同卷积核大小却不同的三列子网络构成，不同列的子网络对不同大小的人头敏感，从而使得网络更加精确。图2. 展示我们网络的输入以及输出图。

他们提出的方法在多个数据集上均已超过现有人群密度计数算法而获得最好性能。如针对校园内部的人群人数统计问题，在UCSD数据集上，算法的预测人数与实际人数相差平局不多于1.5个人，该算法有望用于外滩和南京路步行街场景的人数预测。项目成果已发表在国际计算机顶级会议计算机视觉和模式识别会议（CVPR 2016）上，张营营等人也将在今年6月前往美国拉斯维加斯在CVPR会议上展示相关成果。相关成果演示请看以下视频(特别感谢信息学院研究生刘闻对视频的录制)。更多技术细节参考论文：Single-Image Crowd Counting via Multi-Column Convolutional Neural Network.pdf

导航

基于深度学习的单张图像人群密度估计 (CVPR2016)