高盛华课题组徐衍钰(博)2019年8月-2020年1月于新加坡国立大学交流访学

发布时间:2020-01-10浏览次数:11938

我于20198月至20201月在学校和课题组的资助下,前往新加坡国立大学交访学。以下是我访学期间详细情况。

出访背景

近些年随着算力的提高和数据的增长,以深度学习为基础的各种方法在计算机视觉领域、自然语言处理或者音频的众多任务中取得非常好的效果甚至超出人类的水平。与此同时,多模态相关的任务引起研究者越来越多的兴趣和关注,比如视觉问答任务,图像中定位音源等等。新加坡国立大学冯佳时教授在机器学习以及计算机视觉,音频等领域颇有建树。此次访学主要希望在多模态问题——视觉和听觉信息的问题上与冯老师进行交流学习,具体问题上就是自动编舞问题,自动编舞涉及到音频和人体姿态的数据,希望可以在这个多模态的自动编舞问题上有所成果。

出访任务

此次访学主要是研究自动编舞的任务,具体来说,根据一段完整的音乐和少量初始舞蹈动作,模型可以持续预测接下来的舞蹈动作。整个任务流程如下图所示:

1. 任务流程示意图。给定探戈乐曲“Billie Jean (Philharmonic Edit)”和初始动作,我们模型预测接下来的卡通人物的舞蹈动作。

详细内容

在开始的一个月,我和冯老师探讨确定下来研究的主要方向——自动编舞或者说听音乐跳舞。在这一个月中,我调研最近几年关于自动编舞方面的相关论文,以及其他相关的工作,比如动作预测等等。非常关键有幸的是,我找到一个刚刚公开的编舞方面的数据集,包括4类国际舞蹈,有探戈、恰恰、华尔兹和伦巴,舞蹈动作都采集自专业的舞蹈演员,数据集质量非常高。在接下来一个月中,我开始着手确定研究问题的数学表达以及初步的模型设计。随后的两个月,我就开始不断尝试,做实验,找到问题,并且针对问题进行有针对性的修改。

此次访学,我主要研究自动编舞这一任务。具体来说就是,给定一首完整的乐曲和少部分初始舞蹈动作,模型需要预测接下来,舞者跟随乐曲所跳的舞蹈动作。编舞是一种复杂的艺术形态,包含编舞者灵感和创作。自动编舞问题有着很多的娱乐上的应用场景,比如人机交互、AR/VR的应用。举例来说,在AR/VR的应用上,可以利用用户给定的乐曲,来驱动动漫人物跟随乐曲跳舞。AR应用如下图所示,我们可以把卡通人物放在桌子上,然后播放乐曲,让卡通人物跳舞。

具体来说,在自动编舞任务中,已知一首完整的乐曲和少部分初始舞蹈动作,目标是预测接下来的舞蹈动作。我们把整个人简化为18个人体关键点,分别表示头、手、肘、脚踝以及膝盖等部分。同时,我们用人工设计的音频特征(梅尔频率倒谱系数、音频起始强度等)来表示最原始的音波信号。自动编舞问题最大的困难,以及和其他任务明显的区别在于,如何保证生成的舞蹈动作是符合给定乐曲的节奏的。通俗来讲,就是生成的舞蹈动作是要踩点,而不是随意乱动的。为此,我们设计一种名为DancingPose的方法,它包括三个模块,分别是Motion Encoder Module, Audio-guided Attention Module and Displacement Prediction Module。首先,Motion Encoder Module模块是用来编码舞蹈动作信息和提取动作特征。在Audio-guided Attention Module模块,我们首先计算当前乐曲片段和过往历史乐曲片段的相似度,找到那些和当前乐曲片段最为类似的过往历史片段,然后,我们就找到这些类似乐曲片段相对应的舞蹈动作,用这些舞蹈动作来帮助接下来舞蹈动作的预测。Displacement Prediction Module模块就是利用提取的动作特征和音频引导的动作特征来预测接下里的舞蹈动作。

我们的提出的方法,在这个编舞数据集上取得了很好的效果,相关成果已经投稿到计算机视觉顶级会议CVPR2020

收获和意义

在访学期间,我在冯教授的指导下完成自动编舞的工作,取得一些成果,并且把相关内容整理总结,于201912月投稿到计算机视觉顶级会议CVPR2020上。访学期间,我和冯老师课题组其他同学交流频繁,相互学习,接触到很多的其他领域的问题以及方法,极大地开阔视野。现在我已经结束访学回到学校,今后我继续在计算机视觉领域以及多模态问题上投入热情持续的研究,不负课题组与学校的栽培。

新加坡国立大学NUS校园一角