备注:由于疫情影响,取消了既定的参会行程,该小结为看网络直播的感想。
美国人工智能协会,即the Association for the Advance of Artificial Intelligence(AAAI) 是世界范围的人工智能领域的主要学术组织之一,在全球有超过6000名会员。本届AAAI 2020会议于2020年02月6日在美国纽约召开,共接收到有效投稿7737篇,其中共有1591篇文章接收,接收率为20.6%。本次会议吸引了来自全世界超过7000名研究人员,100多家人工智能公司参会,就人工智能热点问题,前沿技术以及落地难点展开讨论。
幸运的是,我们的文章“Learning Cross-Modal Context Graph for Visual Grounding”被此次会议收录。这篇文章主要探讨视觉定位任务,即如何建立自然语言和视觉图像的对应关系,该问题的难点在于在复杂的图像场景和语言表达中存在大量歧义性,在这种情形下建立对应关系是十分困难的。为此,我们利用语言的结构信息建立了可以感知上下文的Language Scene Graph,并以此扩展到视觉部分构建了以检测物体为基础的Visual Scene Graph来捕获图像中上下文信息。我们最终把视觉定位任务转化为全局优化的图匹配任务,即利用 noun phrases之间的关系对定位结果进行约束,从而达到最好的匹配效果。实验结果表明,我们的方法在Flickr30k Entities数据集上取得最优的性能,大幅度超过现有的方法。
由于新冠肺炎疫情影响,我没能去美国纽约亲自参会,但是我们委托了在美国进修的前上科大本科生周扬帮忙展示文章海报。在会议期间,我们的文章受到了同行的关注并得到不错的评价。在线上学习过程中我也收益匪浅,不仅有许多相关的工作给了我深刻的启发,如VQA,Image Captioning,同时有一些Learning相关的工作也让人眼前一亮,比如在Graph Neural Network领域的一些进展和报告。这些思想极大地扩展了我的视野,让我能对未来的科研方向有更为清晰的把控。非常感谢学校和导师能够给予我报名参加此次会议的机会,让我们的工作有机会让更多人熟知。在这个特殊阶段参加的特殊会议也我积累了不少干货,让我更有动力地在科研道路上一路走下去!
图1 周扬同学为我们展示海报