【原】ACM第一名：基于轨迹感知多模态特征的视频关系检测

小白学视觉 2021-02-01

展开全文

点击上方“深度学习爱好者”，选择加"星标"或“置顶”

重磅干货，第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

视频关系检测问题是指对视频中不同对象之间的关系进行检测，如空间关系、动作关系等。在本文中，作者提出了基于轨迹感知的多模态特征的视频关系检测来解决这一问题。考虑到视频视觉关系检测的复杂性，作者将该任务分解为三个子任务:目标检测、轨迹建议和关系预测。作者采用最先进的目标检测方法来保证目标轨迹检测的准确性和多模态特征表示来帮助预测目标之间的关系。作者的方法以11.74%的mAP在ACM多媒体2020的视频关系理解大挑战的视频关系检测任务中获得第一名，大大超过了其他方法。

本文创新点

本文提出了一种视频关系检测方法。作者按照[11]的方案，建立了一个目标轨迹检测模块和一个关系预测模块的系统。对于目标轨迹检测器，作者首先使用最先进的检测器级联RCNN[1]，以ResNeSt101[17]为骨干，对每个视频帧进行目标检测。然后作者使用seq-NMS[3]改进的动态规划算法来关联所有帧的目标检测结果，并为每个目标生成轨迹。对于关系预测器，作者结合运动特征、视觉特征、语言特征和位置掩模特征对每对轨迹进行预测。多模态特征的使用有助于提高关系预测的准确性。作者的方法框架如图1所示，作者的方法在ACM Multimedia 2020的视频关系理解大挑战[12]视频关系检测任务中取得了第一名。

框架结构