Video Grounding

一、Dense Regression Network for Video Grounding, CVPR2020

1、解决问题

如下图所示，Video Grounding任务的目的是在视频中定位对应于给定查询（一句描述）的目标视频段的起始和结束时间，该任务一个关键问题是视频通常可以包含数千帧，但它可能只有很少的帧被标注为起始和结束帧（即正训练示例），而之前的方法都忽略了来自被标注的起始结束位置之间的帧的丰富信息，往往直接使用这些不平衡的数据训练一个二分类模型。因此，作者训练了一个模型来预测每个帧到目标视频段边界的距离，并将目标视频段范围内的所有帧都作为正训练样本，这样训练样本大大增加，有利于训练。

2、方法

如上图所示，作者提出dense regression network (DRN)模型，首先使用视频-查询交互模块G提取多尺度的特征图，之后每个特征图都被定位模块（包括位置回归头、语义匹配头和IoU回归头）处理。其中，位置回归头预测每个帧到起始和结束位置的距离，然后得到对应的时间范围：

之后要在所有时间范围中选择和查询最匹配的。为此，作者使用语义匹配头从语义上预测每个时间范围内的内容和查询的匹配分数，以及使用IoU回归头预测一个分数来直接评估每个时间范围和真实标注的IoU，最后使用这两个分数的乘积表示每一帧预测出的时间范围的质量。

1）多层次视频-查询交互模块

首先使用特征提取器（如C3D模型）提取视频帧的特征集合，然后通过多层次融合和时间位置嵌入产生视觉-语言表示。对于多层次融合：由于数据集中目标视频段往往有很大的尺度变化，比如Charades-STA数据集中最短的视频段是2.4s而最长的为180.8s，因此作者从多个层次获得一组层次特征图来解决这个问题，其中每个层次关注输入查询的不同部分。首先通过一个双向LSTM对查询中每个单词进行编码，并得到一个全局表示：