Video Grounding
一、Dense Regression Network for Video Grounding, CVPR2020
1、解决问题
如下图所示,Video Grounding任务的目的是在视频中定位对应于给定查询(一句描述)的目标视频段的起始和结束时间,该任务一个关键问题是视频通常可以包含数千帧,但它可能只有很少的帧被标注为起始和结束帧(即正训练示例),而之前的方法都忽略了来自被标注的起始结束位置之间的帧的丰富信息,往往直接使用这些不平衡的数据训练一个二分类模型。因此,作者训练了一个模型来预测每个帧到目标视频段边界的距离,并将目标视频段范围内的所有帧都作为正训练样本,这样训练样本大大增加,有利于训练。
News Image Captioning
一、Transform and Tell: Entity-Aware News Image Captioning, CVPR2020
1、解决问题
新闻中图片描述生成任务主要有两个挑战:一是依赖于现实世界的知识,特别是关于命名实体的知识;二是新闻中有丰富的语言描述,它们包括一些不常见的单词。作者通过一种多模态、多头注意机制将新闻中的单词与图像中的人脸和对象关联起来来解决第一个挑战,并且用Transformer语言模型来解决第二个挑战,该模型使用byte-pair-encoding(BPE)来编码单词:首先将单词表示为字母序列,之后使用贪婪算法合并公共字母序列,这样几乎所有的单词都可以用字母序列的组合来表示,这样就可以处理一些新的不常见的单词,而不需要使用一个特殊的未知标签代替。并且作者提出一个新的大型新闻图片描述数据集:NYTimes800k,包含445K文章和793K图片。
Transformer-Related Image Captioning (2)
Attention-Related Image Captioning (4)
元学习应用论文
一、Meta Learning for Image Captioning, AAAI2019
1、解决问题
使用强化学习训练模型,可能会使模型与奖励函数过拟合,造成奖励黑客行为(reward hacking),也就是说虽然奖励函数的得分提高了但是模型的实际性能是降低的,这是因为奖励函数不能非常正确的表达出生成描述的质量,一些错误的表示可能反而有很高的奖励,尤其是对描述的命题内容和独特性的奖励。比如,使用CIDEr优化倾向于让句子以“介词+a”结尾,因为CIDEr评价指标会惩罚太短的句子并给常见的短语小的权重,因此,当模型生成短描述时RL会添加一些小权重但是常见的短语来避免惩罚。SPICE指标认为不正常结尾是不匹配的对象-关系对,会惩罚这种现象,但是,SPICE有自己的奖励黑客问题,因为它不惩罚场景图中的重复元组。从技术上讲,很难设计一个完美的评价指标,能够考虑到预期目标的每一个方面。
元学习基础论文
一、Learning to learn by gradient descent by gradient descent, NIPS2016
1、解决问题
在机器学习中,学习得到的特征取代了手工设计的特征,并取得了巨大的成功。但是,优化算法依然是手工设计的,针对不同的任务需要设计不同的更新规则,比如深度学习中常用的momentum、RMSprop、ADAM等。这篇论文中,作者将优化算法参数化,使用LSTM来作为优化器,通过学习的方式得到更新规则,也就是论文题目:通过梯度下降来学习如何通过梯度下降学习。这样就不需要针对不同的任务设计不同的优化算法,而只需要让LSTM优化器自己学习如何优化模型的参数即可。
Detailed Image Captioning (2)
Stylized Image Captioning
一、Unsupervised Stylish Image Description Generation via Domain Layer Norm, AAAI2019
作者提出了一种无监督风格化描述生成模型,能够以配对的无风格数据和没有配对的风格化语料进行训练,并且它使用户能够通过插入特定样式的参数来生成各种风格描述,灵活地将新的样式包含到现有模型中。论文将配对的无风格描述视为源域数据,将未配对的风格化语料视为目标域数据,最主要的贡献就是展示了只需要对layer normalization的参数进行调整就能从源域和目标域区分出语言风格,并将这种机制称为Domain Layer Normalization (DLN),结构图如下: