一、Dense Regression Network for Video Grounding, CVPR2020

1、解决问题

如下图所示,Video Grounding任务的目的是在视频中定位对应于给定查询(一句描述)的目标视频段的起始和结束时间,该任务一个关键问题是视频通常可以包含数千帧,但它可能只有很少的帧被标注为起始和结束帧(即正训练示例),而之前的方法都忽略了来自被标注的起始结束位置之间的帧的丰富信息,往往直接使用这些不平衡的数据训练一个二分类模型。因此,作者训练了一个模型来预测每个帧到目标视频段边界的距离,并将目标视频段范围内的所有帧都作为正训练样本,这样训练样本大大增加,有利于训练。

阅读全文 »

一、Transform and Tell: Entity-Aware News Image Captioning, CVPR2020

1、解决问题

新闻中图片描述生成任务主要有两个挑战:一是依赖于现实世界的知识,特别是关于命名实体的知识;二是新闻中有丰富的语言描述,它们包括一些不常见的单词。作者通过一种多模态、多头注意机制将新闻中的单词与图像中的人脸和对象关联起来来解决第一个挑战,并且用Transformer语言模型来解决第二个挑战,该模型使用byte-pair-encoding(BPE)来编码单词:首先将单词表示为字母序列,之后使用贪婪算法合并公共字母序列,这样几乎所有的单词都可以用字母序列的组合来表示,这样就可以处理一些新的不常见的单词,而不需要使用一个特殊的未知标签代替。并且作者提出一个新的大型新闻图片描述数据集:NYTimes800k,包含445K文章和793K图片。

阅读全文 »

一、Normalized and Geometry-Aware Self-Attention Network for Image Captioning, CVPR2020

自制PPT

1、解决问题

随着Transformer在NLP领域的流行,它的self-attention(SA)的思想也逐渐被引入到image captioning领域。但是原始的SA有两个问题:

1)Internal Covariate Shift(ICS)问题:在训练过程中,由于网络参数的变化,当query的分布发生变化时,该层的输出的分布会发生变化,也就是说,随后的层必须不断适应新的输入分布,因此,SA可能无法有效地学习。

阅读全文 »

一、Exploring and Distilling Cross-Modal Information for Image Captioning, IJCAI2019

作者认为深层次的图片理解需要与图片区域相关的视觉注意力和与对应属性相关的语义注意力,所以作者从跨模态(包括视觉和文本属性)的视角提出了Global-and-Local Information Exploring-and-Distilling (GLIED) 方法,如下图所示,左边是基础模型,右边是利用全局和局部的源信息的完整模型。

阅读全文 »

一、Meta Learning for Image Captioning, AAAI2019

自制PPT

1、解决问题

使用强化学习训练模型,可能会使模型与奖励函数过拟合,造成奖励黑客行为(reward hacking),也就是说虽然奖励函数的得分提高了但是模型的实际性能是降低的,这是因为奖励函数不能非常正确的表达出生成描述的质量,一些错误的表示可能反而有很高的奖励,尤其是对描述的命题内容和独特性的奖励。比如,使用CIDEr优化倾向于让句子以“介词+a”结尾,因为CIDEr评价指标会惩罚太短的句子并给常见的短语小的权重,因此,当模型生成短描述时RL会添加一些小权重但是常见的短语来避免惩罚。SPICE指标认为不正常结尾是不匹配的对象-关系对,会惩罚这种现象,但是,SPICE有自己的奖励黑客问题,因为它不惩罚场景图中的重复元组。从技术上讲,很难设计一个完美的评价指标,能够考虑到预期目标的每一个方面。

阅读全文 »

一、Structural Semantic Adversarial Active Learning for Image Captioning, ACMMM2020 oral

自制PPT

1、解决问题

标注图片描述的成本非常高。

2、方法

1)Active learning

引入主动学习(Active learning)方法来从未标注的图片集中选取最具代表性的图片来进行标注,再用于训练captioning模型。

阅读全文 »

一、Learning to learn by gradient descent by gradient descent, NIPS2016

1、解决问题

在机器学习中,学习得到的特征取代了手工设计的特征,并取得了巨大的成功。但是,优化算法依然是手工设计的,针对不同的任务需要设计不同的更新规则,比如深度学习中常用的momentum、RMSprop、ADAM等。这篇论文中,作者将优化算法参数化,使用LSTM来作为优化器,通过学习的方式得到更新规则,也就是论文题目:通过梯度下降来学习如何通过梯度下降学习。这样就不需要针对不同的任务设计不同的优化算法,而只需要让LSTM优化器自己学习如何优化模型的参数即可。

阅读全文 »

一、Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs, CVPR2020

1、解决问题

现有的方法无法根据用户的意图细粒度的控制生成的描述,比如控制以什么层次的细节程度来描述图片中的物体、以及那些属性和关系应该包含在描述中等等。只存在一些粗粒度的控制,比如控制描述的风格、描述哪个物体、描述图片那个区域等。

阅读全文 »

一、Unsupervised Stylish Image Description Generation via Domain Layer Norm, AAAI2019

作者提出了一种无监督风格化描述生成模型,能够以配对的无风格数据和没有配对的风格化语料进行训练,并且它使用户能够通过插入特定样式的参数来生成各种风格描述,灵活地将新的样式包含到现有模型中。论文将配对的无风格描述视为源域数据,将未配对的风格化语料视为目标域数据,最主要的贡献就是展示了只需要对layer normalization的参数进行调整就能从源域和目标域区分出语言风格,并将这种机制称为Domain Layer Normalization (DLN),结构图如下:

阅读全文 »
0%