一、Compare and Reweight: Distinctive Image Captioning Using Similar Images Sets, ECCV2020 oral

自制PPT

1、解决问题

1)现在的方法生成的句子可以准确的描述图片,但是对于相似的图片,生成的句子是通用的,缺乏独特性。如下图所示,CIDErBtw是作者提出的一种衡量描述独特性的指标,值越小表示越独特,对于两个相似的图片,人们标注的描述具有很好的独特性,但是baseline模型生成的描述就是相同的,而作者的方法生成的描述则具有不错的独特性。

阅读全文 »

一、Auto-Encoding Scene Graphs for Image Captioning, CVPR2019

自制PPT

1、解决问题

当我们看到“person on bike”,我们会很自然的把“on”替换成“ride”并且推理出“person riding bike on a road”即使“road”并没有出现,我们人类能够通过这种inductive bias(归纳能力、常识、先验知识)来进行单词搭配和语境推理。因此,探索这种推理可以让模型不过度拟合于数据集偏差而专注于推理。之前的工作中,当我们将一个看不见的图像场景输入到模型中时,通常会得到一个简单而没有价值的关于显著物体的标题,例如“there is a dog on the floor”,这比目标检测得到的结果好不了多少。

阅读全文 »

一、Reinforcing an Image Caption Generator Using Off-Line Human Feedback, AAAI2020

自制PPT

1、解决问题

之前模型主要是通过最大似然估计(MLE)以及使用CIDEr等手工设计的评价指标作为奖励函数的强化学习的方式进行优化,但是这些优化方法是受限的,我们人类对模型生成描述的质量评估可能并不高。

阅读全文 »

一、More Grounded Image Captioning by Distilling Image-Text Matching Model, CVPR2020

自制PPT

1、解决问题

注意力机制的目的是为了让模型在生成对应单词时将注意力集中到正确的物体上,这种能力被称为grounded image captioning,但是现有模型的定位精度远远不能令人满意,并且如果为了提高定位精度而收集单词-区域对齐数据作为强监督信息,代价是很昂贵的。因此,作者提出Part-of-Speech enhanced image-text matching model(POS-SCAN)作为一种知识提取方法来规范模型的注意力,为模型提供一种弱的定位监督信息。所谓的“弱”是由于POS-SCAN只依赖于图片-文本对齐,而不需要昂贵的单词-区域对齐。

阅读全文 »

一、Generating Diverse and Descriptive Image Captions Using Visual Paraphrases, ICCV2019

1、解决问题

计算机更喜欢生成流畅正确但是简单模糊的描述,因为这样的描述更加“安全”,能够描述图片中显著的区域,但是会忽略细节。描述相同图片的不同的句子被称为visual paraphrases,之前的方法会忽略它们之间的联系,直接把它们作为不同的样本,而作者探索了它们之间的关系并使用一系列打分函数选择了一些visual paraphrase对(Ci,Cj),打分函数衡量了visual paraphrases在某种特征(比如多样性)上的差异,而Cj在这种特征上比Ci更“复杂”,比如Cj比Ci更丰富,训练时,模型首先更加视觉特征生成初始描述Ci,之后再融合视觉特征和Ci提供的文本特征生成更加丰富多样的Cj。

阅读全文 »

一、Entangled Transformer for Image Captioning, ICCV2019

1、解决问题

之前的注意力机制主要分为两种:视觉注意力和语义注意力,对于视觉注意力来说,能够探索图片底层的特征或者高层的显著对象特征,但是由于视觉和语言之间存在差异,描述中不是每个词都有对应的视觉信号,特别是对于一些抽象概念词和复杂的关系词。对于语义注意力来说,能够直接利用高层的语义信息,但是由于RNN的长期依赖问题,很难记忆很多步之前的输入信息,尤其是最初的视觉输入,导致模型倾向于生成一些高频短语而不考虑视觉信息。并且之前的方法要不只考虑一种注意力,要不分开考虑两种注意力然后在进行融合,这样不能同时探索两种注意力之间的互补关系。

阅读全文 »

一、Hierarchical Attention Network for Image Captioning, AAAI 2019

自制PPT

1、解决问题

这篇论文认为现有的注意力机制只关注单层特征,比如低层的空间特征或者高层的文本特征,但是描述语句中不同的单词和不同层次的特征有关,比如颜色单词可以从低层特征预测,量词可以从中层特征预测。所以作者提出了一个
Hierarchical Attention Network (HAN),能够同时考虑多层特征,如下图所示:

阅读全文 »

一、Improving Image Captioning with Conditional Generative Adversarial Nets, AAAI2019

这篇论文的思路很简单,就是引入GAN来提高模型生成描述的质量,这种方法是通用的,可以加入到所有的基于强化学习的模型中。模型的整体框架如下所示:

阅读全文 »

在配对的图片-文本描述数据集(下面称为源域)上,描述生成模型已经取得了不错的效果,但是由于配对数据获取是费时费力的,代价昂贵,所以产生了跨域图片文本描述任务,其目的是利用源域数据,给未配对的数据集(下面称为目标域)生成图片描述,但是由于不同的数据集之间存在域偏移,直接使用在源域上训练好的模型给目标域图片生成的描述,质量往往很差,此时,就可以使用迁移学习方法解决该问题。

阅读全文 »
0%