Scene Graph-Related Image Captioning
一、Auto-Encoding Scene Graphs for Image Captioning, CVPR2019
1、解决问题
当我们看到“person on bike”,我们会很自然的把“on”替换成“ride”并且推理出“person riding bike on a road”即使“road”并没有出现,我们人类能够通过这种inductive bias(归纳能力、常识、先验知识)来进行单词搭配和语境推理。因此,探索这种推理可以让模型不过度拟合于数据集偏差而专注于推理。之前的工作中,当我们将一个看不见的图像场景输入到模型中时,通常会得到一个简单而没有价值的关于显著物体的标题,例如“there is a dog on the floor”,这比目标检测得到的结果好不了多少。
Image Captioning with Image-Text Matching Model
一、More Grounded Image Captioning by Distilling Image-Text Matching Model, CVPR2020
1、解决问题
注意力机制的目的是为了让模型在生成对应单词时将注意力集中到正确的物体上,这种能力被称为grounded image captioning,但是现有模型的定位精度远远不能令人满意,并且如果为了提高定位精度而收集单词-区域对齐数据作为强监督信息,代价是很昂贵的。因此,作者提出Part-of-Speech enhanced image-text matching model(POS-SCAN)作为一种知识提取方法来规范模型的注意力,为模型提供一种弱的定位监督信息。所谓的“弱”是由于POS-SCAN只依赖于图片-文本对齐,而不需要昂贵的单词-区域对齐。
Mining Ground Truth Information for Image Captioning
一、Generating Diverse and Descriptive Image Captions Using Visual Paraphrases, ICCV2019
1、解决问题
计算机更喜欢生成流畅正确但是简单模糊的描述,因为这样的描述更加“安全”,能够描述图片中显著的区域,但是会忽略细节。描述相同图片的不同的句子被称为visual paraphrases,之前的方法会忽略它们之间的联系,直接把它们作为不同的样本,而作者探索了它们之间的关系并使用一系列打分函数选择了一些visual paraphrase对(Ci,Cj),打分函数衡量了visual paraphrases在某种特征(比如多样性)上的差异,而Cj在这种特征上比Ci更“复杂”,比如Cj比Ci更丰富,训练时,模型首先更加视觉特征生成初始描述Ci,之后再融合视觉特征和Ci提供的文本特征生成更加丰富多样的Cj。
Transformer-Related Image Captioning
一、Entangled Transformer for Image Captioning, ICCV2019
1、解决问题
之前的注意力机制主要分为两种:视觉注意力和语义注意力,对于视觉注意力来说,能够探索图片底层的特征或者高层的显著对象特征,但是由于视觉和语言之间存在差异,描述中不是每个词都有对应的视觉信号,特别是对于一些抽象概念词和复杂的关系词。对于语义注意力来说,能够直接利用高层的语义信息,但是由于RNN的长期依赖问题,很难记忆很多步之前的输入信息,尤其是最初的视觉输入,导致模型倾向于生成一些高频短语而不考虑视觉信息。并且之前的方法要不只考虑一种注意力,要不分开考虑两种注意力然后在进行融合,这样不能同时探索两种注意力之间的互补关系。
Improve Optimization Method for Image Captioning
Cross-domain Image Captioning
在配对的图片-文本描述数据集(下面称为源域)上,描述生成模型已经取得了不错的效果,但是由于配对数据获取是费时费力的,代价昂贵,所以产生了跨域图片文本描述任务,其目的是利用源域数据,给未配对的数据集(下面称为目标域)生成图片描述,但是由于不同的数据集之间存在域偏移,直接使用在源域上训练好的模型给目标域图片生成的描述,质量往往很差,此时,就可以使用迁移学习方法解决该问题。