Attention-Related Image Captioning (2)

发表于 2020-04-06 更新于 2020-04-20 分类于论文阅读

一、Reflective Decoding Network for Image Captioning, ICCV2019

自制PPT

1、解决问题

这篇论文认为当图片的内容比较复杂时传统的LSTM很难处理长期依赖问题，往往更关注于相对比较近的单词而忽略比较远的问题，如下图所示，“bridge”对“river”有很大的提示作用，但是它们之间相差6个单词，对于传统的LSTM来说很容易忽略这个。

阅读全文 »

Attention-Related Image Captioning

发表于 2020-03-29 更新于 2020-04-21 分类于论文阅读

一、Show, Attend and Tell: Neural Image Caption Generation with Visual Attention, ICML2015

1、解决问题

我们人类观察图片时，不是将整个图片压缩成一个静态表示，而是通过注意力机制根据需要动态调节所观察的区域，当图像中存在大量杂乱时，这一点尤其重要。因此，作者参考人类的视觉系统，在编解码框架的基础上引入了注意力机制，使得模型在生成描述时可以动态关注图片的不同区域。

阅读全文 »

(ICCV2019) Towards Unsupervised Image Captioning with Shared Multimodal Embeddings

发表于 2019-10-01 更新于 2020-04-20 分类于论文阅读

论文链接

一、主要思想

文章首先提出了传统方法的问题：给图片标注描述信息很繁琐、昂贵，并且这些人工描述也都很短而且是重复的；当前的方法生成的描述受限于图片类别数和并不完美的验证指标，因此很难扩展到数据集以外的图片中。本文使用无监督的方式对独立的图像和文本进行建模，避免了带有人为偏见的而且昂贵的人工标注，当然，语料和图片并不是完全无关的，比如试图用经济学文本语料来描述图片是不合理的。

阅读全文 »