一、Reflective Decoding Network for Image Captioning, ICCV2019

自制PPT

1、解决问题

这篇论文认为当图片的内容比较复杂时传统的LSTM很难处理长期依赖问题,往往更关注于相对比较近的单词而忽略比较远的问题,如下图所示,“bridge”对“river”有很大的提示作用,但是它们之间相差6个单词,对于传统的LSTM来说很容易忽略这个。

阅读全文 »

一、Show, Attend and Tell: Neural Image Caption Generation with Visual Attention, ICML2015

1、解决问题

我们人类观察图片时,不是将整个图片压缩成一个静态表示,而是通过注意力机制根据需要动态调节所观察的区域,当图像中存在大量杂乱时,这一点尤其重要。因此,作者参考人类的视觉系统,在编解码框架的基础上引入了注意力机制,使得模型在生成描述时可以动态关注图片的不同区域。

阅读全文 »

论文链接

一、主要思想

文章首先提出了传统方法的问题:给图片标注描述信息很繁琐、昂贵,并且这些人工描述也都很短而且是重复的;当前的方法生成的描述受限于图片类别数和并不完美的验证指标,因此很难扩展到数据集以外的图片中。本文使用无监督的方式对独立的图像和文本进行建模,避免了带有人为偏见的而且昂贵的人工标注,当然,语料和图片并不是完全无关的,比如试图用经济学文本语料来描述图片是不合理的。

阅读全文 »

1、原理

1)四种坐标系

为了将三维立体图形投影到平面上,应该首先理解以下四种坐标系:

本体坐标系(模型坐标系):是为规定基本形体而引入的便于描述的坐标系,也就是立体图形自身的坐标系。

用户坐标系(世界坐标系):是用户引入描述整个形体的坐标系。

观察坐标系(视坐标系或目坐标系):为说明观察的姿态而引入,也就是观察者所处的位置。

设备坐标系(屏幕坐标系或显示坐标系):最终的图形显示设备的坐标系。

阅读全文 »

1、原理

1)区域的“奇偶”性质

多边形扫描转换主要依据区域的一种“奇偶”性质,即一条直线与任意封闭的曲线相交时,总是从第一个交点进入内部,再从第二个交点退出,在交替的进入退出过程中对多边形进行填充。

阅读全文 »
0%