Sentimental Visual Captioning using Multimodal Senti-Transformer (计划投IJCV)
本工作是上一个工作的扩展工作,主要是修改主体模型结构并对实验部分进行扩充。
首先使用Transformer代替原本的LSTM,解决了LSTM自身的长期依赖问题,并利用了Transformer模型强大的拟合能力。为了能够利用情感信息,本工作加入多个情感头来捕捉图像或视频中的情感特征,并对Transformer解码器中间的注意力层进行了分解,使它能够同时处理、融合来自多种模态的内容和情感特征。本工作还在视频数据集上进行实验,加入音频模态的特征。
目前在图片集上的实验已经全面超过之前的结果。
Image Captioning with Attribute Features (本科毕设)
Image Captioning任务的目的是根据图片内容自动生成自然语言描述,是连接了视觉和语言两个领域的多模态研究任务。目前的方法往往是通过从图片本身挖掘信息来指导描述的生成,但是随着网络的快速发展以及社交平台的普及,网上的资源和信息日益丰富,完全可以从网络上得到图片更多的信息,用来辅助描述文本的生成,以达到更好的效果。
在本毕设中,首先通过以图搜图来从网上爬取和图片相关的信息,比如用户为图片提供的标签、标题等信息,这些信息往往描述了图像的场景、颜色等重要特征,然后进行筛选提取出其中的属性词;之后采用ResNet101网络作为编码器来提取图片的全局特征,并通过LSTM作为解码器生成描述,在解码过程中通过注意力机制自动判断爬取的哪些信息重要,哪些信息不重要,从而生成更丰富的图片描述。并且本文给单词编码时采用word2vec模型训练出的词嵌入向量代替one-hot编码方式,这样不仅能够减小模型参数大小,加快模型训练,而且单词编码之间并不孤立,存在一定的语义联系,有助于图像描述的生成。
模型最终能够根据网络上的信息生成更丰富的描述,生成标注数据集中并不存在的一些单词,并且通过对注意力得分进行可视化可以看出模型能够准确捕捉到正确的信息。