通过细粒度的语义特征与Transformer丰富图像描述

王俊豪; 罗轶凤

华东师范大学学报（自然科学版） ›› 2020, Vol. 0 ›› Issue (05) : 56 -67.

王俊豪, 罗轶凤

作者信息 +

Author information +

文章历史 +

PDF

摘要

传统的图像描述模型通常基于使用卷积神经网络(Convolutional Neural Network, CNN)和循环神经网络(Recurrent Neural Network, RNN)的编码器-解码器结构,面临着遗失大量图像细节信息以及训练时间成本过高的问题.提出了一个新颖的模型,该模型包含紧凑的双线性编码器(Compact Bilinear Encoder)和紧凑的多模态解码器(Compact Multi-modal Decoder),可通过细粒度的区域目标实体特征来改善图像描述.在编码器中,紧凑的双线性池化(Compact Bilinear Pooling, CBP)用于编码细粒度的语义图像区域特征,该模块使用多层Transformer编码图像全局语义特征,并将所有编码的特征通过门结构融合在一起,作为图像的整体编码特征.在解码器中,从细粒度的区域目标实体特征和目标实体类别特征中提取多模态特征,并将其与整体编码后的特征融合用于解码语义信息生成描述.该模型在Microsoft COCO公开数据集上进行了广泛的实验,实验结果显示,与现有的模型相比,该模型取得了更好的图像描述效果.