PDF
摘要
遥感图像(Remote Sensing Image, RSI)描述可自动生成说明地物RSI内容的句子.为解决地物遥感图像描述中非理想光和阴影干扰物体识别,以及地物RSI多尺度、多形态和多关系等因素导致描述不准确的问题,提出了基于特征图矫正的三阶段改进Transformer方法(FMC-TSIT).卷积神经网络提取的图像特征中保留着非理想光信息,因此FMC-TSIT对中间聚合特征图进行矫正以重建非干扰特征图,修复特征图中的颜色退化,再将其送入三阶段改进Transformer,探寻图像全局空间表示以及对象之间局部邻域依赖关系,使其综合捕获地物RSI中各个对象的信息并理解目标对象间关联关系.在三阶段改进Transformer中,基于可学习记忆引导向量的类视觉转换器,在每次迭代训练中获取当前输入的视觉特征,更新和融合已有记忆,继而生成图像特征的全局空间关系表示;注意力双向长短时记忆网络(Attention-BiLSTM)抽取图像中对象特征之间的局部邻域依赖关系和上下文信息.实验结果显示,相比于(Convolutional Neural Network-Transformer, CNN-Transformer)方法,FMC-TSIT的综合语义评价指标值提升了3.41个百分点,其他语义指标值也有明显提升.
关键词
遥感图像描述
/
特征矫正
/
Transformer
/
双向长短时记忆网络
/
深度学习
Key words
结合特征图矫正和改进Transformer的地物遥感图像描述生成[J].
小型微型计算机系统, 2025, 46(07): 1666-1673 DOI:10.20009/j.cnki.21-1106/TP.2024-0205