基于多模态语义特征融合的遥感图像描述生成方法

周得伟 ,  刘海砚 ,  李静 ,  李佳 ,  孔凡铸

信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (04) : 423 -430.

PDF (3190KB)
信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (04) : 423 -430. DOI: 10.3969/j.issn.1671-0673.2025.04.007
计算机科学与技术

基于多模态语义特征融合的遥感图像描述生成方法

作者信息 +

Remote Sensing Image Captioning Based on Multimodal Semantic Feature Fusion

Author information +
文章历史 +
PDF (3265K)

摘要

利用图像分类等辅助任务的结果作为先验信息可以为遥感图像生成高质量的描述,然而这些方法采用的特征融合方式难以捕捉特征之间的复杂交互关系,无法充分描述遥感图像中的内容。为解决此问题,提出一种基于多模态语义特征融合的遥感图像描述生成方法。该方法首先利用预训练的ResNet50网络提取图像区域特征;其次,基于多层感知机网络预测图像的语义属性;再次,通过属性引导的交叉注意力子模块和文本引导的交叉注意力子模块,实现图像、属性和文本特征的交互与融合;最后,将融合后的特征输入解码器,生成目标图像的描述。实验结果表明,该方法在各项评价指标上与基线方法相比均有性能提升,能够生成更加准确的描述。

Abstract

Leveraging the results of auxiliary tasks such as image classification as prior information can facilitate the generation of high-quality descriptions for remote sensing images. However, the existing methods that employ feature fusion techniques often fail to capture the complex interactions between features and are unable to fully describe the content within remote sensing images. To address these limitations, a remote sensing image captioning method based on multimodal semantic feature fusion is proposed. The image region features are extracted firstly by using a pre-trained ResNet50 network. Then, the semantic attributes of the image are predicted through a multilayer perceptron network. Subsequently, attribute-guided and text-guided cross-attention submodules are employed to enable the interaction and fusion of image, attribute, and text features. Finally, the fused features are fed into a decoder to generate the target image description. Experimental results demonstrate that the proposed method outperforms baseline methods in various evaluation metrics, yielding more accurate and coherent descriptions.

Graphical abstract

关键词

遥感图像描述生成 / 多标签分类 / 特征融合 / 交叉注意力机制

Key words

remote sensing image captioning / multi-label classification / feature fusion / cross attention mechanism

引用本文

引用格式 ▾
周得伟,刘海砚,李静,李佳,孔凡铸. 基于多模态语义特征融合的遥感图像描述生成方法[J]. 信息工程大学学报, 2025, 26(04): 423-430 DOI:10.3969/j.issn.1671-0673.2025.04.007

登录浏览全文

4963

注册一个新账户 忘记密码

method first
图像描述生成(Image Captioning)属于计算机视觉和自然语言处理的交叉研究领域,其任务是通过计算机理解图像内容并生成描述文本。遥感图像描述生成(Remote Sensing Image Captioning, RSIC)[1]则是针对遥感图像生成描述文本的任务。尽管场景分类[2]、目标检测[3]和图像分割[4]等遥感图像理解任务能够提取图像特征并识别对象及场景,显著提升遥感图像处理的效率,但它们无法理解图像语义层面的信息,导致结果可读性不佳。与前者不同,遥感图像描述生成任务将遥感图像的视觉信息转化为人类易于理解的自然语言,因而在军事情报生成[5]、灾害预警评估[6]等领域具有广泛应用前景。
遥感图像描述生成研究自提出以来,吸引了众多学者的关注。研究人员基于图像描述生成的框架,针对遥感图像特性进行算法改进,并取得了显著进展。通常情况下,编码器负责提取图像特征,解码器负责生成图像描述,从而实现图像到文本的直接转换。然而,这种单任务方法在处理遥感图像中地物多样性和语义丰富性方面存在局限性,主要依赖网络结构的调整和注意力机制的改进来提升性能[7]。近年来,通过结合遥感辅助任务以获取先验信息,从而优化图像特征的表征能力并生成更高质量描述的方法,逐渐成为研究热点[8]
遥感图像描述生成任务面临的主要挑战之一是如何克服遥感图像与文本描述之间的模态差异。由于遥感图像通常包含复杂的地理信息和细节,这增加了从图像内容生成准确描述的难度。因此,实现遥感图像特征与文本特征之间的精确对齐和有效融合是提升描述质量的关键。长短时记忆网络(Long Short-Term Memory, LSTM)主要用于处理序列数据,对图像特征的融合能力相对较弱,而依赖简单的注意力机制融合特征,难以充分捕捉图像与文本之间的复杂语义关系。近年来,基于Transformer的架构因其卓越的性能被引入遥感图像描述生成任务[9]。Transformer架构通过多头注意力机制能够同时关注图像的多个关键区域,并将这些区域特征与文本生成过程紧密结合,提升了图像与文本特征的融合效果,可以生成更高质量的描述[10]
不同模态之间仅采用简单的直接拼接方式进行特征融合存在明显不足[11]。一方面,这种方式会导致特征维度显著增加,且无法细粒度地建模图像区域与语义属性的关系;另一方面,由于缺乏动态调整不同模态权重的能力,容易导致语义冲突或冗余信息的产生。交叉注意力机制用于处理两个不同序列之间的交互,能够使模型在处理一个序列时参考另一个序列的信息,提升特征表达的全面性和准确性,有效解决因简单特征融合方式导致的问题。
基于上述问题,在对CNN-Transformer架构进行改进的基础上,提出了一种多模态语义特征融合的遥感图像描述生成方法。该方法通过多标签分类任务提取图像属性特征,为模型提供语义先验信息。随后,将区域特征和属性特征输入到一个语义引导的双交叉注意力特征融合(Dual Cross Attention Feature Fusion, DCAFF)模块中,实现跨模态交互与语义特征融合,最终生成高质量的文本描述语句。

1 所提模型

1.1 整体模型结构

基于多模态语义特征融合的遥感图像描述生成方法的整体模型结构如图1所示。

首先,利用预训练的ResNet50网络和Transformer编码器提取图像区域特征;其次,基于多层感知机网络预测图像的语义属性,并结合预训练的属性嵌入模型与Transformer编码器提取语义属性特征;再次,通过属性引导的交叉注意力子模块和文本引导的交叉注意力子模块,实现图像特征、属性特征和文本特征的交互与融合;最后,将融合后的特征输入解码器,生成目标图像的描述。

1.2 图像区域特征提取

本文结合预训练的ResNet50和Transformer编码器来提取遥感图像的区域特征,如图2所示。

具体问题描述如下:给定输入图像I,首先利用ResNet50提取区域图像特征V。其次,通过一个线性层对特征V进行降维处理,将其映射到V0RN×d,其中N表示映射后的序列长度,d表示每个特征的维度。随后,Transformer编码器利用多头自注意力机制和前馈神经网络对特征V0进一步处理,以捕捉特征之间的长距离依赖关系。Transformer编码器的更新公式如下:

Vi+1=LayerNormVi+MHAVi, Vi, Vi

式中:MHA(⋅)表示多头自注意力机制;LayerNorm(⋅)表示层归一化操作;当i = n时,Vn表示编码器最后一层输出的图像特征表示。

1.3 语义属性特征提取

本模块基于多层感知机网络结构预测样本的属性,并使用Sigmoid输出和Focal Loss减少标签不平衡问题。问题描述如下:输入特征向量xRd,其中d表示特征维度。网络包含两个隐藏层,每个隐藏层都使用ReLU激活函数。输出层的神经元数量与目标属性数量L一致,激活函数为Sigmoid。

设隐藏层权重为W1W2,偏置为b1b2,输出层权重为W3,偏置为b3,则网络的前向传播通过以下公式表示:

h1=ReLUW1x+b1
h2=ReLUW2h1+b2
y=σW3h2+b3

式中:σ表示Sigmoid函数;y[0,1]L表示每个属性的预测概率。多标签分类任务中,类别不平衡问题(即某些类别的样本数量远多于其他类别)会影响模型的性能,导致少数类别被忽视。为解决类别不平衡问题,采用Focal Loss作为损失函数。Focal Loss是改进的交叉熵损失函数,通过引入调节因子γ,降低易分类样本的权重,使模型更关注难分类的少数类样本。对于多标签分类任务,Focal Loss定义为

FLpt=-αt1-ptγylog2pt

式中:pt是模型对属性t的预测概率;y{0,1}是真实属性;αt是类别权重,用于调整不同类别的权重;γ0是调节因子,控制易分类样本的权重衰减。

模块结合了基于概率排序和基于阈值的方法。首先,设定一个阈值τ,然后根据以下的公式将连续的概率分布转换为二值编码:

yi=1, yiτ;0, yi<τ.

式中:yi表示第i类属性的预测概率。选择概率最高的前k个属性构成图像的语义属性集合Li={yi=1|i=1, 2,, k}

接下来,利用预训练的属性嵌入模型,将图像语义属性转化为适合Transformer处理的连续特征表示。将属性嵌入与位置编码嵌入相加作为输入特征向量Y0。使用多头自注意力模块对Y0执行自注意力操作,Transformer编码器的更新公式如下:

Yi+1=LayerNormYi+MHAYi, Yi, Yi

式中:MHA(⋅)表示多头自注意力机制;LayerNorm(⋅)表示层归一化操作;当i = n时,Yn表示编码器最后一层输出的属性特征表示。

1.4 基于双交叉注意力特征融合Transformer框架

使用改进的Transformer模型进行图像描述生成。在完成了图像区域特征和语义属性特征的提取工作后,Transformer解码器从文本嵌入开始,文本中每个单词被映射到一个固定维度的向量空间中。假设图像的目标描述s=s0, s1,, sl-1表示为一个单词序列,其中l为句子的单词数。首先,句子s通过预训练的嵌入模型转换为密集向量表示S,作为解码器的文本嵌入。由于Transformer模型没有显式的序列信息,位置编码被用来为输入序列中的每个词添加位置信息。

单一模态难以全面描述图像内容,为了更有效地捕捉图像中的不同语义信息,本模块通过从图像、属性和文本3种模态中提取特征,充分利用各模态所携带的丰富语义信息。因此需要一种高效的融合策略来整合多模态信息。与简单的特征拼接或加权融合方法不同,本模块基于Transformer模型,采用语义引导的双交叉注意力特征融合实现多模态信息的交互与融合,显著提升了语义信息的整合效果。如图3所示,本模块根据输入特征的来源,分为属性信息引导的交叉注意力子模块和文本信息引导的交叉注意力子模块。

1)属性信息引导的交叉注意力子模块:语义属性信息包括目标类别、颜色及形状等,反映了图像的局部语义信息。因此,设计了属性信息引导的交叉注意力子模块引导图像局部特征的表示。属性特征Yn作为查询Q,图像特征Vn作为键K和值V,计算两者的交互关系:

Qi=YnWQ,i;Ki=VnWK,i;Vi=VnWV,i.

式中:WQ,iWK,iWV,i表示可学习的权重矩阵;i表示第i个头。接着,计算QK的点积注意力分数,并除以dk进行缩放,dk表示K的维度,以稳定梯度:

AttentionQi, Ki, Vi=SoftmaxQiKiTdkVi

最后,将多个头的注意力输出拼接起来并与原始输入相加,形成残差连接,从而保留原始特征信息并引入增强特征。这一过程可以用以下公式表示:

OL=concatAttentionQi, Ki, Vi+Vn

2)文本信息引导的交叉注意力子模块:文本信息表达了图像的场景类型、目标类别及其关系,反映了图像的全局语义信息。因此,设计了文本信息引导的交叉注意力子模块引导图像全局特征的表示。文本特征S作为查询Q,图像特征Vn作为键K和值V,计算两者的交互关系:

Qi=SWQ,i;Ki=VnWK,i;Vi=VnWV,i.
AttentionQi, Ki, Vi=SoftmaxQiKiTdkVi
OT=concatAttentionQi, Ki, Vi+Vn

3)特征融合:将属性信息引导的交叉注意力子模块计算得到的视觉特征与文本信息引导的交叉注意力子模块计算得到的视觉特征进行特征融合,得到融合两种信息流的视觉特征。

OF=αOL+1-αOT

通过Sigmoid函数,α的值被压缩到0和1之间,用于控制两种特征在融合过程中的权重。随后,通过前馈神经网络(Feed Forward Network, FFN)进一步处理融合特征OF,生成更新后的输出表示Ci+1

Ci+1=LayerNormCi+FFNOF

最终,解码器最后一层Transformer块的输出Cnt被用于预测当前时间步t的单词,从而形成完整的句子c=c1, c2,, cl-1

2 实验与分析

2.1 实验数据集

本文采用Sydney-Captions[12]、UCM-Captions[12]、和RSICD[13]3个公开数据集对模型性能进行评估。Sydney-Captions数据集包含613张澳大利亚悉尼地区的图像,分为7个类别,每张图像配有5个描述;而UCM-Captions数据集则包含2 100张来自UC Merced土地利用数据集的图像,覆盖21个类别,同样每张图像有5条描述性文字。RSICD数据集由Lu等[13]于2017年创建,包含10 921张图像,这些图像来源于谷歌地球、百度地图、MapABC和天地图等平台,每张图像配有5句描述,图像描述由具备标注经验和遥感领域知识的志愿者生成。

为了提取遥感图像的属性,本文利用自然语言处理工具对实验数据集中的描述文本进行分词和词性标注。从每个参考描述中提取名词和形容词,作为遥感图像的语义属性。为了确保提取属性的代表性,仅选取每个遥感图像对应的5个参考描述中出现频率为3次及以上的名词和形容词作为最终属性。在提取过程中,可能会出现拼写错误或词义不符的问题。例如,拼写错误如“builings”“raods”和“lugage”等,通过统计分析方法过滤频率较低的单词。根据数据集规模,分别将Sydney-Captions、UCM-Captions和RSICD数据集中出现次数超过10次、50次和100次的单词作为候选属性。对于词义不符的单词,如“piece”“lots”和“part”等,在提取过程中予以剔除。最终,基于筛选后的单词构建了一个多标签分类数据集,为每张遥感图像标记了一个或多个符合语义的属性,为研究提供了数据支持。

2.2 评价指标

为客观衡量生成描述与参考描述之间的相关性,本文采用了一系列评价指标,包括BLEU-n[14]、METEOR[15]、ROUGE-L[16]和CIDEr[17]。这些指标从不同角度对生成描述的质量进行评估,其值越高,表明生成的图像描述越接近参考描述。

其中:BLEU-n指标通过比较生成描述与参考描述之间的n个连续字符重叠程度来衡量生成描述的质量;METEOR指标综合考虑了生成描述与参考描述之间的语义相似性及单词之间的匹配关系来评估生成描述的质量;ROUGE-L指标从召回率的角度对生成描述进行评估,通过计算生成描述和参考描述之间的最长公共子序列(Longest Common Subsequence, LCS)来衡量生成描述对参考描述的覆盖程度;CIDEr指标强调生成描述中词汇的重要性和语义一致性,基于TF-IDF(Term Frequency-Inverse Document Frequency)权重和余弦相似度来衡量生成描述与参考描述之间的相似度。

2.3 实验环境和参数设置

本文实验基于PyTorch1.12.1框架在NVIDIA GeForce RTX 3090上完成。数据集划分方式与其他模型保持一致,按80%、10%和10%的比例分别划分训练集、验证集和测试集。在数据预处理阶段,通过随机调整大小裁剪和随机水平翻转对图像进行增强,最终将图像尺寸统一调整为224×224。

模型选用经典的图像分类网络ResNet50作为特征提取的骨干网络,并在训练过程中对编码模型进行微调。模型使用Adam优化器进行模型优化,设定初始学习率为0.000 1,训练的最大轮数epochs为100,每个训练批次的样本数量batch_size设为64。单词嵌入的维数设为512,模型采用束搜索策略进行解码,beam search参数设为3,生成句子的最大长度值设为25。此外,基于Transformer的编码器和解码器各堆叠了6层,且多头注意力机制的头数设为8个。

2.4 实验分析

2.4.1 对比实验分析

为了验证本文方法的有效性,选取了多种经典方法和基于CNN-Transformer框架的方法进行对比,包括SAT[18]、Soft Attention[13]、Word-Sentence[19]、SCAMET[20]和GLCM[21]。实验结果如表1~表3所示。其中,SAT是自然图像描述生成领域的经典模型,其结合了卷积神经网络(Convolutional Neural Networks,CNN)用于图像特征提取和LSTM用于文本生成,并引入注意力机制提升描述的准确性。Soft Attention则基于软注意力机制的编码器-解码器架构来评估其在RSICD数据集上的性能。Word-Sentence设计了一个可解释词句框架,通过词提取器识别无序但有价值的单词,并根据句子生成器生成有序序列。SCAMET提出了一种基于空间通道注意力的记忆引导Transformer,通过应用不同的空间和通道注意力重新校准基于CNN的视觉特征,并使用记忆引导的Transformer作为解码器以感知深层次的语义关联。GLCM则提出了一种基于注意力的全局—局部描述生成模型。通过从灰度共生矩阵中提取纹理特征并与图像特征融合,增强了对图像纹理的理解。

与经典的SAT模型和Soft Attention模型相比,本文方法在性能上取得了显著提升。结果表明,所提方法通过引入基于Transformer的解码器,并最小化跨模态特征差异,能够更有效地捕获输入特征与描述生成的相关性。此外,其采用的双交叉注意力特征融合策略能够获取更优的特征表示,从而进一步提升了模型的整体性能。

实验结果表明,本文方法在多个数据集上均展现出良好的综合性能。如表2所示,所提方法在几乎所有指标上均达到了最佳性能。在BLEU-1指标上,所提方法达到了0.873,相较于SCAMET模型提高了3.2%。这一结果表明,所提方法生成的描述能够更全面地覆盖图像的重要属性信息,充分证明了多模态语义特征融合的有效性。如表3所示,所提方法在RSICD数据集上同样展现出良好的性能,尤其是在CIDEr指标上表现较为突出。这表明所提方法能够生成语义丰富且一致的描述,进一步验证了其在多模态语义特征融合方面的优势。然而,该方法在不同数据集上的表现存在一定的差异。如表1所示,在Sydney-Captions数据集上,其整体表现不如其他模型。分析其原因,Sydney-Captions数据集规模较小,这可能导致在训练过程中出现过拟合现象。这一现象表明,所提方法在不同数据集的适应性上仍有进一步优化的空间。

2.4.2 消融实验分析

为了验证各模块的有效性,本文设计了消融实验。如表4所示,通过与基线模型进行对比,并逐步引入不同模块,本文定量分析了各模块对性能的影响。其中:“Baseline”表示基线模型,采用ResNet50-Transformer结构,用于提取图像特征并生成描述;“Baseline+M”表示在基线模型的基础上增加多层感知机模块,用于提取图像的属性特征。为了确保实验结果的可靠性,所有实验在UCM-Captions数据集上进行,且参数设置保持一致。

实验结果表明,本文方法中的多层感知机模块和双交叉注意力特征融合模块对模型性能有显著的正面影响。多层感知机模块通过提取图像的属性特征,为模型提供了更丰富的语义信息,从而提升了模型对输入特征的处理能力和描述生成的准确性。例如:BLEU-1从0.824提升到0.846,提升了约2.27%:CIDEr从3.344提升到3.410,提升了约1.97%。双交叉注意力特征融合模块通过自适应地捕捉不同模态特征之间的依赖关系,实现了更精细化的信息融合,提升了模型性能。例如:BLEU-1从0.846提升到0.873,提升了约3.19%:CIDEr从3.410提升到3.528,提升了约3.46%。

2.4.3 定性分析

为了进一步验证本文方法的有效性,从RSICD数据集中按学校、机场、桥梁和棒球场等不同场景类别选取了多张遥感图像,并生成了相应的描述语句。将生成结果及注意力图进行可视化,如图4所示。

为了进行严格的定性分析,将上述结果进行整理,如图5所示。图中展示了RSICD数据集中4个场景类别图像的参考描述以及不同方法的定性结果。从描述结果中的属性信息和语义内容两个方面对描述结果进行分析,属性信息缺失或语义表达不符合的以红色“×”高亮显示,符合的以蓝色“√”高亮表示。同时,对本文模型生成的描述按照属性和语义进行标注,其中蓝色高亮表示与图像内容匹配的场景和属性,红色高亮表示语法错误或与图像内容无关的内容。

总体而言,所提方法与基线模型均能够生成语义相关的描述语句。然而,基线模型在处理不同尺度的图像特征时,存在一定的局限性,容易导致单词缺失以及语义不符合的现象。例如:基线模型在描述第1张图像时忽略了“trees”,仅关注“buildings”;在描述第3张图像时,仅识别出“bridge”和“river”。这表明基线模型对图像内容的描述较为粗略,而本文所提方法从局部属性信息考虑图像的语义内容,从而生成更全面的描述。在语义表达方面,能够生成连贯且与参考描述一致的描述语句。以第3张图像为例,所提方法准确描述了“bridge”“trees”和“river”之间的语义关系,而基线模型无法准确表达。

2.4.4 参数分析

为了评估预测属性数量k和融合权值α等参数的影响,本文选择了UCM-Captions和RSICD两个数据集进行实验,并选取了综合性文本生成评价指标Sm进行分析,实验结果如图6所示。Sm指标通过将BLEU-4、METEOR、ROUGE-L和CIDEr等评价指标进行加权平均,综合衡量生成描述与参考描述之间的相似度。

预测属性数量k对模型性能有显著影响。当k值较大时,模型倾向于预测更多属性,虽能丰富生成描述的语义信息,但易导致过拟合,降低模型性能。反之,若k值过低,模型则过于保守,可能遗漏重要属性,导致语义信息不足。因此,本文在UCM-Captions和RSICD数据集上进行了多次实验,以确定最佳k值。实验结果表明,当k=4时,模型在Sm指标上达到最佳性能。

在多模态信息融合模型中,合理设置融合权值α对精准预测至关重要。具体而言,当α值较小时,模型更多依赖文本信息引导的特征,适用于文本信息丰富的场景,但可能忽略属性信息引导的局部语义信息,影响对图像细节的捕捉能力。当α值较大时,模型更多依赖属性信息引导的特征,适用于属性信息重要的场景,但可能错失文本信息中的全局语义关联。为找到属性信息与文本信息的最佳平衡,本文对融合权值α进行了调整,设定了0.1、0.3、0.5和0.7等不同值。实验结果表明,当α=0.3时,模型在Sm指标上表现最佳。

3 结束语

近年来,遥感图像描述生成作为一种新兴的跨模态任务,为遥感图像的智能解译提供了新的思路。提出一种基于多模态语义特征融合的遥感图像描述生成方法。通过设计语义引导的双交叉注意力特征融合模块,实现语义特征引导下的跨模态交互和多模态融合。在遥感图像数据集上的实验结果证明,本文方法能够提升生成描述质量。由于在Sydney-Captions数据集上模型表现欠佳,下一步将优化模型在小规模数据集上的适应性,以达到更好的效果。

参考文献

[1]

陈杰,戴欣宜,周兴,.双LSTM驱动的高分遥感影像地物目标空间关系语义描述[J].遥感学报202125(5):1085-1094.

[2]

余东行,徐青,赵传,.注意力引导特征融合与联合学习的遥感影像场景分类[J].测绘学报202352(4):624-637.

[3]

王龙博,刘建辉,张贝贝,.利用注意力机制融合的YOLOv5遥感图像目标检测[J].信息工程大学学报202324(4):438-446.

[4]

KOTARIDIS ILAZARIDOU M. Remote sensing image segmentation advances: a meta-analysis[J]. ISPRS Journal of Photogrammetry and Remote Sensing2021173:309-322.

[5]

DAS S, JAIN L, DAS A. Deep learning for military image captioning[C]∥Proceedings of the 2018 21st International Conference on Information Fusion. Piscataway, USA: IEEE, 2018:2165-2171.

[6]

LIU Q RRUAN C QZHONG Set al. Risk assessment of storm surge disaster based on numerical models and remote sensing[J]. International Journal of Applied Earth Observation and Geoinformation201868:20-30.

[7]

WANG SYE X TGU Yet al. Multi-label semantic feature fusion for remote sensing image captioning[J]. ISPRS Journal of Photogrammetry and Remote Sensing2022184:1-18.

[8]

YANG Q QNI Z HREN P. Meta captioning: a meta learning based remote sensing image captioning framework[J]. ISPRS Journal of Photogrammetry and Remote Sensing2022186:190-200.

[9]

MENG L WWANG JYANG Yet al. Prior knowledge-guided transformer for remote sensing image captioning[J]. IEEE Transactions on Geoscience and Remote Sensing2023,61:No.4706213.

[10]

LIU C YZHAO RSHI Z W. Remote-sensing image captioning based on multilayer aggregated transformer[J]. IEEE Geoscience and Remote Sensing Letters2022,19:No.6506605.

[11]

YANG Z GLI QYUAN Yet al. HCNet: hierarchical feature aggregation and cross-modal feature alignment for remote sensing image captioning[J]. IEEE Transactions on Geoscience and Remote Sensing2024,62:No.5624711.

[12]

QU BLI X LTAO D Cet al. Deep semantic understanding of high resolution remote sensing image[C]∥Proceedings of the 2016 International Conference on Computer, Information and Telecommunication Systems. Piscataway, USA: IEEE, 2016. DOI:10.1109/CITS.2016.7546397 .

[13]

LU X QWANG B QZHENG X Tet al. Exploring models and data for remote sensing image caption generation[J]. IEEE Transactions on Geoscience and Remote Sensing201856(4):2183-2195.

[14]

PAPINENI KROUKOS SWARD Tet al. BLEU: a method for automatic evaluation of machine translation[C]∥Proceedings of the Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2002:311-318.

[15]

下转第页

基金资助

河南省自然科学基金(242300420623)

河南省科技攻关项目(252102321003)

AI Summary AI Mindmap
PDF (3190KB)

120

访问

0

被引

详细

导航
相关文章

AI思维导图

/