神经图像描述生成(Nerual Image Captioning, NIC)是计算机视觉和自然语言处理的交叉领域,其目标是根据输入的图像内容生成描述性文本。受此启发,遥感领域学者进一步提出遥感图像描述生成(Remote Sensing Image Captioning, RSIC)的任务,从语义层面呈现图像内容,推动遥感图像(Remote Sensing Images, RSI)的智能解译。不同于场景分类、目标检测和图像分割等传统的RSI理解任务,RSIC不仅能够识别RSI中对象的类别和区域,还可以捕捉对象之间的关系,生成容易理解的自然语言描述,可应用于灾害预警
[1]、情报生成
[2]和图像检索
[3]等领域。
2016年,文献[
4]首次提出RSIC研究并构建UCM-Captions和Sydney-Captions基准数据集。随后,越来越多的学者开始关注并投入到这一领域。例如:文献[
5]提出属性注意力机制,探究了属性信息对注意力机制的影响;文献[
6]提出标签注意力机制;文献[
7]构建RSICD数据集,逐渐形成独立于其他领域的体系。通过对研究RSIC的主要期刊《IEEE Geoscience and Remote Sensing Letters》《IEEE Transactions on Geoscience and Remote Sensing》等进行检索,同时采用在线学术搜索引擎检索相关文献,对2016—2024年近9年RSIC研究的发文情况进行统计,统计结果如
图1所示。9年间发文量呈现逐年递增趋势。由此可见对于遥感图像的语义解析逐渐引起国内外学者的兴趣和关注。
为了解RSIC方法的研究现状,首先将RSIC研究方法进行总结,并将其分为3类体系框架:基于模板和检索的框架、基于编码器—解码器框架以及基于两阶段的组合式框架;其次,描述RSIC研究相关的数据集和评价指标;最后,总结本文的主要工作,分析当前进展并探讨未来研究方向。通过对当前RSIC方法、评价指标等内容的总结,为本领域的研究人员提供参考。
1 面向遥感图像的智能语义理解方法
根据研究思路的不同,面向遥感图像的智能语义理解的研究方法可分为3类:基于模板和检索框架的方法、基于编码器—解码器框架的方法和两阶段组合式框架的方法。
1.1 基于模板和检索框架的方法
基于模板和检索的方法是早期常用的研究方法。基于模板的方法采用一种含有多个空白信息的预定义语句模板,将从图像中提取的物体、属性、关系等信息填入模板中,从而生成描述语句。由于缺少大规模的RSI语料库,文献[
8]采用基于模板的方法,从关键实例、环境元素和景观3个要素全面描述RSI。这种方法的优势在于可以根据RSI的特点和用户的具体需求设计预定义模板,但是设计好的固定模板导致生成句式单一,缺乏多样性和新颖性。基于检索的方法采用相似性度量的方法测量待描述图像与训练集中图像之间的距离,并选择最相似图像的描述作为查询图像的描述。文献[
9]采用相似性度量方法,将RSI的特征表示和对应的语义表示嵌入到共同的语义空间中,通过计算测试图像与训练集中所有语句表示之间的距离,以检索语义空间中距离最近的语句作为测试图像的描述。但是这种方法缺乏灵活性和多样性,且当相似度较低时,可能会出现不匹配的情况。传统方法在处理特定任务和语法正确性方面具有一定的优势,但其不足之处在于视觉部分处理过程复杂,依赖句子模板和检索性能,从而使生成的描述缺乏多样性和新颖性。相较于传统方法,基于深度学习算法的RSIC模型能够实现对遥感图像内容的智能识别和语义理解,显著提升遥感数据分析的效率和准确性。
1.2 基于编码器—解码器框架的方法
RSIC领域中主流的深度学习方法通常采用编码器—解码器架构。编码器将输入的RSI转换为特征向量,而解码器则将编码器生成的特征向量转换为描述语句,整体框架的流程如
图2所示。
1.2.1 编码端图像特征提取
图像特征提取是指通过视觉编码器从图像中提取有价值的信息,经典的视觉编码器采用卷积神经网络(Convolutional Neural Networks, CNN)。例如,使用AlexNet、VGG和ResNet等对自然图像进行图像特征提取。相比于自然图像,RSI覆盖范围广,背景复杂,地物类型多样、尺度差异大,容易出现目标物体难以识别和类别歧义等问题,使得特征提取困难,导致描述生成的准确性降低。为了解决现有RSIC方法在复杂的、多尺度的遥感场景中的应用局限,陆续有学者提出新的多尺度遥感图像处理网络。
文献[
10]提出一种多尺度上下文信息聚合网络(Multi-scale Contextual Information Aggregation Network, MC-Net),通过多尺度特征提取模块提取不同尺度的视觉特征,并采用特征聚合模块自适应融合跨尺度特征信息。为减少不同层次特征的噪声影响,文献[
11]提出一种基于去噪的多尺度特征融合(Denoising-Based Multi-scale Feature Fusion, DMSFF)机制,通过聚合不同尺度的特征并设计一种考虑空间位置和特征通道的去噪操作,从而改善RSIC任务中多尺度特征表示的能力。文献[
12]同时考虑遥感目标的类别和尺度,提出一种多尺度多交互网络结构,通过多个并行的卷积层捕捉不同尺度的图像信息。同时引入交互模块,在不同层级的特征之间进行信息交互,增强相似类别特征之间的交互,提升特征表达能力。针对地物信息获取不足的问题,文献[
13]从图像和文本两个角度增强特征提取,提出双重特征增强网络模型(Dual Feature Enhancement Network, DFEN),图像增强模块通过层次化的注意力机制从RSI中获取多尺度的语义信息,文本增强模块则利用RSI的多标签分类任务增强RSI的地物表示。
视觉Transformer(Vision Transformer, ViT)编码器在后续研究中被提出,其主要架构如
图3所示。文献[
14]利用经过微调的Swin-Transformer作为编码器骨干网络,以弥合自然图像和遥感图像之间的视觉差距,并有效提取多尺度的视觉特征。文献[
15]提出一种名为金字塔视觉Transformer的编码器,即TypeFormer,通过逐层缩小输入特征图的尺寸,控制不同层次的感受野,从而获取多尺度的特征表示。
1.2.2 解码端文本描述生成
图像内容描述对于图像理解至关重要,文本描述生成主要依赖于解码端的语言模型,将从其他模块获取的信息转换成文本描述,经典的解码器语言模型包括循环神经网络(Recurrent Neural Network, RNN)及其变体长短时记忆网络(Long Short-Term Memory, LSTM)。
早期研究中,受NIC的启发,文献[
4,
7]提出RSIC中编码器—解码器框架,并对RNN和LSTM进行了对比实验。实验结果表明,LSTM在UCM-Captions数据集和RSICD数据集上的结果优于RNN。之后的RSIC研究中,LSTM广泛应用于解码端语言模型。除此之外,文献[
16-
17]引入支持向量机(Support Vector Machine, SVM)作为语言模型将视觉信息转换为句子描述。
LSTM解决梯度消失和梯度爆炸问题,但仍然是基于时间序列的概念,缺乏高效并行计算的能力。相比于LSTM,Transformer具有更强的全局信息建模能力和语义关系构建能力,在小数据集上能够缓解过拟合问题、加速训练过程并具有更好的泛化能力。
目前,Transformer已经广泛应用于RSIC任务。文献[
18]提出CapFormer架构,使用了交叉注意层建模历史单词并与图像属性交互,解决遥感图像的复杂场景问题。文献[
19]提出具有先验知识增强的Transformer结构,利用图注意力网络和多头注意力机制获取场景—对象先验知识,并融入到Transformer结构中,促进遥感图像上下文相关描述的生成。文献[
20]引入多层聚合Transformer(Multi-layer Aggregated Transformer, MLAT),利用LSTM作为连接器,将特征从不同的Transformer编码层聚合到Transformer解码层中,以充分利用多尺度信息。
1.2.3 注意力机制的应用
文献[
21]首先应用注意力机制于NIC中,这种机制被设计用来解决编码器—解码器模型中的固定长度向量表示的限制,允许模型在解码时动态地关注输入序列的不同部分,图像描述任务中则是根据输入图像的不同区域调整关注点,以提高生成描述的质量。文献[
7]提出一种基于注意力机制的RSIC任务,证明了尽管自然图像与遥感图像存在较大差异,但注意力机制在RSIC任务中是自适应的。注意力机制在RSIC领域已经得到广泛应用。
1)结合关键信息的注意力模型。早期的注意力模型基于图像特征和当前的隐藏状态进行训练,RSIC领域学者通过结合图像中的关键信息优化注意力模型,包括属性信息、标签信息、场景信息和空间信息等。文献[
5]将属性信息与图像特征相结合,提出属性注意力机制(Attribute Attention Mechanism, AAM),充分考虑了遥感图像的全局语义信息。文献[
22]在此基础上引入全局视图编码(Global View Encoding, GVE)方法,进一步缩小视觉特征与语义属性之间的差距。为使语义属性更加精确,文献[
6]将图像内容以词嵌入向量的形式表示出来,并将其引入到计算注意力掩码的方程中,训练出一种标签注意力机制(Label-Attention Mechanism, LAM),解决了传统注意力模型图像细节和关系描述不准确的问题。文献[
23]提出了场景注意力机制(Scene Attention Mechanism, SAM),利用场景信息对候选显著区域进行评分。文献[
24]聚焦于高度结构化的语义内容,提供结构化的空间信息,训练出一种结构化注意力机制。
2)设计组合结构的注意力模型。上述方法通过一些关键信息与图像特征结合训练注意力机制。除此之外,国内外学者还通过设计巧妙的组合结构进一步提高注意力模型的性能。文献[
25]引入多层级注意力(Multi-level Attention, MLA)模型,设计了3种注意力结构,分别关注图像的不同区域、语句的不同词汇以及对视觉和语义的选择。文献[
26]同样采用多层级注意力模型,所提出的模块聚焦于不同的空间位置和空间尺度。文献[
27]引入空间注意力和通道注意力,以捕捉遥感图像中的多尺度、多方向的语义信息。文献[
28]提出多源交互式注意力网络(Multi-source Interactive Stair Attention Mechanism, MSIAM)和阶梯注意力网络。MSIAM通过分配空间和通道上的注意力权重,增强图像和文本之间的对应关系。阶梯注意力网络重新分配注意力权重,突出感兴趣图像区域,减少不相关图像区域的权重。
1.2.4 模型训练策略
RSIC任务中,文本生成解码器将单词预测作为分类任务,通过交叉熵(Cross Entropy, CE)损失函数作为训练策略优化编码器—解码器模型。CE损失函数是一种用于衡量模型预测的概率分布与真实标签的概率分布之间差异的度量方式,多应用于分类问题。但这种模型训练策略存在两个问题:一是过拟合问题,CE损失函数中的目标词概率优化为1,非目标词的概率优化为0,但目标词可能与其他非目标词(如同义词)具有强相关性;二是暴露偏差问题,即优化目标与评价指标不匹配。
为解决上述问题,文献[
29]提出截断交叉熵损失(Truncation Cross Entropy, TCE)损失函数,通过设置截断阈值,将目标词和非目标词的优化目标进行区分,解决了传统交叉熵损失函数容易导致过拟合的问题。强化学习(Reinforcement Learning, RL)方法可以有效解决暴露偏差问题。文献[
30]引入自我批判序列训练(Self-critical Sequence Training, SCST)优化算法直接优化非可微度量标准,解决优化目标和评价指标之间的不匹配问题。文献[
31]针对遥感数据中图像和描述的类间相似性问题,引入演员—双评论家(Actor Dual-Critic, ADC)训练策略,其中第二评论家以一个额外编码器—解码器形式部署,通过将生成的描述重新编码为图像表示,并与原始图像进行比较,从而提供额外的反馈。
除了上述模型训练策略之外,文献[
32]引入视觉对齐损失函数,通过计算视觉单词与相应图像特征之间的特征相似性优化注意力模型。文献[
33]引入图像—文本对比学习解决RSIC任务中视觉特征和图像特征之间的语义一致性问题。
1.3 两阶段组合式框架的方法
基于编码器—解码器的模型框架是一种端到端的网络结构,不包含额外的先验信息。而组合式框架遵循基本的编码器—解码器架构,通过辅助遥感任务,获取语义先验信息,并结合图像特征表示,最终完成RSIC任务。目前,国内外学者主要利用以下3类辅助遥感任务进行遥感图像描述生成。
1.3.1 图像分类任务
RSIC任务面临的一大挑战是深度学习模型的优化和小规模数据集之间的矛盾。RSIC模型需要大量的训练数据,但当前数据集标注的数据有限,而遥感图像分类模型所采用的训练数据集足够满足这一任务,因此遥感图像分类是两阶段方法中主要采用的一种辅助遥感任务。文献[
34]提出一种基于元学习的RSIC框架,支持任务自然图像分类和遥感图像分类具有充足的训练数据和训练好的分类模型,可以提供全面的视觉特征作为元特征。目标任务RSIC利用元特征训练模型,解决了数据不足和模型迁移困难的问题。文献[
35]使用多标签分类调节Transformer模型,缓解训练数据有限的问题。
除此以外,标签信息引导的图像特征能够反映与其相关的对象信息和关系,理解图像的全局信息,准确描述图像的细节和关系。文献[
36]通过词分类任务和词排序任务,提出一个新的词句框架,以提高RSIC模型的可解释性。文献[
6]利用标签信息指导注意力掩码的计算,提出了标签注意力机制(Label-Attention Mechanism, LAM),解决了传统注意力模型图像细节和关系描述不准确的问题。文献[
37]通过多标签语义特征融合框架优化模型,解决两阶段RSIC任务中的语义歧义问题并减少过拟合。
1.3.2 目标检测任务
沿用两阶段辅助遥感任务的思路,一些学者利用目标检测作为辅助任务提取目标特征信息。文献[
38]针对光学遥感图像描述生成任务中的多尺度问题,提出了两种多尺度方法,分别是多尺度注意力(Multi-scale Attention, MSA)方法和多特征注意力(Multi-feat Attention, MFA)方法,以获得更好的图像表示。在MFA方法中,研究结合目标级特征和场景级特征,通过将目标检测任务作为辅助任务获取目标级特征的细粒度语义信息来提高图像表示的质量,丰富上下文特征。文献[
39]首次在RSIC任务中实现了实例感知。通过引入多层次特征结构,包含了多层次实例可能区域及其周围的视觉信息,实现了对实例的感知,更准确地区分语义信息与地面目标及其关系。通过基于Faster R-CNN的目标检测模型提取目标级特征,并结合patch特征和全局特征构建多实例级特征,提高了特征在空间和语义层次上的准确性。
1.3.3 其他辅助任务
除了图像分类和目标检测两种主要辅助遥感任务,国内外学者还使用这种两阶段方法进行了其他相关研究。文献[
40]提出一种基于摘要驱动的深度遥感图像描述方法SD-RSIC,对多个训练图像的多个描述进行摘要生成,并将摘要生成描述与标准描述集成,解决了遥感图像描述生成中冗余信息和泛化能力不足的问题。文献[
41]引入声音信息改进遥感图像的描述生成。文献[
42-
43]通过引入主题词作为辅助信息,文献[
42]提出一种基于主题敏感词嵌入的RSIC模型,通过对训练数据集中的描述进行主题建模,将单词表示为多项式分布的主题,解决了多义词的语义表示问题。文献[
43]提出一种检索主题循环记忆网络,构建一个主题词库,通过将图像表示和主题表示结合起来训练一种能够生成确定性句子的RSIC模型。跨模态检索和语义细化(Cross-Modal Retrieval and Semantic Refinement, CRSR)
[44]使用预训练的对比语言—图像预训练(Contrastive Language-Image Pre-training, CLIP)模型作为跨模态检索工具,从一组描述句子中提取与遥感图像语义相关的句子作为补充信息,并使用掩码策略对CLIP模型进行微调,强调视觉上显著的语义信息,过滤掉误导性的语义信息。文献[
45]通过视觉问答(Visual Question Answering, VQA)模型识别语句中的重要词汇,利用VQA知识增强描述生成过程。
2 RSIC数据集和评价指标
2.1 RSIC数据集
数据集在RSIC研究中扮演着至关重要的角色,目前已构建的RSIC基准数据集主要分为5种:UCM-Captions
[4]、Sydney-Captions
[4]、RSICD
[7]、NWPU-Captions
[46]和RSICap数据集。
表1对5种RSIC常用数据集进行了综合比较。UCM-Captions和Sydney-Captions数据集是最早的遥感图像描述数据集,分别经UC Merced土地利用数据集和Sydney数据集标注所得,其标注的句子相对简单,句式单调,对当时遥感图像描述的研究起到了一定的推动作用。RSICD数据集于2017年创建,数据集中的图像分别从谷歌地球、百度地图、MapABC和天地图等平台收集而来,其图像描述由具有标注经验和遥感领域相关知识的志愿者生成。NWPU-Captions数据集由7名遥感专业的志愿者基于遥感场景分类数据集NWPU-RESISC45进行标注构建而成。RSICap数据集以DOTA目标检测数据集为基础构建,旨在推动遥感领域内大型视觉语言模型的进展。5位遥感领域专家对所选图像进行标注,最终生成了2 585个高质量的RS图像—文本对。
上述数据集是近年来RSIC领域的学者们最常用的数据集,推动了RSIC领域的发展。然而,目前的RSIC数据集仍然有待改进。1)在数据体量和标注质量方面略显不足,一定程度上制约了新的RSIC模型和方法的发展,尤其是需要大量训练数据的深度学习方向的发展;2)在遥感图像方面,遥感图像内容均为人工构建或天然地表物体,缺少日常场景;3)在文本注释方面,现有语料库的注释主要用于深度学习研究,针对实际应用场景较少。
2.2 RSIC评价指标
评价指标被用来客观地衡量生成描述与参考描述之间的相关性。评价指标的值越高,表示生成的图像描述更接近参考描述。常用的评价指标有双语互译质量评估指标(Bilingual Evaluation Understudy, BLEU)、以召回率为导向的摘要评价指标(Recall-Oriented Understudy for Gisting Evaluation, ROUGE)、带有明确排序的翻译评估指标(Metric for Evaluation of Translation with Explicit Ordering, METEOR)、基于共识的图像描述评价指标(Consensus-based Image Description Evaluation, CIDEr)和语义命题图像描述评价指标(Semantic Propositional Image Caption Evaluation, SPICE)。
BLEU由IBM的研究人员在2002年提出,最初用于机器翻译,现在已经扩展到包括图像描述在内的多种序列生成任务中,其通过比较生成的句子与多个参考句子之间的n元组重叠程度来评价其准确性。不同于BLEU,ROUGE通过计算召回率作为评价标准,根据计算方法,ROUGE可分为ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S,其中ROUGE-L在RSIC研究中被广泛使用,通过计算候选语句和参考语句之间的最长公共子序列(Longest Common Subsequence, LCS)来度量在语句层次上的相似性。METEOR也是一个机器翻译评价指标,结合了精确度、召回率和对齐率,评价较为全面,提供了比传统BLEU指标更多维度的评价。
CIDEr和SPICE指标专门为图像描述设计,其中CIDEr强调描述的多样性和质量,采用一种基于共识的方法,对候选描述和参考描述之间的共同用词进行加权统计,并为每个候选描述分配一个得分。SPICE则更加侧重于句子结构和语义相关性,不仅考虑描述中的词语及其组合,还对描述中的语义结构进行分析。
3 结束语
近年来,RSIC凭借其独特的应用价值,引起了研究人员的广泛关注。虽然现有研究已取得一定的进展,但未来仍面临诸多的问题和挑战。
1)虽然NIC领域的有效方法可为RSIC的研究提供技术支撑,但目前NIC模型存在难以适应遥感图像的尺度和类别特性等问题。因此,如何基于RSIC的图像特性和任务需求进行方法的改进是后续研究需要解决的难题之一。
2)深度学习模型的优化与RSIC小规模数据集之间的矛盾,以及遥感图像中细节和关系的描述质量有待提高。因此,引入分类和检测等辅助任务提供先验信息增强图像特征,同时设计多形式的辅助任务以提供更全面和多样化的描述是未来研究的主要方向之一。
3)RSIC领域常用数据集存在数据量小、场景类别有限和描述简短等问题,且存在单词错误、多样性差等不足,难以完全满足该领域的研究需求。一方面可以考虑采用大规模标记良好的数据集,另一方面如何在小样本低质量数据集上提高模型的描述有效率和准确率,也有待进一步深入研究。