语义驱动的遥感影像无监督变化检测方法

刘莺迎 ,  周刚

信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (03) : 373 -378.

PDF (2985KB)
信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (03) : 373 -378. DOI: 10.3969/j.issn.1671-0673.2025.03.017
测绘科学与技术

语义驱动的遥感影像无监督变化检测方法

作者信息 +

Semantic-Driven Unsupervised Change Detection Method for Remote Sensing Images

Author information +
文章历史 +
PDF (3056K)

摘要

针对遥感影像无监督变化检测精度较低问题,受视觉基础模型技术启发,提出一种语义驱动的遥感影像无监督变化检测方法。首先,使用分割一切模型(SAM)对遥感影像进行无监督分割获得不同的对象区域。其次,使用大型语言和视觉助手(LLaVA)为两个时相遥感影像中的对象区域生成相应的文本描述。再次,进一步利用文本特征嵌入模型将文本描述转换为特征向量,并计算两个时相遥感影像同一对象区域的语义相似性;根据同一分割对象区域在不同时相遥感影像上的语义差别,使用阈值分割的方法识别变化区域。最后,融合利用不同时相的遥感影像作为分割基准影像获得的变化结果,以进一步提升变化检测精度。在LEVIR-CD和WHU-CD两个基准测试数据集上的大量变化检测实验验证了所提方法的有效性。

Abstract

Inspired by vision foundation models, a semantic-driven unsupervised change detection method is proposed to deal with the low accuracy of unsupervised change detection in remote sensing images. Firstly, the segment anything model (SAM) is used to perform unsupervised segmentation of remote sensing images to obtain different object regions. Secondly, the large language and vision assistant (LLaVA) is used to generate corresponding text descriptions for the object regions in two temporal remote sensing images. Thirdly, the word embedding model is further utilized to convert text descriptions into feature vectors, and the semantic similarity of the same object area in two temporal remote sensing images is calculated. According to the semantic differences of the same segmentation object area in different temporal remote sensing images, the threshold segmentation method is used to identify changing regions. Finally, the change results obtained by using remote sensing images from different temporal images as reference images are integrated to further improve the accuracy of change detection. The effectiveness of the proposed method is validated through extensive change detection experiments on two benchmark datasets, LEVIR-CD and WHU-CD.

Graphical abstract

关键词

遥感影像 / 变化检测 / 深度学习 / 大语言模型 / 多模态

Key words

remote sensing image / change detection / deep learning / large language model / multi-modal

引用本文

引用格式 ▾
刘莺迎,周刚. 语义驱动的遥感影像无监督变化检测方法[J]. 信息工程大学学报, 2025, 26(03): 373-378 DOI:10.3969/j.issn.1671-0673.2025.03.017

登录浏览全文

4963

注册一个新账户 忘记密码

遥感影像变化检测技术是遥感影像应用与分析的关键支撑技术之一,其主要使用遥感处理和分析技术,在不同时间获取的覆盖同一区域的遥感影像中,对地表或地物发生的变化进行识别和规律分析的过程[1-3]。遥感影像变化检测技术为在大尺度范围内对地表的变化进行持续监测的手段,目前已经被广泛应用于城市规划、环境变化监测、自然灾害评估、农业生产调查、土地利用调查及军事打击效果评估等领域,并发挥了显著的经济和社会效益[4-6]。例如:截至2022年底,江苏省卫星中心共发布黄海海域藻类卫星遥感监测通报600余期,为有关部门及时精准处置提供决策依据;截至2021年11月初,广州、阳江、汕头3市应用遥感影像变化检测技术发现疑似新增乱占耕地建房图斑约1.7万条,为有关部门执法提供了有力的数据支撑。
遥感影像变化检测方面的研究始于20世纪70年代,迄今已有50多年的发展历史。在不同历史时期,遥感影像的分辨率、计算机的处理能力、计算机视觉与机器学习技术的机理等存在很大不同,这导致遥感影像变化检测技术的能力存在较大差异。主要分为4个阶段:基于像元比对的低分辨率遥感影像变化检测阶段、基于像元级特征分析的高空间分辨率遥感影像变化检测阶段、基于对象级特征分析的高分辨率遥感影像变化检测阶段和基于深度学习的高分辨率遥感影像变化检测阶段。当前,基于深度学习的遥感影像变化检测已经成为主流,其基本原理是将整幅遥感影像作为分析单元输入到深度学习模型中,一次性判断影像中所有像素的变化情况。此类方法输入深度模型的数据可以是融合后的多时相影像、未融合的多时相影像或者它们的分块。其整个检测过程是端到端进行的,因此相比于前两类变化检测方法更加智能。这类变化检测方法主要是受语义分割任务中的全卷积网络框架(Fully Convolutional Networks, FCNs)[7]启发。为了适应变化检测任务需要输入两幅影像的特点,需要对FCNs的结构进行改造。一般有两种策略:一种是直接将两个时相的遥感影像沿着波段方向拼接,然后输入到FCNs模型中输出变化检测结果;另外一种是基于孪生网络结构,也就是先分别提取两个时相遥感影像的特征,然后将特征拼接再输入到FCNs中输出变化检测结果[8]。基于上述两种方式,研究人员围绕模型改进和模型训练策略设计了大量针对遥感影像变化检测任务的改进方法。
近年来,以分割一切模型(Segment Anything Model, SAM)[9]、对比语言图像预训练(Contrastive Language-Image Pre-training, CLIP)[10]为代表的视觉基础模型技术在不同的遥感影像处理与分析任务中展现出了强大的零样本泛化能力。针对遥感影像无监督变化检测问题,探索利用预训练多模态大模型进行语义驱动的双时相遥感影像无监督变化检测方法,将变化检测任务转化为语义相似性判别。首先,使用SAM获取对象级区域。其次,利用大型语言和视觉助手(Large Language and Vision Assistant, LlaVA)生成同一对象区域在不同时相遥感影像上的文本描述,进一步计算不同文本描述的语义相似性。最后,利用阈值分割的方法确定变化区域。为了进一步提升变化检测精度,提出一种变化检测结果融合方法。实验结果验证了所提出方法的有效性。

1 遥感影像无监督变化检测方法

语义驱动的遥感影像无监督变化检测方法原理如图1所示。对于同一区域的双时相遥感影像,任选一幅影像作为基准影像,使用SAM将这幅影像分割成若干个对象区域。根据对象区域掩码的最小外接矩形框,从两个时相的遥感影像中切分出同一对象的局部影像块。然后将局部影像块输入到任意一个多模态大模型中获得同一对象区域两个时相对应的文本描述。

对于遥感影像中的未变化区域,不同时相的文本描述语义上应该相近。而对于遥感影像中的变化区域,不同时相的文本描述语义上应该存在较大差别。因此,进一步使用文本特征嵌入模型将文本描述转换为特征向量,并计算它们的相似性。最后根据文本描述相似性分割出变化区域。所提出方法均使用预训练模型,且无需在目标数据集上进行训练或微调,因此属于无监督方法。

在获得同一对象区域不同时相的文本描述后,可以根据文本描述的语义相似性来判断该区域是否为变化区域。如果该对象区域为变化区域,则两个时相文本描述的相似性越低。相反,如果某一对象区域的文本描述相似性高,则判定该对象区域为变化区域。具体地,本文使用文本特征嵌入模型将文本描述转换为特征向量。然后计算余弦相似性。最后使用大津法(OSTU)确定分割阈值,将小于阈值的对象区域判定为变化区域。考虑到选取不同时相的遥感影像作为分割基准影像会影响变化检测精度,分别使用两个影像作为分割基准影像,然后将两个变化检测结果取交集作为最终的变化检测结果。

1.1 多模态大模型构建

在获得同一对象区域不同时相的影像块后,将一个多模态大模型作为语义提取器,也就是生成局部图像块对应的文本描述。事实上可以使用任意多模态大模型。这里选择使用最为广泛的LLaVA作为语义特征提取器。LLaVA模型结构如图2所示。

LLaVA以图像ximage和文本xtext两个模态数据为输入。图像输入到视觉Transformer(Vision Transformer, ViT)模型中提取特征,然后经过一个线性投影层得到变换后的特征ZVZV经过一个参数为W的线性投影层得到视觉特征HVHV和文本嵌入特征HQ共同作为大语言模型Vicuna的输入。LLaVA模型可表示为

y^text=fLLaVA(ximage,xtext)=fVicuna(HV,HQ);HV=WZV,ZV=fViT(ximage);HQ=fembedding(xtext).

式中:ZV表示ViT骨干网络的提取的视觉特征;fViT表示ViT模型;fVicuna表示预训练的大型语言模型Vicuna。ViT由CLIP预先训练。Vicuna是一个大型语言模型,在LLaVA的基础上进行了微调。在训练过程中,Vicuna和ViT的参数被冻结,只有线性投影层的参数被更新。通过这种方式,LLaVA可以在低成本的硬件条件下进行训练。

LLaVA的输出为根据图像内容对输入文本的回答。LLaVA的训练分为两阶段:第1阶段使用59.5万条图像文本对数据实现图像和文本的语义对齐;第2阶段使用15万条多模态指令跟随数据训练模型根据图像内容进行问答。训练完成后的LLaVA能够很好地生成图像对应的文本描述。因此,将LLaVA视为语义提取器来提取遥感影像局部影像块的文本描述。

1.2 文本特征嵌入模型

在使用预训练的LLaVA提取遥感影像局部影像块的文本描述后,还需要根据文本描述相似性来判断局部影像块的语义是否发生变化,进而识别出变化区域。因为需要使用文本特征嵌入模型来将文本描述转化为特征向量,然后再计算同一区域两个时相对应的局部影像块的语义相似性。

有很多经典的文本特征嵌入模型,例如以掩码语言建模任务为训练目标的BERT、以乱序语言建模为训练目标的XLNet。掩码语言建模任务需要在假设被遮盖的标记相互独立的基础上预测相应的遮盖标记,这导致其无法很好地建模自然语言中复杂的上下文语义关系。乱序语言建模则以任意顺序使用乘法规则对预测标记进行因式分解,这就避免了掩码语言建模任务中的独立性假设的不足,因此可以更好地建模预测标记之间的依赖关系。此外,为了保证预训练过程和下游任务微调训练过程之间的一致性,应该让模型更好地利用整个句子的信息。掩码语言建模任务中整个句子的位置信息对于模型来说是可用的。而乱序语言建模中整个句子被打乱,因此整个句子信息是不可用的。

为了更好地描述文本的语义特征,选取兼顾掩码语言建模和乱序语言建模二者优点的MPNet。为了兼顾两种语言建模的优点,MPNet首先将掩码语言建模和乱序语言建模的输入(非预测)部分进行融合。对于输入的词序列x=(x1,x2,x3,x4,x5,x6),首先随机打乱整个词序列得到序列(x1,x3,x5,x4,x6,x2),然后将(x4,x6,x2)这3个词选为预测词,则非预测部分为(x1,x3,x5,[M],[M],[M])。非预测部分对应的位置信息为(p1,p3,p5,p4,p6,p2)。预测部分和它们对应的位置信息分别为(x4,x6,x2)和(p4,p6,p2)。MPNet通过引入输出单词依赖和输入位置补偿来实现兼顾掩码语言建模和乱序语言建模优点的目的。使用开源的Sentence_transformers包来实现MPNet。

2 实验结果

为了验证所提出方法的有效性,选取LEVIR-CD和WHU-CD两个遥感影像变化检测数据集进行实验。由于本文方法为无监督变化检测方法,无需使用任何样本进行训练。因此,两个数据集的所有样本被用于评价精度。此外,需要指出的是两个数据集也无需进行图像裁剪。

2.1 消融实验

所提出方法使用了开源的LLaVA和SAM模型,其中LLaVA的参数规模有7B和13B两个版本,LLaVA的测试表明LLaVA-13B比参数量更少的LLaVA-7B在图像问答任务上有更好的表现。类似地,SAM根据使用骨干网络参数量的不同有SAM-ViT-B、SAM-ViT-H、SAM-ViT-L这3个版本,其中参数量最多的SAM-ViT-L具有更好的分割效果。

表1表2中给出了所提出方法使用不同版本预训练模型的实验结果,其中定量评价指标为F1值。根据表1表2中的实验结果可知,使用参数量更大的模型会提升变化检测精度。但使用参数量更多的SAM对于变化检测精度提升效果不明显,而与使用LLaVA-7B相比,使用LLaVA-13B能够显著提升变化检测精度。这是因为局部图像块语义提取的准确与否能够极大影响变化检测精度。为了获得更高的变化检测精度,在后续的实验中,所以使用参数量更大的LLaVA-13B和SAM-ViT-L。

在使用SAM对整幅遥感影像进行分割时,提示点的数量会影响分割得到的对象区域,从而会影响最终的变化检测精度。因此,测试不同数量的提示点。表3给出了两个变化检测数据集上的F1值。根据实验结果可知,过少的提示点数量会降低变化检测精度。而由于SAM会合并冗余的提示点,因此过多的提示点对于变化检测精度的提升效果不明显。最终设置提示提示点的数量为32×32。

在进行变化检测实验时,可以对时相1的遥感影像进行分割获得对象区域,也可以对时相2的遥感影像进行分割获得对象区域,但二者之间的结果应当保持一致。如表4所示,分别测试了两种方案,并将两种方案的实验结果F1值取交集得到融合后的变化检测结果。实验结果表明,融合两种方案的结果有助于提升变化检测精度。

2.2 实验结果对比分析

为验证本文所提方法的有效性,选取主成分分析和k-mean聚类(Principal Component Analysis and k-Means Clustering, PCA-KM)[11]、基于卷积神经网络特征的变化检测(Convolutional Neural Network Features Based Change Detection, CNN-CD)[12]、深度慢速特征分析(Deep Slow Feature Analysis, DSFA)[13]和深度变化矢量分析(Deep Change Vector Analysis, DCVA)[14]这4种经典的变化检测方法作为比较方法。同时,选择最新基于多尺度图卷积网络和度量学习的变化检测方法(Change Detection Method Based on Multiscale Graph Convolutional Network and Metric Learning, GMCD)[14]作为比较方法。

采用F1值、平均交并比(Mean Intersection over Union, mIoU)和总体准确度(Overall Accuracy, OA)这3个定量指标对不同的变化检测方法进行评价。LEVIR-CD和WHU-CD两个数据集上的实验结果如表5表6所示。

测试结果分析表明,本文所提方法的变化检测精度明显高于其他方法,速度与其他检测方法相差不大,这充分说明了本文所提方法的有效性。本文所提方法的精度提升主要是由于SAM具有强大的分割能力和LLaVA模型对图像内容的理解,因此该方法能够实现基于语义相似度的无监督变化检测,具有较高的检测精度。

为了进一步验证本文所提方法的有效性,图3图4给出了本文所提方法获得的变化检测结果。根据图3图4中所示的结果可知,本文所提方法能够获得较为准确的变化检测,尤其是图3中的时相1影像对地面参考存在没有标记的变化区域,这也就证明了本文所提方法能够检测出真实的变化区域。

3 结束语

探索利用预训练多模态大模型进行语义驱动的双时相遥感影像无监督变化检测方法,将变化检测任务转化为语义相似性判别。首先,使用SAM获取对象级区域。其次,利用LLaVA生成同一对象区域在不同时相遥感影像上的文本描述,进一步计算不同文本描述的语义相似性。最后,利用阈值分割的方法确定变化区域。为了进一步提升变化检测精度,提出一种变化检测结果融合方法。实验结果验证了所提方法的有效性。本文工作为遥感影像变化检测的研究提供了新思路。

参考文献

[1]

杨彬,毛银,陈晋,深度学习的遥感变化检测综述:文献计量与分析[J].遥感学报202327(9):1988-2005.

[2]

KHELIFI LMIGNOTTE M. Deep learning for change detection in remote sensing images: comprehensive review and meta-analysis[J]. IEEE Access20208:126385-126400.

[3]

BAI TWANG LYIN D M, et al. Deep learning for change detection in remote sensing: a review[J]. Geo-Spatial Information Science202226(3):262-288.

[4]

蒋汾龙.基于差异表示学习的遥感影像变化检测[D].西安电子科技大学,2022:1-132.

[5]

ZHU X XTUIA DMOU L C, et al. Deep learning in remote sensing: a comprehensive review and list of resources[J]. IEEE Geoscience and Remote Sensing Magazine20185(4):8-36.

[6]

PARELIUS E J. A review of deep-learning methods for change detection in multispectral remote sensing images[J]. Remote Sensing202315(8):No.2092.

[7]

SHELHAMER ELONG JDARELL T, et al. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence201639(4):640-651.

[8]

HUANG JSHEN QWANG M, et al. Multiple attention siamese network for high-resolution image change detection[J]. IEEE Transactions on Geoscience and Remote Sensing2022,60:No.5406216

[9]

KIRILLOV AMINTUN ERAVI N, et al. Segment anything[DB/OL]. (2023-04-05)[2024-10-15].

[10]

ZHANG Y HJIANG HMIUURA Y, et al. Contrastive learning of medical visual representations from paired images and text[DB/OL]. (2022-09-19)[2024-10-15].

[11]

CELIK T. Unsupervised change detection in satellite images using principal component analysis and k-means clustering[J]. IEEE Geoscience and Remote Sensing Letters20096(4):772-776.

[12]

AMIN A M ELIU Q JWANG Y H. Convolutional neural network features based change detection in satellite images[C]∥Proceedings of the First International Workshop on Pattern Recognition. Washington, USA: SPIE, 2016:181-186.

[13]

DU BRU L XWU C, et al. Unsupervised deepslow feature analysis for change detection in multitemporal remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing201957(12):9976-9992.

[14]

TANG XZHANG H YMOU L C, et al. An unsupervised remote sensing change detection method based on multiscale graph convolutional network and metric learning[J]. IEEE Transactions on Geoscience and Remote Sensing2022,60:No.5609715.

AI Summary AI Mindmap
PDF (2985KB)

780

访问

0

被引

详细

导航
相关文章

AI思维导图

/