基于DenseFuse网络的无人机载红外和可见光鹿科动物图像融合

李汶佼 ,  包衡 ,  杜化林 ,  李洋 ,  张卫华 ,  杨琨 ,  马光凯 ,  姜广顺

野生动物学报 ›› 2025, Vol. 46 ›› Issue (03) : 514 -522.

PDF (5346KB)
野生动物学报 ›› 2025, Vol. 46 ›› Issue (03) : 514 -522. DOI: 10.12375/ysdwxb.20250305
研究论文

基于DenseFuse网络的无人机载红外和可见光鹿科动物图像融合

作者信息 +

Unmanned Aerial Vehicle Equipped with both Infrared and Visible for Cervidae Image Fusion Based on DenseFuse Network

Author information +
文章历史 +
PDF (5474K)

摘要

野生鹿科(Cervidae)动物作为生态系统的组成部分,在维持生态平衡方面扮演着至关重要的角色。无人机影像技术在野生动物监测中的应用已日趋成熟,但受自然光照条件和野外环境复杂多变的影响,单一光谱成像技术很难得到高质量的野生鹿科动物图像。因此提出一种基于DenseFuse网络的图像融合算法,通过无人机搭载的多光谱成像设备,将红外图像与可见光图像融合,同时保留红外图像的轮廓信息和可见光图像的外貌信息,提高了监测图像质量。基于野生鹿科动物影像数据集,采用多种图像融合策略进行实验,对红外图像与可见光图像的融合效果展开细致对比。结果显示,通过使用l1-norm融合策略所获得的综合评价指标最优,经该策略融合后得到的图像平均信息熵达到了6.965。这一结果表明,本研究所提出的无人机多光源图像融合算法能够为野生动物监测工作提供可靠的技术支撑。

Abstract

As an integral part of the ecosystem, wild Cervidae animals play a crucial role in maintaining ecological ba-lance. The application of unmanned aerial vehicle (UAV) imaging technology in wildlife monitoring has become increasingly mature. However, due to the influence of natural lighting conditions and the complex and changeable wild environment, it is difficult to obtain high-quality cervid images using single-spectrum imaging technology. Therefore, this paper proposes an image fusion algorithm based on the DenseFuse network. By utilizing the multispectral imaging equipment carried by unmanned aerial vehicles (UAVs), the algorithm fuses infrared images with visible light images while preserving the contour information of the infrared images and the appearance information of the visible light images, thereby improving the quality of monitoring images. Based on the wild cervid image dataset, this paper employs multiple image fusion strategies for experiments and conducts a detailed comparison of the fusion effects between infrared and visible light images. The experimental results show that the comprehensive evaluation index obtained by using the l1-norm fusion strategy is the best, and the average information entropy of the fused images reaches 6.965. This result indicates that the proposed UAV multi-source image fusion algorithm can provide reliable technical support for wildlife monitoring.

Graphical abstract

关键词

红外图像 / 可见光图像 / 野生动物 / 图像融合

Key words

Infrared image / Visible image / Wildlife / Image fusion

引用本文

引用格式 ▾
李汶佼,包衡,杜化林,李洋,张卫华,杨琨,马光凯,姜广顺. 基于DenseFuse网络的无人机载红外和可见光鹿科动物图像融合[J]. 野生动物学报, 2025, 46(03): 514-522 DOI:10.12375/ysdwxb.20250305

登录浏览全文

4963

注册一个新账户 忘记密码

在全球生物多样性锐减的背景下,强化对野生动物资源的动态监测与系统性保护已成为维系生态安全与生物安全的战略举措1。作为生态系统中关键物种的野生鹿科(Cervidae)动物,其种群稳定性正持续遭受气候变化、栖息地破碎及人类干扰等多重危机的叠加影响2-3。相较于传统的人工巡查方式,无人机影像技术凭借其更大的覆盖范围和更高的监测通量,在野生动物监测领域的应用范围正逐步拓展4-5。但是,受自然光照条件和野外环境复杂多变的影响,单一光谱成像技术很难得到高质量的野生鹿科动物图像。
目前,在动物监测中,无人机最为常用的监测手段是可见光成像技术。例如,通过无人机可见光图像对白额雁(Anser albifrons6、绵羊7和牛8的数量进行统计。结合人工智能技术,对无人机采集的可见光图像展开分析,从而实现对非洲野生动物9、恒河鳄(Crocodylus palustris10和沙漠动物11的有效监测。值得注意的是,在上述研究中,无人机大多在空旷区域开展动物数据的采集工作,很少出现动物被环境遮挡的情况。然而,在森林等植被茂盛的地区,使用无人机可见光成像进行野生鹿科动物监测时,由于树木遮挡,野生鹿科动物很难被完整监测到。相较于传统可见光成像技术,红外热成像技术依托红外辐射独特的物理穿透特性,在光照不足、植被冠层遮蔽等场景下仍能保持稳定的探测能力。这种热辐射感知机制突破了可见光成像的光学局限性,尤其在野生动物监测领域,当动物体色与背景环境形成光学伪装,或夜间可见光监测失效时,红外成像系统通过探测目标体表与环境的温差(通常哺乳动物体表温度比环境高5~10 ℃),仍能实现有效识别12。Lyu et al.13通过Faster R-CNN网络检测红外图像中的鹿,并针对红外图像分辨率低的问题,集成了小尺度锚框和多尺度特征图,提高了检测小物体的准确性。但是,由于红外成像技术主要是依靠检测物体散发的热量,使得红外图像缺乏野生鹿科动物的纹理细节。相比之下,可见光可以提供鹿科动物高分辨率纹理细节信息。因此,针对野生鹿科动物监测场景中存在的多种成像技术互补性需求,亟需一种多光谱图像融合技术,将野生鹿科动物的可见光图像和热红外图像进行融合,既保证复杂林冠环境下动物主体的稳定识别,又能有效保留角部纹理、毛色斑纹等物种鉴别关键特征。
图像融合是将来自不同传感器获取的图像信息合并为单一图像14-15,可以提高图像质量、增强图像信息。因此,红外图像和可见光相融合后的融合图像能够吸收两者的优点,在保证分辨率的同时,也能保留清晰的轮廓特征和更多细节信息。Li et al.16提出以一种基于深度学习的红外图像和可见光图像融合的算法,其中将源图像分为基础部分和高频部分并通过不同的融合策略以获得融合图像。Liu et al.17通过自适应算法提高了红外图像对比度,但是可能会导致一些图像细节被压缩或丢失。为了让融合图像保留更多源图像的信息,杨莘等18提出一种端到端的双融合路径生成对抗网络,其中将两幅源图像直接输入到网络的每一层,以提取更多的源图像特征信息。王昱婷等19提出的融合模型DAPR-Net可以获得更清晰的目标细节和更明确的目标信息,并通过双注意力特征提取模块AFEM,增强了在低光场景下的检测效果,但是在夜光场景下,可见光图像效果不佳。谢一博等20通过双目异型成像系统和双尺度融合算法对红外与可见光图像进行融合,获得了信息丰富、质量更佳的融合图像。
目前,在野生动物的相关研究中,使用红外图像与可见光图像相融合的研究有限。为减少野生动物检测中的遮挡问题,提高野生鹿科动物的监测效率,本研究提出一种基于DenseFuse21图像融合网络,用于将无人机采集到的红外野生动物图像和可见光野生动物图像融合,拟解决检测过程中存在的遮挡和目标分辨率低造成检测效果不佳的问题。

1 实验数据采集与制作

1.1 视频采集

使用大疆经纬M300 RTK无人机,在保护区航拍采集4种鹿科动物的视频。2020年11月,在吉林省延吉市的汪清自然保护区拍摄梅花鹿(Cervus ni-ppon)和马鹿(C.elaphus)。2020年12月,在内蒙古自治区根河市的汗马国家级自然保护区拍摄野生驯鹿(Rangifer tarandus)和狍(Capreolus pygargus)。无人机飞行高度越高,视频采集到的范围越大,能观察到的动物数量越多,但是飞行高度过高会导致图像中的动物太小,增加检测和识别的难度。通过不同飞行高度的图像效果对比,确定飞行高度为30~200 m。

1.2 图像制式

拍摄大型哺乳动物时,变焦、广角和热成像相机同时录制,可同时采集4种视频,即以SCRN(图1(a))、THRM(图1(b))、WIDE(图1(c))和ZOOM(图1(d))为后缀的视频,其中WIDE用广角相机拍摄,ZOOM用长焦相机拍摄,THRM和SCRN为热成像相机拍摄的热红外视频,而SCRN图像是由THRM原始分辨率为640 × 512的视频填充黑边并拉伸至1 920 × 1 080分辨率视频生成。采集的红外视频中的部分图像见图2

使用软件从视频中截取视频帧,截取频率为每2 s一帧,人工去除没有拍摄到动物或者成像效果差的图片,得到对应的4种制式图像。其中,THRM和SCRN制式的图像使用热红外成像,获取到的动物轮廓更清晰,而WIDE和ZOOM制式图像保留了动物详细的外貌特征。

1.3 图像配准

使用图像融合算法对红外和可见光图像融合,需要选取2种制式的图像作为原始图像。经过对比,可见光图像ZOOM制式和红外图像THRM制式的视角更接近,故选择THRM和ZOOM制式图像进行融合。

图3所示,融合要求2种图像尺寸一致且内容相互对齐,使用了特征匹配的配准算法将可见光图像对齐至红外图像,并对红外图像进行裁切后缩放至1 920 × 1 080分辨率。通过上述步骤,在4种动物图像中得到2 200对配准的红外和可见光图像。

1.4 数据制作

使用图像融合的方法对红外和可见光图像进行融合,且对应的红外和可见光图像中动物坐标保持一致。在得到的鹿科动物数据集中,红外图像组成如表1所示,其中马鹿498张,梅花鹿767张、狍481张、驯鹿454张。将2 200张图片以4∶1的比例随机划分成训练集和验证集,其中训练集1 760张,验证集440张,数据集中的每张红外图像均有对应的可见光图像。

2 DenseFuse融合网络

红外和可见光图像的融合图像需要从2种图像中提取出各自的特征,通过特定的融合方法将这些特征融合到新的图像之中。本研究使用DenseFuse深度学习网络来融合可见光和红外图像。

2.1 DenseFuse融合原理

DenseFuse是一种基于CNN模块和DenseBlock的新型深度学习网络,与传统的深度学习网络相比,其使用了Encoder模块和Decoder模块,与网络中的卷积层、融合层相连接21。虽然这种网络只能融合2种灰度图像,但是在融合红外和可见光图像时,我们将可见图像的R、G、B三个通道分别视为3张灰度图像,与红外图像融合后,再作为R、G、B三个通道的图像输出,也能完成红外和可见光图像的融合。这种体系能够在红外和可见光图像中获取到更多有用的特征,并设计了2种融合策略,能够有效提高图像融合的性能。

2.2 DenseFuse网络结构

DenseFuse的网络架构包括3个部分:Encoder编码层、Fusion融合层和Decoder解码层。DenseFuse网络结构如图4所示。首先是编码层,包含2个部分,分别是C1层和DenseBlock层,它们用来特征提取。C1使用了3 × 3的卷积核,DenseBlock由3层卷积层组成,卷积核尺寸也为3 × 3,步长为1,因此得到的特征图尺寸不变,使用反射模式填充图像。每一个卷积层使用16个卷积核,故特征图为16通道。编码层有两点优势,一是因为卷积核尺寸为3 × 3,步长和padding为1,使得输入和输出的尺寸一致,这样输入图像的大小无限制;二是DenseBlock模块可以在编码层尽可能多地保存深层特征,这些都有助于后面的融合策略。编码层采用4层卷积层,将融合层后的输出当作输入,来重建最终的融合图像。

2.3 损失函数

在训练阶段,暂时忽略融合层,只考虑编码层和解码层,训练这两层用于重建输入图片。在编码和解码层的权重固定后,采用自适应特征融合策略进行融合。在训练时,使用损失函数(L)来进行反向传播,损失函数计算如下,

L=λLssim+Lp

式中:Lssim为结构相似性损失,表示输入和输出差异性表达式,Lssim=1-SSIMO,I,其中SSIM函数为相似性操作;Lp为像素损失,是输入输出的欧式范数,Lp=O-I2LLssimLp的加权组合,权重为λ

2.4 融合策略

DenseFuse的核心是融合策略,编码层输出为高语义的特征图,融合策略决定了之后从解码层重建的图像与输入图像的相关程度,即融合性能。本研究使用addition和l1-norm两种融合策略。

addition计算公式为

fmx, y=i=1kϕimx, y

式中:m1,2,,MM = 64代表特征图的通道数;k2代表输入的索引,表示编码层从输入图像提取出来的特征图; fm表示融合后的特征映射。

addition的融合策略虽然有效,但是这样的操作对于高语义特征融合效果不佳。故本研究使用了一种基于l1-norm和softmax算法的新融合策略应用到融合网络中。

在新的融合策略中,首先计算活动等级图Ci,由l1范数和基于块的平均算子计算,

Cix,yϕi1:Mx,y1

通过基于块的平均算子计算能够得出最终活动水平图C^lC^l计算如下,

C^lx,y=a=-rr b=-rrCi(x+a,y+b)2r+12

其中r决定块大小,本研究中r取1。

通过Cl^能得到融合后的特征图fmfm计算如下,

fm(x,y)=i=1kC^i(x,y)n=1kC^n(x,y)×ϕm(x,y)

3 结果与分析

3.1 网络训练设置

采用迁移学习的方法,在COCO数据集上进行预训练,训练集79 000张图像,测试集1 000张图像。随后,在鹿科动物数据集中随机抽取1 000张图像对网络进行训练。由于DenseFuse的总体损失是由SSIM损失和像素损失加权相加而得到,故需定义加权系数(λ),其中λ越大,表示SSIM损失在训练过程中权重越大。在本研究中,设置λ=100

3.2 图像融合结果

将4种大型哺乳动物相互对应的THRM红外图像和ZOOM可见光图像进行融合。将红外图像和可见光图像输入进DenseFuse融合网络,分别使用2种特征融合策略,可以得到对应的融合图像(图5)。通过观察图像可知,可见光图像保留了动物的外貌花纹等细节信息,但是容易被树木遮蔽;红外图像保留了更多的轮廓信息,但是丢失了外貌特征。相比可见光图像和红外图像,使用DenseFuse融合网络得到的2种融合图像,不仅保留了外貌信息,还避免了被树木遮蔽,而且由于背景信息保留得更好,在后续的目标检测算法中能够更好地区分前景和背景,提高检测的准确性。相比于addition策略,l1-norm策略下融合图片的动物外貌更清晰,效果更佳。

3.3 融合图像质量评价

使用一些数据指标如SSIM22-23、信息熵24、均方误差(MSE)和均方根误差(RMSE)和归一化均方根误差(NRMSE)等来量化融合图像的质量。在实验中增加2组对照组,分别为DeepFuse网络融合图片和VIFNet融合图片。在使用指标进行计算时,需要将图像转换成灰度图像。如图6所示,每种动物各选取20组图像进行计算,每组包含6张图片。在计算完成后,记录所有图像的平均指标。

SSIM表示两张图片的相似性,该指标通过3个参数来衡量图像的相似度,设两张图片分别为xy,分别得到亮度相似性lxy)、对比度相似性cxy)和结构比较相似性sxy),最终得到SSIM指标。其中,亮度相似性、对比度相似性、结构比较相似性和SSIM的计算式为

lx,y=2μxμy+c1μx2+μy2+c1
cx,y=2σxσy+c2σx2+σy2+c2
sx,y=σxy+c3σxσy+c3
SSIMx,y=[l(x,y)]α[c(x,y)]β[s(x,y)]γ

式中:μx表示x的平均值,μy表示y的平均值,σx2σy2分别表示xy的方差。SSIM取值范围为[-1,+1],值越大,表示相似度越高,图像融合质量越好。一般选取α=β=γ=1c3=c2/2以简化SSIM计算,简化后的SSIM计算式为

SSIM(x,y)=2μxμy+c12σxy+c2μx2+μy2+c1σx2+σy2+c2

计算addition策略的融合图像、l1-norm策略的融合图像、DeepFuse融合图像和VIFNet融合图像分别与红外和可见光图像的SSIM,结果如图7所示。

图7可知,相比于addition策略的融合图像、DeepFuse融合图像和VIFNet融合图像,l1-norm策略的融合图像对于融合后的细节保留能力最佳。

MSE、RMSE和NRMSE是常用的图像融合质量评估指标,用于衡量融合图像与原始图像之间的差异。这些指标基于像素误差计算,数值越小,表示融合图像与原始图像的相似度越高,融合效果越好。其中,MSE的计算公式为

E=1NiN(xi-yi)2

式中:xiyi是两张图像的像素点。

RMSE只是将MSE进行平方根计算,而NRMSE是将RMSE的值映射到0~1。MSE、RMSE和NRMSE对比结果如表2所示。由表2可知,在红外图像中,addition融合图像、l1-norm融合图像、VIFNet融合图像和DeepFuse融合图像后的差异度依次增高;在可见光图像中,l1-norm融合图像的差异最小,可以保留更多的鹿科动物外貌信息。

信息熵(entropy)表示图像灰度级集合的比特平均数,描述了图像包含信息的多少。信息熵越大,表示包含的信息越多。信息熵计算公式为

HA=-aPAalogPAa

将红外图像、可见光图像、addition融合图像、l1-norm融合图像、VIFNet融合图像和DeepFuse融合图像分别进行信息熵计算,计算结果如图8所示。由图8可知,可见光图像的信息熵最大;在融合图像中,l1-norm融合图像的信息熵最大,包含的信息最多。

经过以上几个指标的对比,l1-norm融合图像参数最优,在融合了红外和可见光图像后,携带的信息最多。结合对样本的观察,l1-norm融合图像对动物轮廓信息保留得最好,能够有效地减小树木遮蔽,提高后续目标检测精度。

4 结论

本研究提出了一种基于DenseFuse网络的图像融合算法,使用l1-norm融合策略对红外图像和可见光图像进行融合。DenseFuse网络生成的融合图像结合了红外图像和可见光图像的优势,生成了适用于野外有遮蔽场景的融合图像数据。这些融合图像数据能够有效地提升动物检测性能,解决无人机拍摄时动物容易被树木冠层遮挡以及动物毛色与环境相近无法区分的问题。使用DenseFuse深度学习网络对2种图像融合后,得到包含2种图像特征的融合图像。经过对比实验,l1-norm融合图像相比于addition、DeepFuse和VIFNet融合图像,各项指标参数更优,并由信息熵的参数可知,l1-norm融合图像在轮廓信息接近红外图像的同时,其信息熵更接近可见光图像。

参考文献

[1]

DU NFATHOLLAHI-FARD A MWONG K Y. Wildlife resource conservation and utilization for achieving sustainable deve-lopment in China: main barriers and problem identification[J]. Environmental Science and Pollution Research2023. DOI: 10. 1007/s11356-023-26982-7 .

[2]

LINNELL J D CCRETOIS BNILSEN E Bet al. The challenges and opportunities of coexisting with wild ungulates in the human-dominated landscapes of Europe’s Anthropocene[J]. Biological Conservation2020244: 108500.

[3]

FORSYTH D MCOMTE SDAVIS N Eet al. Methodology matters when estimating deer abundance: a global systematic review and recommendations for improvements[J]. The Journal of Wildlife Management202286(4): e22207.

[4]

DE KOCK M EPOHŮNEK VHEJCMANOVÁ P. Semi-automated detection of ungulates using UAV imagery and reflective spectrometry[J]. Journal of Environmental Management2022320: 115807.

[5]

LI X HHUANG H LSAVKIN A V. Autonomous navigation of an aerial drone to observe a group of wild animals with reduced visual disturbance[J]. IEEE Systems Journal202216(2): 3339-3348.

[6]

OGAWA KLIN Y TTAKEDA Het al. Automated counting wild birds on UAV image using deep learning[C]//2021 IEEE International Geoscience and Remote Sensing Symposium IGARSS, July 11-16, 2021. Brussels: IEEE, 2021: 5259-5262.

[7]

SARWAR FGRIFFIN AREHMAN S Uet al. Detecting sheep in UAV images[J]. Computers and Electronics in Agriculture2021187: 106219.

[8]

DE LIMA WEBER FDE MORAES WEBER V ADE MORAES P Het al. Counting cattle in UAV images using convolutional neural network[J]. Remote Sensing Applications: Society and Environment202329: 100900.

[9]

PETSO TJAMISOLA R SMPOELENG Det al. Individual animal and herd identification using custom YOLO v3 and v4 with images taken from a UAV camera at different altitudes[C]//2021 IEEE 6th International Conference on Signal and Image Processing(ICSIP), October 22-24, 2021. Nanjing: IEEE, 2021: 33-39.

[10]

DESAI BPATEL APATEL Vet al. Identification of free-ranging mugger crocodiles by applying deep learning methods on UAV imagery[J]. Ecological Informatics202272: 101874.

[11]

CHEN C REDIRISINGHE E ALEONCE Aet al. Deep neural networks based multiclass animal detection and classification in drone imagery[C]//2023 International Symposium on Networks, Computers and Communications(ISNCC), October 23-26, 2023. Doha: IEEE, 2023: 1-8.

[12]

LI W XCHEN QGU G Het al. Visible-infrared image matching based on parameter-free attention mechanism and target-aware graph attention mechanism[J]. Expert Systems with Applications2024238: 122038.

[13]

LYU H TQIU FAN Let al. Deer survey from drone thermal imagery using enhanced faster R-CNN based on ResNets and FPN[J]. Ecological Informatics202479: 102383.

[14]

MA J YMA YLI C. Infrared and visible image fusion methods and applications: a survey[J]. Information Fusion201945: 153-178.

[15]

JIN XJIANG QYAO S Wet al. A survey of infrared and visual image fusion methods[J]. Infrared Physics & Technology201785: 478-501.

[16]

LI HWU X JKITTLER J. Infrared and visible image fusion using a deep learning framework[C]//2018 24th International Conference on Pattern Recognition(ICPR), August 20-24, 2018. Beijing: IEEE, 2018: 2705-2710.

[17]

LIU FGUAN SYU K Ket al. Infrared target detection based on the fusion of mask R-CNN and image enhancement network[C]//2022 China Automation Congress(CAC), November 25-27, 2022. Xiamen: IEEE, 2022: 2011-2016.

[18]

杨莘, 田立凡, 梁佳明, . 改进双路径生成对抗网络的红外与可见光图像融合[J]. 电子与信息学报202345(8): 3012-3021.

[19]

YANG STIAN L FLIANG J Met al. Infrared and visible image fusion based on improved dual path generation adversarial network[J]. Journal of Electronics & Information Technology202345(8): 3012-3021.

[20]

王昱婷, 刘志明, 万亚平, . 基于可见光与红外图像的弱光条件下目标检测[J]. 计算机工程202450(8): 270-281.

[21]

WANG Y TLIU Z MWAN Y Pet al. Target detection under low light conditions based on visible and infrared images[J]. Computer Engineering202450(8): 270-281.

[22]

谢一博, 程进, 周顺, . 夜视环境下红外与可见光图像真彩色快速融合方法研究[J]. 激光与红外202454(1): 136-147.

[23]

XIE Y BCHENG JZHOU Set al. Research on the fast fusion algorithm of of true colour of infrared and visible images under night vision environment[J]. Laser & Infrared202454(1): 136-147.

[24]

LI HWU X J. DenseFuse: a fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing201928(5): 2614-2623.

[25]

WANG ZBOVIK A CSHEIKH H Ret al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing200413(4): 600-612.

[26]

ZHAO HGALLO OFROSIO Iet al. Loss functions for image restoration with neural networks[J]. IEEE Transactions on Computational Imaging20173(1): 47-57.

[27]

CHEN X QZHANG Q YLIN M Het al. No-reference color image quality assessment: from entropy to perceptual quality[J]. EURASIP Journal on Image and Video Processing20192019(1): 77.

基金资助

国家重点研发计划项目(2023YFF1305000)

中央高校基本科研业务费专项基金项目(2572022DS04)

AI Summary AI Mindmap
PDF (5346KB)

371

访问

0

被引

详细

导航
相关文章

AI思维导图

/