基于多尺度特征和注意力机制的轻量级虹膜分割模型

霍光 ,  林大为 ,  刘元宁 ,  朱晓冬 ,  袁梦 ,  盖迪

吉林大学学报(工学版) ›› 2023, Vol. 53 ›› Issue (09) : 2591 -2600.

PDF (1803KB)
吉林大学学报(工学版) ›› 2023, Vol. 53 ›› Issue (09) : 2591 -2600. DOI: 10.13229/j.cnki.jdxbgxb.20220044
计算机科学与技术

基于多尺度特征和注意力机制的轻量级虹膜分割模型

作者信息 +

Lightweight iris segmentation model based on multiscale feature and attention mechanism

Author information +
文章历史 +
PDF (1845K)

摘要

针对基于深度学习的虹膜分割模型存在参数量大、计算量大、占用空间大的问题,提出了一种轻量级的虹膜分割模型。首先,将Linknet中特征提取网络替换为改进的轻量级网络MobileNetv3。这种设计在保持准确性的同时显著地提高了模型效率。其次,为了减少虹膜特征信息丢失,设计了一个多尺度特征提取模块。再次,引入了通道注意力机制,抑制无关噪声,加大虹膜区域的权重。最后,在3个虹膜数据库上将本文模型与其他虹膜分割模型进行比较,结果表明,本文模型在虹膜分割准确率和效率之间取得了更好的平衡。

关键词

计算机应用 / 虹膜分割 / 深度学习 / 轻量级网络 / 注意力机制 / 多尺度特征

Key words

computer application / iris segmentation / deep learning / lightweight network / attention mechanism / multiscale feature

引用本文

引用格式 ▾
霍光,林大为,刘元宁,朱晓冬,袁梦,盖迪. 基于多尺度特征和注意力机制的轻量级虹膜分割模型[J]. 吉林大学学报(工学版), 2023, 53(09): 2591-2600 DOI:10.13229/j.cnki.jdxbgxb.20220044

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

随着身份认证需求的不断增加,虹膜识别系统逐渐应用于各种场景中。大多数虹膜识别系统包括5个基本步骤:虹膜图像采集、预处理、虹膜分割、虹膜特征提取和识别匹配1。虹膜分割在虹膜识别系统中具有至关重要的作用。鲁棒的虹膜分割算法可以进一步提高虹膜识别系统的准确性2

目前,虹膜分割模型主要可以分为基于图像梯度的传统模型和基于深度学习的模型。传统的虹膜分割模型主要包括基于梯度微分的算法和基于Hough变换的算法。许多后续算法都是基于这两种方法的改进和创新,如基于反转变换和受限圆Hough变换的定位算法3、基于Hough变换的改进算法4、基于Daugman模型的改进算法5等。在理想条件下,虹膜图像清晰、无遮挡,传统虹膜分割算法可以准确地分割虹膜区域。在非理想的条件下,采集的虹膜图像可能会包含眼睑遮挡、光斑、眼镜框遮挡等噪声,这些噪声会严重影响传统虹膜分割模型的性能。

近年来,随着深度学习的快速发展,越来越多的研究者将其应用于虹膜分割领域,并取得了显著的效果6。虹膜分割是语义分割中的二分类问题。目前性能较好的语义分割网络有全卷积网络(Fully convolutional network,FCN)7、U-Net8、Linknet9等。Chen等10提出了一种基于FCN和密集块相结合的虹膜分割模型。该模型虽然可以有效地分割含有噪声的虹膜图像,但是该模型的参数量高达142.5 M。周锐烨等6提出了一种基于U-Net的神经网络模型用于分割异质虹膜图像。该模型的参数量为2.49 M,计算量为1.32 G。为了提高模型的效率,Wang等11提出了一种轻量级的深度卷积神经网络,用于移动设备采集的噪声图像分割。该模型参数量为0.69 M,计算量为74.27 G。虽然基于深度学习的虹膜分割方法在一定程度上取得了优于传统方法的效果,但是仍然难以兼顾虹膜分割的准确率和效率。较高的计算量和存储空间容量为虹膜识别系统部署在低性能设备上带来了挑战。

因此,在保证分割精度的基础上,降低算法的参数量、计算量、存储空间容量,并有效抑制图像噪声干扰,就成为本文研究的重点。对此,本文提出了一种轻量级的虹膜分割模型。该模型以Linknet为基本框架,结合了多尺度特征提取模块和通道注意力机制。采用MobileNetv3中的深度可分离卷积代替传统卷积提取虹膜图像特征。这种设计可以在减少参数量和计算量的同时保证分割精度。本文设计的多尺度特征提取模块不仅可以提取更多关于虹膜的特征信息,而且可以增强特征信息的传播能力。将注意力机制引入Linknet,加强虹膜区域的权重,降低无关噪声对模型的干扰,提升模型的灵敏度和分割精度。

1 网络模型的设计

1.1 整体结构设计

本文所提出的虹膜分割模型基于Linknet进行改进,由编码器部分和解码器部分构成(见图1)。编码器部分的作用是提取虹膜图像的形状、位置、纹理等特征信息。解码器的作用是将编码器提取的虹膜特征信息转换为虹膜语义信息。

虹膜图像输入网络的编码器部分首先通过7×7卷积层,其卷积核的数量为16,步长为2。输出的特征图通过多尺度特征提取模块捕获不同尺度的空间信息丰富特征空间。在7×7卷积层和多尺度特征提取模块后添加通道注意力机制。注意力机制有效地提高了网络模型的学习能力。然后连接6个特征提取模块1对特征图进一步提取。特征提取模块1的结构如图2(a)所示。特征提取模块1由一个1×1卷积层,深度可分离卷积层和3×3卷积层组成。这种设计可以保证网络特征提取能力的同时,大幅度减少网络的参数量和计算量。该网络一共执行了5次下采样。解码器部分通过特征提取模块2,反卷积和3×3卷积层逐步将特征图上采样到原始尺寸。特征提取模块2的结构如图2(b)所示。该模块包含了两个3×3卷积层和一个反卷积层,其中第一个3×3卷积层用于减少通道数。这种设计可以在参数和计算负载开销很小的情况下保持分割的准确性。解码器部分的特征图与编码器部分相同分辨率的特征图通过相加操作进行特征融合。这种设计可以有效地避免梯度消失造成模型性能下降的问题。最后通过Sigmoid激活函数得到输出的虹膜分割图。

1.2 多尺度特征提取模块

随着下采样次数的增加,虹膜图像的空间特征信息会逐渐丢失。这会导致模型对虹膜图像的特征提取不够充分,从而影响最后的分割精度。在编码器部分采用小卷积核能够提取虹膜图像的边缘细节信息,但是忽略了图像的空间相关性;采用大卷积核能够捕获多个像素的空间关系,但是提取细节特征的能力较差。

为了解决上述问题,本文提出了一个多尺度特征提取模块提取虹膜图像的特征。模块的实现细节如图3所示。该模块使用3×3、5×5、7×7、9×9卷积核与前层输出的特征图进行卷积得到不同感受野的特征信息。这些特征信息与2×2最大池化层的输出结果进行特征融合。该模块改进了传统的卷积层,在此模块中,使用不同大小的卷积核对特征图进行提取后可得到更为精确和全面的特征信息。该模块的优点是在不明显增加参数量的情况下提高了网络模型的分割精度。

1.3 通道注意力机制

在非理想条件下拍摄的虹膜图像可能会包含无关噪声。在网络的下采样阶段,这些无效信息会保留在特征图的一些通道上,这会影响虹膜分割的准确率。为了解决上述问题,本文引入了通道注意力机制(Squeeze-and-attention,SA)12。SA模块可以在通道上分配信息的重要程度,增强重要特征,抑制无用特征,提高网络模型的表征能力。SA模块的结构如图4所示。

SA模块分为特征提取、压缩和权重分配3个部分。输入模块的特征图为 X,其维度为 R W × H × C W H C分别为特征图的宽、高和通道数。特征图 X经过两个3×3卷积层,其步长为1,0填充的数量为1。输出的特征图为 X 1,其维度仍为 R W × H × C。通过全局平均池化的方式压缩特征图 X通道上的特征信息,这有利于帮助网络模型捕获卷积所缺少的全局信息。输出的特征图为 Y,维度为 R W × H × 1。特征图 Y通过两次3×3卷积得到输出 Y 1。为了充分利用压缩部分聚合的全局信息,特征图 Y 1通过上采样的输出与特征图 X 1相乘重新分配特征图中各个通道的权重。通过权重分配部分输出的特征图与 Y 1上采样的特征图融合,其输出结果为 X 2

SA模块在训练过程中能够学习通道之间的相关性,抑制光斑和遮挡等无关噪声的干扰,加强虹膜区域的特征权重。SA模块仅采用3×3卷积层和1×1卷积层提取特征,引入少量参数即可提高模型的抗噪能力和分割精度。

2 实验结果及分析

2.1 数据集说明

本文的对比实验在3个公共的虹膜数据库上进行,它们是CASIA-V4.013,IITD14以及UBIRIS.V215。CASIA-V4.0和IITD是在近红外条件下拍摄的,UBIRIS.V2是在可见光条件下拍摄的。其中UBIRIS.V2数据库是在非合作的条件下拍摄的。该数据库中的大量虹膜图像包含各种无关噪声,因此它是最具有挑战性的公共虹膜数据库之一。本文将数据库按照7∶1∶2的比例分为训练集、验证集、测试集3部分。这些数据库在各种虹膜识别系统中都有应用,因此使用这些数据库评估所提出方法的性能是合理的。为了验证算法的通用性,本文算法在吉林大学第3代虹膜库JLU-3.0、第4代虹膜库JLU-4.0、第6代虹膜库JLU-6.0、第7代虹膜库JLU-7.0上测试。不同数据集图像及其采集设备如图5所示。

2.2 训练细节

本文实验环境基于Pytorch深度学习框架。硬件配置为:GPU为NVIDIA 1080Ti,11 GB显存;处理器为AMD 3900X;系统内存为64 GB。采用Adam优化器,初始学习率为0.001,第一次衰减率设为0.9,第2次衰减率设为0.999,批次大小为32。为了解决虹膜图像中正负类别不平衡问题,本文选择Dice Loss16损失函数训练网络。

2.3 评价指标

为了评估本文所提模型的性能,从模型性能和模型效率两方面对实验结果进行了比较与分析。本文选择平均交并比(Mean intersection over union,MIOU)、F 1得分(F 1)、召回率(Recall,R)、错误率(Error rate,ER)评估模型的分割精度。每一个虹膜像素分为虹膜区域和非虹膜区域,因此可以划分为4种情况:真阳性(True positive,TP)、假阳性(False positive,FP)、假阴性(False negative,FN)、和真阴性(True negative,TN)。MIOU、F 1R的值介于0~1之间,越接近于1,则表明分割精度越高。ER的值也介于0~1之间,越接近于0,则表示分割的准确率越高。计算公式如下:

M I O U = 1 n n i = 1 T P T P + F N + T P i
F 1 = 2 T P 2 T P + F P + F N
R = T P T P + F N
E R = 1 2 F N F N + T P + F P F P + T N

本文选择参数量(Params)、计算量(Floating point operations,FLOPs)和存储空间容量(Storage space)衡量模型的效率。评价指标值越小,表明模型在实际应用时的效率越高。

2.3 不同算法性能比较

2.3.1 与传统算法比较

表1展示了本文算法与其他传统虹膜分割算法在3个虹膜数据库上的分割结果。与其他传统算法相比,本文算法在3个虹膜数据库上实现了最高的分割精度。与3个数据库上传统算法的最高分割精度相比,本文算法的F1得分别提高了8.82%、3.27%和68.61%。实验结果表明,传统算法在挑战数据库UBIRIS.V2上的表现很差,而本文算法在不同数据库上具有更强的鲁棒性。

2.3.2 与基于深度学习算法比较

表2为基于深度学习的虹膜分割算法在3个数据库上的分割结果。表3为在输入图像分辨率为256×256像素时不同算法的参数量、计算量和存储空间容量。在近红外数据库上,本文方法获得了最高的MIOU值和F 1得分。然而,本文方法的错误率高于DFCN算法的错误率。在CASIA-V4上与DFCN相比,本文方法在参数量上减少了99.8%,而错误率仅高出了0.73%。在数据库UBIRIS.V2上,本文提出的模型取得了最高的分割精度。本文所提出的网络在分割精度上优于原始的Linknet网络,在参数量和计算量上分别减少了97.45%和49.64%。与Wang等11提出的轻量级模型相比,在几乎相同的MIOU精度下,本文网络可以节省95.97%参数量。相比于其他算法本文的模型具有较少的模型参数,更适合于内存有限的计算设备。

基于以上实验结果分析,基于深度学习的算法优于传统的分割算法。目前大部分深度学习算法的参数量仍然很大,这会导致网络模型需要更多的数据和较长的训练时间。实验结果表明,本文算法可以更好地平衡虹膜分割精度和效率。

2.3.3 分割结果

为了更好地观察算法的性能,本文可视化了本文算法与Linknet网络在3个不同数据库上的分割结果。图6图7为在近红外数据库上的分割结果;图8为在可见光数据库上的分割结果。Linknet的分割结果容易受到睫毛、眼睑、光斑等噪声的影响。因此对于噪声明显的虹膜图像,Linknet存在错分割的情况。

与之相比本文算法的分割结果更接近真实的标签图。虹膜的内外边缘更细、更平滑,分割结果的像素误判更少。这是因为本文引入的SA模块可以使网络模型在学习过程中专注于与虹膜相关通道的特征,从而减少无关噪声对模型的干扰。

2.3.4 消融实验

为了验证本文算法的各个模块在提高虹膜分割性能方面的有效性,本文设计了4种不同的网络进行消融研究。基准网络是基于MobileNetv3的Linknet网络,实验结果如表4所示。由表4可见,本文算法在3个数据库上的MIOU值分别为0.9739、0.9699和0.9540,比基准网络分别提高了0.52%、0.78%和0.86%;加入SA模块的网络在3个数据库上的MIOU值分别比基准网络提高了0.41%、0.44%和0.57%。图9为网络中间特征图的可视化结果,第2行为基准网络的热力图,第3行为基准网络加入SA模块后的热力图。

从CASIA-V4数据集和IITD数据集的可视化结果可以看出,加入SA模块后的网络更加关注虹膜纹理特征;从UBIRIS.V2数据集的可视化结果可以看出,加入SA模块可以有效降低网络对无关噪声的响应。

表4所示,在基准网络中加入多尺度特征提取模块后,网络的MIOU值分别提高了0.34%、0.58%和0.49%。图10为使用或去除多尺度特征提取模块后的分割结果。从图10可以看出:基准网络中存在虹膜区域被分割为背景区域的情况,且部分瞳孔区域存在欠分割现象。加入该模块后的网络降低了虹膜区域分割的错误率,且分割边界更加精细。

实验结果表明,SA模块利用高级特征图中的语义信息加重了虹膜区域的特征权重,降低了镜面反射、睫毛遮挡、光斑等无关噪声对模型的干扰;多尺度特征提取模块融合不同感受野的特征信息,有效提高了网络的特征提取能力和小目标区域的识别能力,因此本文网络比基准网络具有更高的分割精度。

2.3.5 实际应用性能

为了验证本文方法的通用性和实用性,在CASIA-V4数据库上进行训练,并在JLU-3.0、JLU-4.0、JLU-6.0和JLU-7.0数据库上进行测试。本文算法对4个数据库的分割结果如图11所示。

图11可见,本文算法能有效地识别出光斑、睫毛遮挡和眼睑遮挡等无关噪声。本文网络对未经训练过的多个虹膜数据库均可实现精准分割,这表明该网络对不同采集设备拍摄的虹膜图像分割具有通用性。因此本文算法支持用户选择不同厂家的不同型号的采集设备灵活组建自己的虹膜识别系统

虹膜分割是虹膜识别系统中一个重要的环节。因此将分割模型输出的虹膜图像应用到虹膜识别时,算法性能也是一个重要评价指标。本文从JLU-3.0、JLU-4.0、JLU-6.0、JLU-7.0虹膜库中选取共30个类别图像作为实验样本,并采用准确率作为评价指标。先用本文分割方法、U-Net方法和Linknet方法分割出的虹膜区域;然后使用ResNet29深度神经网络提取虹膜特征;最后使用全连接层判别虹膜图像的类别。实验结果如表5所示。

ResNet网络在本文算法分割的虹膜图像上获得了最高的识别精度。本文方法输出的虹膜图像中包含更多可靠的特征信息,因此在相同的特征提取网络和分类器下获得了更高的识别准确率。综上说明本文分割网络在实际应用中具有良好的性能。

3 结束语

针对目前虹膜分割算法无法兼顾分割准确率和效率的问题,提出了一种适用于低性能设备的轻量级虹膜分割网络。设计了多尺度特征提取模块,以便获取虹膜区域的大小、位置、形态等信息;引入通道注意力机制使模型关注虹膜区域的通道,以减少无关噪声对模型的干扰,提高模型的鲁棒性。实验结果表明,本文所提出的网络具有最先进的性能,在所需参数、计算负载和存储空间方面更具优势。从分割结果来看,本文算法能在含有噪声的虹膜图像中分割出更多的边缘细节,分割的图像更接近于真实标签。

参考文献

[1]

Arsalan M, Naqvi R A, Kim D S, et al. IrisDenseNet: robust iris segmentation using densely connected fully convolutional networks in the images by visible light and near-infrared light camera sensors[J]. Sensors, 2018, 18(5): No.1501.

[2]

Huo Guang, Lin Da-wei, Yuan Meng, et al. Heterogeneous iris segmentation method based on modified U-Net[J]. Journal of Electronic Imaging, 2021, 30(6): No.063015.

[3]

Umer S, Dhara B C. A fast iris localization using inversion transform and restricted circular hough transform[C]//Proceedings of the 2015 8th International Conference on Advances in Pattern Recognition, Kolkata, India, 2015: 1-6.

[4]

Bendale A, Nigam A, Prakash S, et al. Iris segmentation using improved hough transform[C]//Proceedings of the 8th International Conference on Intelligent Computing, Huangshan, China, 2012: 408-415.

[5]

Roy D A, Soni U S. IRIS segmentation using Daughman's method[C]//Proceedings of the 2016 International Conference on Electrical, Electronics, and Optimization Techniques, Chennai, India, 2016: 2668-2676.

[6]

周锐烨, 沈文忠. PI-Unet: 异质虹膜精确分割神经网络模型的研究[J]. 计算机工程与应用, 2021, 57(15): 223-229.

[7]

Zhou Rui-ye, Shen Wen-zhong. PI-Unet: research on precise iris segmentation neural network model for heterogeneous iris[J]. Computer Engineering and Applications, 2021, 57(15): 223-229.

[8]

Shelhamer E, Long J, Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.

[9]

Ronneberger O, Fischer P, Brox T. U-net: convolutional networks for biomedical image segmentation[C]//Proceedings of the International Conference on Medical Image Computing and Computer-Assisted Intervention, Munich, Germany, 2015: 234-241.

[10]

Chaurasia A, Culurciello E. LinkNet: exploiting encoder representations for efficient semantic segmentation[C]//Proceedings of the 2017 IEEE Visual Communications and Image Processing, Petersburg, USA, 2017: 1-4

[11]

Chen Ying, Wang Wen-yuan, Zeng Zhuang, et al. An adaptive CNNs technology for robust iris segmentation[J]. IEEE Access, 2019, 7: 64517-64532.

[12]

Wang Cai-yong, Wang Yun-long, Xu Bo-qiang, et al. A lightweight multi-label segmentation network for mobile iris biometrics[C]//Proceedings of the 2020 IEEE International Conference on Acoustics, Speech and Signal Processing, Barcelona, Spain, 2020: 1006-1010.

[13]

Zhong Z L, Lin Z, Bidart R, et al. Squeeze-and-attention networks for semantic segmentation[C]//Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 13062-13071.

[14]

Biometrics ideal test. CASIA.v4 Database[DB/OL]. [2022-01-06].

[15]

Kumar A, Passi A. Comparison and combination of iris matchers for reliable personal authentication[J]. Pattern Recognition, 2010, 43(3): 1016-1026.

[16]

Proena H, Filipe S, Santos R, et al. The UBIRIS.v2: a database of visible wavelength iris images captured on-the-move and at-a-distance[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(8): 1529-1535.

[17]

Milletari F, Navab N, Ahmadi S A. V-Net: fully convolutional neural networks for volumetric medical image segmentation[C]//Proceedings of the 2016 4th International Conference on 3D Vision, Stanford, USA, 2016: 565-571.

[18]

Rathgeb C. Iris Biometrics from Segmentation to Template Security[M]. Iris Biometrics: From Segmentation to Template Security, 2012.

[19]

Wild P, Hofbauer H, Ferryman J, et al. Segmentation-level fusion for iris recognition[C]//Proceedings of the 2015 International Conference of the Biometrics Special Interest Group, Darmstadt, Germany, 2015: 1-6.

[20]

Uhl A, Wild P. Weighted adaptive hough and ellipsopolar transforms for real-time iris segmentation[C]//Proceedings of the 2012 5th IAPR International Conference on Biometrics, New Delhi, India, 2012: 283-290.

[21]

A biometric reference system for iris, ersion osiris V 4.1[EB/OL]. [2022-01-06].

[22]

Uhl A, Wild P. Multi-stage visible wavelength and near infrared iris segmentation framework[C]//Proceedings of the International Conference Image Analysis and Recognition, Aveiro, Portugal, 2012: 1-10.

[23]

Ahmad S, Fuller B. Unconstrained iris segmentation using convolutional neural networks[C]//Proceedings of the Asian Conference on Computer Vision, Perth, Australia, 2018: 450-466.

[24]

Alonsofern J O. Iris boundaries segmentation using the generalized structure tensor—a study on the effects of image degradation[C]//Proceedings of the 2012 5th IEEE International Conference on Biometrics: Theory, Applications and Systems, Arlington, USA, 2012: 426-431.

[25]

Ehsaneddin J, Andreas U. Iris segmentation using fully convolutional encoder-decoder Networks[C]//Proceedings of the Computer Vision and Pattern Recognition, New York, USA, 2017: 133-155.

[26]

尤轩昂, 赵鹏, 慕晓冬, 融合注意力机制与密集多尺度特征的异质噪声虹膜分割方法[J]. 激光与光电子学进展,2022, 59(4): 109-120

[27]

You Xuan-ang, Zhao Peng, Mu Xiao-dong, et al. Heterogeneous noise iris segmentation based on attention mechanism and dense multi-scale features[J]. Laser & Optoelectronics Progress, 2022, 59(4): 109-120.

[28]

Lozej J, Meden B, Struc V, et al. End-to-end iris segmentation using U-Net[C]//Proceedings of the 2018 IEEE International Work Conference on Bioinspired Intelligence,San Carlos, Costa Rica, 2018: 1-6.

[29]

Zhang Wei, Lu Xiao-qi, Gu Yu, et al. A robust iris segmentation scheme based on improved U-Net[J]. IEEE Access, 2019, 7: 85082-85089.

[30]

Wang Qi, Meng Xiang-yue, Sun Ting, et al. A light iris segmentation network[J]. The Visual Computer, 2021, 38: 2591-2601.

[31]

He Kai-ming, Zhang Xiang-yu, Ren Shao-qiang, et al. Deep residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 770-778.

基金资助

吉林省教育厅科学技术研究项目(JJKH20220118KJ)

AI Summary AI Mindmap
PDF (1803KB)

247

访问

0

被引

详细

导航
相关文章

AI思维导图

/