基于改进YOLOv8s的复杂纹理木材缺陷检测技术

白先浪 ,  张群利 ,  辛志强

森林工程 ›› 2026, Vol. 42 ›› Issue (02) : 402 -415.

PDF (5694KB)
森林工程 ›› 2026, Vol. 42 ›› Issue (02) : 402 -415. DOI: 10.7525/j.issn.1006-8023.2026.02.015
农林智能装备与技术

基于改进YOLOv8s的复杂纹理木材缺陷检测技术

作者信息 +

Detection Technology for Complex Texture Wood Defects Based on Improved YOLOv8s

Author information +
文章历史 +
PDF (5829K)

摘要

为解决现有木材缺陷检测方法在复杂纹理场景下精度较低的问题,提出一种基于改进YOLOv8s的木材缺陷检测方法。首先,在模型的主干网络中引入高效多尺度注意力机制(efficient multi-scale attention,EMA),加强模型对复杂纹理缺陷的上下文感知能力。其次,将颈部网络设计为重参数化泛化特征金字塔网络,增强模型跨尺度特征融合效率。然后,将损失函数替换成SIoU,提高检测框回归精度。最后,将倒置残差模块iRMB与C2f模块进行融合,增强模型对微小缺陷捕捉能力。试验结果显示,所提改进方法相较于基准模型,在精准率、召回率、检测精度、检测精度均值方面分别提高5.09%、3.13%、3.72%、2.63%,检测速度也达到了120帧/s。研究表明,所提改进方法显著增强了模型的鲁棒性和泛化能力,使得模型性能更加卓越、稳健。

Abstract

To address the low detection accuracy of existing methods under complex wood texture conditions, this paper proposes an improved YOLOv8s-based approach for wood defect detection. First, an efficient multi-scale attention (EMA) mechanism is embedded into the backbone network to enhance the model’s contextual perception capability in complex texture scenarios. Second, the neck network is redesigned as a re-parameterized generalized feature pyramid network (RepGFPN) to strengthen cross-scale feature fusion. Third, the loss function is replaced with SCYLLA-IoU (SIoU) to improve bounding box regression precision. Finally, the inverted residual mobile block (iRMB) is integrated into the C2f module, improving the model’s ability to capture fine-grained defects. Experimental results demonstrate that the proposed method outperforms the baseline by 5.09% in precision, 3.13% in recall, 3.72% in mAP@0.5, and 2.63% in mAP@0.5:0.95, while achieving a real-time inference speed of 120 frames per second. These findings indicate that the proposed enhancements significantly improve the model’s robustness and generalization capability, leading to superior and more stable performance in complex wood defect detection tasks.

Graphical abstract

关键词

木材缺陷 / 复杂纹理 / 深度学习 / 目标检测 / YOLOv8 / 注意力机制 / 倒置残差 / 泛化特征

Key words

Wood defect / complex texture / deep learning / object detection / YOLOv8s / attention mechanism / inverted residual / generalized feature

引用本文

引用格式 ▾
白先浪,张群利,辛志强. 基于改进YOLOv8s的复杂纹理木材缺陷检测技术[J]. 森林工程, 2026, 42(02): 402-415 DOI:10.7525/j.issn.1006-8023.2026.02.015

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

木材作为重要的天然材料,被广泛应用于建筑、家具和装饰等领域。然而,木材在其生长、加工和储存过程中容易产生死节、活节、树髓和裂纹等缺陷,这些缺陷不仅降低了木材的美观性和使用性能,还降低其经济价值和使用寿命。因此,研究木材缺陷检测技术对推动木材行业发展和木材加工产业的智能化转型具有重大意义。

传统的木材缺陷检测主要依赖于人工检测、数字图像处理技术等,这些方法在面对图像质量较差、纹理背景复杂的情况时,往往检测效果很差。丁安宁等1介绍了基于数字图像技术的木材缺陷检测现状,总结了各方法的特点和局限性,并对发展趋势作了展望。

近年来,随着深度学习技术的快速发展,基于卷积神经网络的目标检测方法具备良好的特征表达能力和模式识别能力,在工业缺陷检测等领域展现出显著优势,为缺陷检测相关问题提供了新的解决思路。孙丽萍等2提出了一种基于改进YOLOv5的林业有害生物检测方法,但检测精度提升不到1个百分点。肖维颖等3针对松树株数识别问题,提出了一种基于YOLOv5的轻量化算法,虽然模型检测速度提高了,但准确率却下降了3.26个百分点。刘康康等4结合不同机器学习方法研究高光谱影像树种分类问题,但最终的检测精度仍然较低,该方法无法适用于高精度场景任务。Xie等5针对木材中3类典型缺陷如节疤、腐烂和凹陷,开展了基于计算机断层扫描(Computerized tomography,CT)图像的缺陷检测与分割研究。其工作评估了5种主流卷积神经网络模型的性能,结果表明YOLOv8-seg模型在整体性能方面表现最为均衡,但在分割精度方面仍不及U-Net,尚存在进一步提升空间。Liu等6为解决传统木材缺陷检测方法存在的识别能力不足与检测效率低等问题,提出了一种新型目标检测模型(YOLO-Based defect detection model for wood lumber,SGM-YOLO)。该模型引入了新型主干网络SL-Backbone(SE,LSKA-SPPF),并设计了GVE(Group Shuffle Convolution(GSConv) convolution and VoV-GSCSP Modules,EMA)颈部结构模块。试验结果表明,SGM-YOLO的平均识别准确率达77.4%,较原始YOLOv8提升了3.8个百分点,但在高精度要求场景中的适应性仍有限。为应对木材缺陷类型多样且分布复杂的挑战,Xi等7提出了SiM-YOLO(A WoodSurface Defect Detection Method Based on the Improved YOLOv8)检测模型,该模型引入了一种细粒度卷积结构SPD-Conv(SPD-Conv comprises a space-to-septh(SPD) layer followed by a non-stride convolution(Conv) layer),并构建了基于SiAFF-PANet的多尺度特征融合模块,同时设计了多注意力机制检测头,试验表明,SiM-YOLO相较YOLOv8在检测精度上提高了4.3%,但在复杂背景下仍存在一定的误检与漏检问题。An等8则致力于研发适用于自动化生产线的木材缺陷检测方案,将CondConv、Wise-IoU与BiFormer模块集成到YOLOv8中,所提出的模型在mAP@0.5和mAP@0.5:0.95指标上分别提升了3.5%和5.8%,但在面对复杂纹理背景时检测鲁棒性仍显不足。Meng等9针对木材缺陷普遍具有体积小、形状复杂等特性提出了SGN-YOLO(Semi-global network-YOLO)检测模型,该方法在主干网络中引入轻量化半全局建模(Semi-global network,SGN)模块以增强上下文感知能力,并融合了扩展高效层聚合结构(Extended efficient layer aggregation networks,E-ELAN)。此外,采用了EIoU(Efficient intersection over union)损失函数,以缓解模型收敛速度慢、边界回归不准确等问题。试验结果显示,该模型的mAP达到86.4%,相比基准模型提升了3.1%,但在小目标缺陷检测方面仍存在漏检风险。

综上所述,针对当前的缺陷检测方法并不能很好地对物体表面缺陷区域进行精准地定位与识别,本研究提出一种基于深度学习技术的复杂纹理木材缺陷检测方法,选取目前兼具精度与速度的YOLOv8s作为基准模型进行改进。具体方法是在基准模型引入高效多尺度注意力机制(Efficient multi-scale attention,EMA)、将颈部网络设计成重参数化泛化特征金字塔网络(Re-parameterizable generalized feature pyramid network,RepGFPN)、利用SIoU损失函数替换原始CIoU损失函数、在核心模块C2f中融合倒置残差结构iRMB模块。在经过上述一系列改进后,模型的鲁棒性和检测性能得到了显著提升。

1 基准模型

目标检测技术发展至今,已经形成2大主流方向,一个是以YOLO和单阶段多框检测器(Single shot multibox detector,SSD)10为代表的单阶段目标检测技术,另一个是以区域卷积神经网络(Rich feature hierarchies for accurate object detection and semantic segmentation,R-CNN)、Fast R-CNN、Faster R-CNN、Mask R-CNN这4种模型11-14为代表的两阶段目标检测技术。目前,YOLO模型已经更新许多版本,其中YOLOv8模型性能最为稳定,在工业检测领域也是应用最广泛的。在综合考虑检测效率与稳定性后,本研究选取YOLOv8s作为基准模型,其架构如图1所示。YOLOv8架构基本组成部分主要有负责特征提取的主干网络、负责多尺度特征融合的颈部网络、负责定位与识别的头部网络。主干网络中的核心模块C2f采用部分残差连接,实现信息跨层流动与融合。颈部网络采用自底向上和自顶向下的特征融合方式,增强了模型不同感受野的信息互通。头部网络采用无锚框预测机制,简化了模型结构,使得模型训练更快、预测更稳定。

2 改进方法

2.1 特征提取网络改进

高效多尺度注意力(EMA)15是一种能感知多尺度上下文信息的注意力机制,常用于增强模型特征提取能力,如图2所示(g是分组数,c//g是分组后的通道数,*是相乘,batch size是批次大小)。EMA首先将输入特征进行分支处理,每个分支则采用不同尺度的卷积提取特征;其次通过全局平均池化获得通道描述符;然后再输入到一个共享的多层感知机(Multilayer perceptron,MLP)网络得到通道注意力权重向量;接着再进行空间注意力建模;最后通过残差连接方式,在保留原始特征的同时注入了新的更强的语义引导。本研究通过在主干网络感受野较大和语义信息较丰富的第4个C2f模块和快速空间金字塔池化(Spatial pyramid pooling-fast,SPPF)模块之间嵌入EMA注意力机制,由于这个嵌入位置处于深层高语义特征和全局特征融合的关键过渡区域,因此这样嵌入可以有效增强模型高语义特征的多尺度建模能力,缓解深层语义特征的空间信息丢失,提升模型对复杂纹理背景中的微小缺陷的感知能力,使得模型能够更好地对特征进行加权表示,实现了模型对图像上下文信息的高效建模。

2.2 特征融合网络改进

重参数化泛化特征金字塔网络(RepGFPN)16是一种高性能特征融合网络结构,其融合了多路径信息流通、结构重参数化等机制,如图3所示,c代表拼接(Concatenation);F代表Fusion Block(融合模块)。RepGFPN通过构建多路径特征融合网络并引入重参数化卷积模块,在提升网络层语义一致性与多尺度信息感知融合能力的同时,还保持了推理阶段时网络结构轻量性。RepGFPN在复杂背景下的小目标检测与细粒度缺陷识别任务中表现出更高的精度与稳定性,特别适用于如木材缺陷检测等对上下文建模与细节感知要求较高的视觉任务。

2.3 损失函数改进

SIoU17是用于边界框回归的损失函数,通过考虑角度损失、距离损失、形状损失、IoU损失,显著提升了预测框的拟合效果与缺陷定位精度,计算公式为

LossSIoU=1-IoU+Δ+Ω2
IoU=bbgtbbgt,Δ=t=x,y1-e-γρt
ρx=bcxgt-bcxcw,ρy=bcygt-bcych ,γ=2-Λ
Λ=1-2sin2arcsinx-π4,x=chσ=sinα
σ=bcxgt-bcx2+bcygt-bcy2ch=maxbcygt,bcy-minbcygt,bcy
Ω=t=w,h1-e-ωtθωw=w-wgtmaxw,wgtωh=h-hgtmaxh,hgt

式中:LossSIoU是SIoU损失函数;bgtb分别表示真实框和预测框;IoU是真实框和预测框的交并比;ΔΩ分别是距离损失和形状损失;ρxρy分别是归一化后的预测框中心x、y坐标与真实框中心x、y坐标之间的相对差;bcxgtbcx分别是真实框和预测框的横坐标;bcygtbcy分别是真实框和预测框的纵坐标;cwch分别是真实框和预测框最小外接矩形的宽和高;Λ是角度损失;α是真实框和预测框中心之间的夹角;x是真实框和预测框中心夹角的正弦值;σ是真实框和预测框中心点的距离;wwgt分别是预测框和真实框的宽度;hhgt分别是预测框和真实框的高度;ωwωh是2个边界框在宽度和高度方面的相对差异。

2.4 核心模块C2f改进

图4(a)—图4(c)分别是多头自注意力机制、前馈网络、反向残差块结构图,图4(d)是元移动模块,是在图4(a)—图4(c)基础上高度凝练抽象而来的,其中Efficient Operator是高效算子,可以是自注意力机制、深度可分离卷积和常规卷积等,参数λ是用来控制分支重要性的。而倒置残差模块iRMB18设计思想正是来源于元移动模块,巧妙结合倒置残差与动态感受野机制。由于iRMB通过动态多尺度卷积和轻量化注意力机制的协同设计,能够在减少计算量的同时显著增强模型对微小缺陷的捕捉能力。因此,本研究通过将倒置残差结构iRMB与核心模块C2f进行融合改进,显著增强了模型的鲁棒性和泛化能力,改进后的C2f模块(C2f_iRMB)如图5所示。可以看出,原C2f结构首先通过CBS(Conv+BN+SiLU)模块,然后进行通道切分(Split),将特征分为若干子流分别输入n个并行的BottleNeck模块,最后再通过Concat与CBS组合输出增强特征。本研究改进的C2f_iRMB结构在此基础上将每个BottleNeck子模块替换为具备局部注意力机制和轻量残差路径的iRMB模块。iRMB模块内部由1×1 Conv、3×3 DW-Conv(Depthwise convolution)与注意力机制分支组成,融合了局部卷积特征与注意力机制,引入了显式的位置感知机制以增强纹理区域的上下文建模能力。

3 结果与分析

3.1 数据集构建

本研究的木材缺陷数据集,部分来自本地木材加工厂和校园试验室,为了增强样本的多样性,在网络上也搜集了一部分,通过筛选共获得3 820张初始图片,包含的缺陷类型有死节、活节、树髓、裂缝。在原始数据集中,死节有1 010张图片、活节有980张图片、树髓有905张图片、裂缝有925张图片。然后通过专业的标注工具LabelImg对缺陷目标进行标注。为进一步提高模型对多类缺陷的鲁棒性,同时缓解模型对样本量较少的缺陷可能产生的过拟合风险,采用了多种数据增强技术(包括旋转、缩放、色彩增强和添加噪声等)对原始样本进行增强。在增强过程中,确保缺陷类别间样本数量保持近似均衡。最终增强后的图像总数达到9 580张,其中,死节、树髓、裂缝各有2 400张,活节有2 380张,各类缺陷图像数量分布均衡。最后按照8∶1∶1的比例划分数据集,即训练集7 664张图片,验证集和测试集各958张图片,在划分过程中也保持了各缺陷类别分布均衡,避免了后续模型训练与评估时,因类别不平衡可能造成的欠拟合和过拟合问题。

3.2 试验环境及参数设置

为了确保对比试验结论可靠,本研究所有的试验均在相同的条件下进行的,试验硬件配置为:CPU是Inter,i5-12600KF,10核16线程;GPU是NVIDIA GeForce RTX4060Ti,显存为16 GB;内存条型号为DDR4,总容量为32 GB;固态硬盘接口是M.2,容量为1 TB;主板是MSI PRO B760M-A。深度学习环境为:操作系统是Windows10;解释器语言是Python 3.12.7;深度学习框架是PyTorch 2.5+cu121;并行计算平台是CUDA 12.6;深度学习加速库是cuDNN 8.9.7;集成开发环境是PyCharm。表1是模型超参数详细设置。

3.3 评价指标

本研究选取精准率(precision,式中记为P)、召回率(recall,式中记为R)、检测精度(AP,式中记为AP)、检测精度均值(mAP,式中记为mAP)作为模型的性能评价指标,具体计算公式为

P=TPTP+FP
R=TPTP+FN
AP=01P(R)d(R)
mAP=1Ni=1NAPi

式中:TP表示真正例,即实际和预测都为正类的样本数量;FP表示假正例,即实际为负类但被预测为正类的样本数量;FN表示假负例,即实际为正类但被预测为负类的样本数量;N为类别总数;P为精准率;R为召回率;APi为第i类别的检测精度。

3.4 注意力机制对比试验

为了更好地对多尺度语义信息进行加权表示,选取感受野较大、语义信息较为丰富的主干网络特征输出层作为嵌入注意力机制的位置,具体的是在主干网络第4个C2f和SPPF层之间嵌入注意力机制。为了验证所选EMA注意力机制的有效性以及嵌入位置的合理性,将其与压缩与激励注意力机制(Squeeze-and-Excitation Attention,SE)、高效通道注意力机制(Efficient Channel Attention,ECA)、卷积块注意力模块(Convolutional Block Attention Module,CBAM)、坐标注意力机制(Coordinate Attention,CA)19-22进行对比试验分析,结果见表2。由表2可知,相较于其他注意力机制,EMA注意力机制对模型检测性能提升效果最显著,召回率和检测精度分别达到了84.52%和85.91%,相较于基准模型,召回率提高了1.58个百分点,检测精度提高了1.62个百分点,可见EMA注意力机制能够有效加强网络全局和关键区域的注意力,有效提升模型对复杂纹理缺陷及小目标的上下文感知能力,强化了小目标的高频细节信息,显著提升模型的检测性能。

为了解释模型决策依据及作用机制,验证注意力机制在改善模型性能方面的有效性,下面利用Grad-CAM(gradient-weighted class activation mapping)技术23对木材缺陷检测结果进行可视化,如图6所示。由图6可以看出,基准模型的注意区域较为分散,且部分高响应区域未能覆盖图像关键缺陷位置,说明基准模型对缺陷区域关注度不足。在引入EMA注意力机制后,模型的热力响应更加集中,在检测活节缺陷时,模型能够有效提取活节关键语义信息,提升了局部结构的表征能力;在检测死节缺陷时,EMA注意力机制能够增强死节核心区域的热力响应,表明其擅长捕捉高对比度缺陷信息;在检测裂缝缺陷时,EMA注意力机制能够保留裂缝的纵向结构信息,有助于长条状缺陷的捕捉;在检测树髓缺陷时,EMA注意力机制能够有效感知木材放射结构中心区域,增强了对异质区域的检测识别能力。试验表明,EMA注意力机制拥有全局感受野建模优势,更加适用于需要全局建模的复杂纹理检测任务。

3.5 特征融合方法对比试验

由于木材缺陷在复杂纹理背景下,具有边界模糊、结构变异性强等特点,为了增强模型跨尺度特征融合与语义引导,提升模型对复杂边缘、纹理和微小目标的检测能力,本研究对基准模型颈部网络进行重构,将原颈部网络FPN+PAN24-25设计成RepGFPN网络结构,并与BiFPN26、HSFPN27进行对比,试验结果见表3。由表3可知,相较于其他特征融合网络,采用RepGFPN颈部网络的模型在各个评价指标上性能均是最优,其中,召回率和检测精度分别达到了84.49%和85.88%,相较于基准模型分别提高了1.55个百分点和1.59个百分点。由于RepGFPN网络采用重参数化卷积,使得模型在检测缺陷时具备更强的判别能力;不仅如此,RepGFPN采用横向、纵向、跨层的信息交互方式,提升了模型在不同语义层之间的特征传递效率,从而提高了模型对细粒度缺陷特征的建模能力。试验表明,利用RepGFPN网络对基准模型颈部网络进行重构,能够显著增强模型多尺度特征感知能力和非线性建模能力,尤其在小目标、复杂纹理缺陷检测任务中取得的效果最为显著。

3.6 损失函数对比试验

为了探究采用SIoU损失函数对模型检测性能产生的影响,将基准模型原CIoU损失函数分别替换成DIoU28、EIoU29、SIoU进行对比试验分析,结果见表4。由表4可知,相较于其他损失函数,采用SIoU损失函数对模型检测性能提升最为显著,其中召回率和检测精度分别达到了83.63%和85.04%,相较于基准模型分别提高了0.69个百分点和0.75个百分点。裂缝和树髓缺陷是长条形状结构且具有方向性信息,而DIoU损失函数因忽略形状和方向信息,无法感知预测框在方向信息方面的错误,因此在木材缺陷检测任务中反而导致基准模型检测性能下降。试验表明,SIoU损失函数通过引入角度损失、距离损失和形状约束,具备更精细、更强的几何感知能力,对长条形状或非对称缺陷目标有更高的拟合能力,能够减少边界框抖动和漂移问题,对预测框形状能够更精确地建模,有效提升了模型在复杂纹理背景下对裂纹等细粒度缺陷目标的回归精度。

3.7 特征提取模块对比试验

传统的C2f模块虽然具备跨层信息传递能力,但由于其对长距离纹理变化、细粒度缺陷结构特征的建模能力不足,在面对具有方向性木材缺陷如裂纹时,特征提取不足,难以胜任复杂背景纹理扰动任务。因此,本研究通过将倒置残差结构iRMB与C2f模块进行融合(C2f_iRMB),增强了网络对复杂纹理特征的表征能力。为了验证改进方法的有效性,将其与SCConv模块30、Ghost模块进行对比试验分析,结果见表5。由表5可知,在C2f模块中融合Ghost模块会导致模型在检测木材缺陷时性能下降,可能是Ghost模块采用深度可分离卷积和线性变换操作,对复杂纹理的建模能力较弱且Ghost模块在压缩参数量时,多尺度特征融合能力会减弱,极易造成信息丢失。由表5还可以看出,通过将倒置残差结构iRMB与C2f模块进行融合改进,召回率和检测精度分别达到了84.69%和86.12%,相较于基准模型分别提高了1.75个百分点和1.83个百分点。试验结果表明,倒置残差模块iRMB的多分支结构和倒置瓶颈设计能够提取不同感受野和方向信息,有效提升模型应对复杂纹理缺陷和多尺度形态缺陷时的鲁棒性,增强了模型对纹理多样性的建模能力,显著提升了模型的检测精度。

3.8 消融试验

为了验证各个改进策略的有效性以及本研究所提方法的优越性,在基准模型基础上,对本研究所提到的各个改进方法进行消融试验,试验结果见表6表6中“√”表示引用该模块。由表6可知,本研究所提到的各项单一的改进方法对模型检测性能的提升均有正向促进作用,表明各子模块在木材纹理缺陷检测任务中的有效性与合理性。例如,在主干网络中引入EMA模块后,mAP@0.5由84.29%提升至85.91%,表明其在复杂背景下提升了模型上下文感知能力,增强了模型对低对比度缺陷的响应能力;将颈部网络结构设计成RepGFPN,其通过引入更优的跨尺度信息融合路径,使得mAP@0.5提高至85.88%,有效提升了小目标和细粒度纹理的检测准确率;将模型中的核心模块C2f与倒置残差模块iRMB进行融合(C2f_iRMB),使得mAP@0.5提升至86.12%,有效增强了模型浅层空间细节与深层语义信息的交互能力;采用SIoU损失函数替换CIoU损失函数后,使得mAP@0.5提升至85.04%,表明引入了角度与归一化距离建模机制,有效优化了模型预测框拟合和定位的准确性。值得注意的是,多模块协同组合后,模型在精准率、召回率与mAP等指标上持续提高,特别是在主干网络中引入EMA注意力机制、将倒置残差结构iRMB与C2f模块进行融合、利用RepGFPN对颈部网络进行重构、将CIoU损失函数替换成SIoU损失函数的多种方法集成对模型性能的改善最为显著,集成改进模型的召回率和检测精度分别达到了86.07%和88.01%,相较于基准模型分别提高了3.13个百分点和3.72个百分点。这一提升主要得益于多模块间的特征增强互补性与结构优化协同性,共同构建了一个在模型复杂度适中前提下,兼具泛化能力与检测精度的高效目标检测框架。综上所述,消融试验不仅验证了各模块的独立有效性,更揭示了其组合应用在保持模型轻量化的同时对mAP提升的内在机制,进一步验证了所提改进方法在复杂纹理目标检测中的有效性与实用性。

为了检验所提改进方法的检测效果以及验证改进策略的有效性,将改进模型与基准模型在测试集上进行检测并将检测结果可视化,如图7所示。由图7可以看出,本研究所提出的改进模型在复杂木材缺陷检测场景下的检测性能优于基准模型,具体体现在目标检测置信度提升、检测框拟合度增强、微小缺陷查全率高以及对复杂木材纹理的高鲁棒性。相比于基准模型,本研究所提改进方法对活节、死节、树髓、裂缝纹理变化明显的缺陷有更强的适应性,模型检测更加完整且误检更少;在小目标检测场景中能够显著提升小尺寸缺陷的检测召回率,提升了小目标的感受野覆盖与表征能力;在面对复杂纹理背景时,改进模型依然能够实现准确检测且检测框重叠情况减少,基本没有漏检,说明改进模型具备更强的纹理干扰抑制能力。检测结果表明,改进模型在多尺度感知与语义建模方面的有效性,显示出改进模型具备更强的特征表达能力,在工业木材缺陷检测任务中具有较高的实际应用价值。

3.9 泛化性与稳定性验证试验

在复杂纹理木材缺陷检测任务中,由于木材缺陷纹理复杂、样本种类分布较为不均、区域特征多样,为了全面客观评估本研究所提改进模型的稳定性与泛化能力,采用五折交叉验证(5-fold cross-validation)方法来检验模型稳定性与泛化能力。具体地,将数据集均匀划分为5个相互独立互不重叠的子集,每次选择其中一个子集作为验证集,其余4个子集用于训练,最终取5次试验结果的平均值和标准差作为模型性能的评估结果。该方法可以保证数据集所有样本都参与训练与验证,有效减小数据划分不同而导致的性能波动,更准确地反映模型在多类型、复杂纹理木材缺陷检测任务中的稳定性、鲁棒性和泛化性,提高了结果的可信度,五折交叉验证试验结果见表7。由表7可知,改进模型所有评价指标的平均值远高于基准模型,高于(2.58~4.74)个百分点,说明改进模型的性能得到显著提升;改进模型所有指标的标准差在0.21~0.34,远低于基准模型,说明改进后的模型在五折交叉验证试验中性能波动极小,对不同数据集的泛化能力更一致。试验表明,本研究所提出的改进方法是有效的、改进后的模型性能更加卓越、稳健。

3.10 主流模型对比试验

在上文一系列试验结果分析与探讨的基础上,为了进一步验证本研究所提改进方法的有效性与合理性,检验改进模型的鲁棒性和泛化能力,使得泛化评估更可靠,将改进模型与当前主流的目标检测模型在不同的数据集上进行对比试验,结果见表8。相比其他检测模型,本研究所提模型在所有数据集上均取得了最高的Precision、Recall、mAP@0.5和mAP@0.5:0.95,充分证明了所提方法在复杂木材纹理缺陷检测任务中的有效性。进一步分析发现,改进模型检测精度提升的主要原因在于:1)引入EMA注意力机制增强了模型上下文建模能力,有效提高了模型在复杂纹理背景下缺陷的识别能力;2)设计了RepGFPN特征融合结构,提升了多尺度语义信息交互效率,增强了对小目标缺陷的感知能力;3)采用SIoU损失函数优化了边界框回归精度,提高了检测定位的准确性;4)融合iRMB与C2f模块增强了主干网络的多尺度细粒度特征提取能力,从整体上提升了模型的检测精度与稳定性。值得注意的是,本研究模型不仅在检测精度上超越了YOLOv10s和YOLOv11s等最新轻量模型,展现出良好的泛化能力,而且在3个数据集上的各项指标波动幅度极小,显示出良好的鲁棒性与稳定性,具备更强的跨场景适应能力。

为了直观分析改进模型与基准模型在检测精度和损失值变化方面的差异性,综合评估改进模型的性能,选取数据增强后且没有经过五折交叉验证的数据集进行训练,并在相同试验条件下分别对基准模型和改进模型独立训练3次以降低试验偶然性,最终将3次试验的平均结果作为评估依据,图8展示了模型在训练过程中各项关键性能指标的变化趋势。由图8可知,在训练初期,改进模型在Precision、Recall以及mAP等指标的提升速度显著快于基准模型,说明其具备更强的初始特征提取能力和更高的梯度可学习性;在训练中后期,改进模型在Precision、Recall以及mAP等指标上均高于基准模型,表明改进模型在多尺度目标检测与缺陷类别判别方面具有更强的稳定性和泛化能力;在整个训练过程中,改进模型始终保持更低的训练损失值与验证损失值,说明改进模型具备良好的收敛性,能够有效缓解过拟合现象。综合可视化分析结果表明,本研究提出的改进模型相较于基准模型具备更快的收敛速度、更低的损失值和更高的检测精度,进一步验证了各改进模块如EMA、RepGFPN、SIoU、C2f_iRMB在复杂纹理木材缺陷检测任务中的有效性与先进性。

为了进一步评估基准模型与改进模型在边缘设备上的部署效率,选用的边缘设备是Jetson Nano,搭载128 core NVIDIA Maxwell GPU,支持PyTorch至TensorRT深度学习推理加速引擎的转换。在Jetson Nano上测试了基准模型与改进模型的推理速度,测试指标为平均帧率,测试结果见表9。结果表明,本研究提出的改进模型在Jetson Nano上检测速度达到5.7帧/s,经过推理加速引擎TensorRT处理后,检测速度达到9.2帧/s,检测速率提高了1.61倍,且模型能够保持稳定运行速率。试验表明,改进后的模型在不牺牲检测速度的前提下,实现了检测精度的有效提高,同时兼顾了部署实用性,具备良好的应用前景。

4 结论

针对当前现有的检测方法存在木材缺陷检测精度较低的问题,本研究提出了一种面向复杂纹理木材缺陷的检测方法,基于YOLOv8s模型并对其进行改进。首先为了加强模型对复杂纹理缺陷及小目标的上下文感知能力,增强模型特征提取能力,在主干网络中引入EMA注意力机制;其次为了增强模型跨尺度特征融合与语义引导,细化多尺度特征表示,将颈部网络设计成RepGFPN网络结构;然后为了更好地拟合检测框,提高回归精度,将原损失函数替换成SioU;最后为了应对复杂纹理背景扰动,增强了模型对纹理多样性的建模能力和微小缺陷的捕捉能力,将倒置残差结构iRMB与核心模块C2f进行融合。通过在多个木材缺陷数据集上进行试验,从多维角度进行分析的结果显示,本研究所提方法在精准率、召回率、检测精度、检测精度均值方面,相较于基准模型分别提高了5.09%、3.13%、3.72%、2.63%,检测速度也达到了120张/s,满足了工业检测实时性要求。综上所述,本研究所提改进方法为木材缺陷检测技术研究拓宽了思路,具有重要的应用价值。

参考文献

[1]

丁安宁,贺春光,多化琼,.基于数字图像的木材缺陷识别研究进展[J].木材科学与技术202236(1):9-16,28.

[2]

DING A NHE C GDUO H Qet al.Research review of wood defect recognition based on digital images[J].Chinese Journal of Wood Science and Technology202236(1):9-16,28.

[3]

孙丽萍,谭少亨,周宏威,.基于YOLOv5的林业有害生物检测与识别[J].森林工程202238(5):104-109,120.

[4]

SUN L PTAN S HZHOU H Wet al.Forestry pests detection and identification based on YOLOv5[J].Forest Engineering202238(5):104-109,120.

[5]

肖维颖,王健,李文顺.松树株数识别的YOLOv5轻量化算法研究[J].森林工程202339(4):126-133.

[6]

XIAO W YWANG JLI W S.Research on YOLOv5 lightweight algorithm for pine tree strain identification[J].Forest Engineering202339(4):126-133.

[7]

刘康康,钟浩,林文树.基于不同机器学习算法的无人机高光谱影像树种分类研究[J].森林工程202440(4):98-108.

[8]

LIU K KZHONG HLIN W S.Tree species classification in UAV hyperspectral images based on different machine learning algorithms[J].Forest Engineering202440(4):98-108.

[9]

XIE G QWANG L HWILLIAMS R Aet al.Segmentation of wood CT images for internal defects detection based on CNN:a comparative study[J].Computers and Electronics in Agriculture2024224:109244.

[10]

LIU L PZHANG Q YPENG W Qet al.SGM-YOLO:YOLO-based defect detection model for wood lumber[J].International Journal of Pattern Recognition and Artificial Intelligence202438(15):2455012.

[11]

XI H LWANG R JLIANG F Let al.SiM-YOLO:A wood surface defect detection method based on the improved YOLOv8[J].Coatings202414(8):1001.

[12]

AN HLIANG Z HQIN M Met al.Wood defect detection based on the CWB-YOLOv8 algorithm[J].Journal of Wood Science202470(1):26.

[13]

MENG WYUAN Y L.SGN-YOLO:Detecting wood defects with improved YOLOv5 based on semi-global network[J].Sensors202323(21):8705.

[14]

LIU WANGUELOV DERHAN Det al.SSD:Single shot MultiBox detector[M]//Computer Vision-ECCV 2016.Cham:Springer International Publishing,2016:21-37.

[15]

GIRSHICK RDONAHUE JDARRELL Tet al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2014.Columbus,OH,USA.IEEE,2014:580-587.

[16]

GIRSHICK R.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV).December 7-13,2015.Santiago,Chile.IEEE,2015:1440-1448.

[17]

REN S QHE K MGIRSHICK Ret al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence201639(6):1137-1149.

[18]

HE K MGKIOXARI GDOLLÁR Pet al.Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017.Venice,Italy.IEEE,2017:2961-2969.

[19]

OUYANG D LHE SZHANG G Zet al.Efficient multi-scale attention module with cross-spatial learning[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).June 4-10,2023.Rhodes Island,Greece.IEEE,2023:1-5.

[20]

XU XJIANG YCHEN Wet al.DAMO-YOLO:A report on real-time object detection design[J].arXiv preprint arXiv:2022.

[21]

GEVORGYAN Z.SIoU loss:More powerful learning for bounding box regression[J].arXiv preprint arXiv:2022.

[22]

ZHANG J NLI X TLI Jet al.Rethinking mobile block for efficient attention-based models[C]//2023 IEEE/CVF International Conference on Computer Vision(ICCV).October 1-6,2023.Paris,France.IEEE,2023:1389-1400.

[23]

HU JSHEN LSUN G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018.Salt Lake City,UT,USA.IEEE,2018:7132-7141.

[24]

WANG Q LWU B GZHU P Fet al.ECA-net:Efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020.Seattle,WA,USA.IEEE,2020:11534-11542.

[25]

HOU Q BZHOU D QFENG J S.Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 20-25,2021.Nashville,TN,USA.IEEE,2021:13713-13722.

[26]

WOO S, PARK JLEE J Yet al.CBAM:Convolutional block attention module[M]//Computer Vision – ECCV 2018.Cham:Springer International Publishing,2018:3-19.

[27]

SELVARAJU R RCOGSWELL M,DAS A,et al.Grad-CAM:Visual explanations from deep networks via gradient-based localization[C]//2017 IEEE International Conference on Computer Vision.October 22-29,2017.Venice,Italy.IEEE,2017:618-626.

[28]

LIN T YDOLLÁR PGIRSHICK Ret al.Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017.Honolulu,HI,USA.IEEE,2017:2117-2125.

[29]

LIU SQI LQIN H Fet al.Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018.Salt Lake City,UT,USA.IEEE,2018:8759-8768.

[30]

TAN M XPANG R MLE Q V.EfficientDet:Scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020.Seattle,WA,USA.IEEE,2020:10781-10790.

[31]

CHEN Y FZHANG C YCHEN Bet al.Accurate leukocyte detection based on deformable-DETR and multi-level feature fusion for aiding diagnosis of blood diseases[J].Computers in Biology and Medicine2024170:107917.

[32]

ZHENG Z HWANG PLIU Wet al.Distance-IoU loss:Faster and better learning for bounding box regression[J].Proceedings of the AAAI Conference on Artificial Intelligence202034(7):12993-13000.

[33]

ZHANG Y FREN W QZHANG Zet al.Focal and efficient IOU loss for accurate bounding box regression [J].Neurocomputing2022506:146-157.

[34]

LI J FWEN YHE L H.SCConv:spatial and channel reconstruction convolution for feature redundancy[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 17-24,2023.Vancouver,BC,Canada.IEEE,2023:6153-6162.

基金资助

中央高校基本科研业务费专项资金项目(2572019BL01)

AI Summary AI Mindmap
PDF (5694KB)

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/