基于深度学习的废旧塑料瓶颜色高效识别方法研究

谢世龙 ,  吴虎 ,  毛文杰 ,  初宪龙 ,  杨先海

塑料科技 ›› 2024, Vol. 52 ›› Issue (11) : 140 -146.

PDF (2813KB)
塑料科技 ›› 2024, Vol. 52 ›› Issue (11) : 140 -146. DOI: 10.15925/j.cnki.issn1005-3360.2024.11.027
问题探讨

基于深度学习的废旧塑料瓶颜色高效识别方法研究

作者信息 +

Research on Efficient Color Recognition Method for Waste Plastic Bottles Based on Deep Learning

Author information +
文章历史 +
PDF (2879K)

摘要

针对废旧塑料瓶在回收过程中不同颜色存在价值差异的情况,为解决颜色识别分选问题,提出一种基于深度学习的YOLOv8n改进模型废旧塑料瓶颜色高效识别方法。在颈部(neck)网络中引入加权双向特征金字塔网络(BiFPN)进行多尺度特征融合,提升模型的泛化能力;头部(head)网络的解耦头(decoupled-head)结构中两个分支均仅采用1个Conv2d模块,并在分支前端添加重参数化卷积——RepConv模块,减少计算量并提升训练精度;选用WIOU v3损失函数替换CIOU损失函数,提升模型的检测精度。通过对比实验可知,文章提出的模型优于传统目标检测模型。结果表明:文章提出的模型参数量较原模型减少了44.8%,计算量较原模型减少了34.6%,在50%交并比下的均值平均精度(mAP50)较原模型提升了2.7%,对废旧塑料瓶颜色进行识别时,每秒检测帧数(FPS)可达66,较原模型提高了40.4%,实现了对废旧塑料瓶颜色实时且准确的检测。

关键词

YOLOv8n / 废旧塑料瓶 / 分类识别 / 目标检测

Key words

YOLOv8n / Waste plastic bottles / Classification recognition / Object detection

引用本文

引用格式 ▾
谢世龙,吴虎,毛文杰,初宪龙,杨先海. 基于深度学习的废旧塑料瓶颜色高效识别方法研究[J]. 塑料科技, 2024, 52(11): 140-146 DOI:10.15925/j.cnki.issn1005-3360.2024.11.027

登录浏览全文

4963

注册一个新账户 忘记密码

近年来,我国塑料使用量增长迅速,废旧塑料处理问题日益凸显[1]。废旧塑料瓶作为废旧塑料的主要来源之一,目前大多采用易造成环境污染与资源浪费问题的填埋和焚烧等方式处理[2-4]。因此,回收再利用废旧塑料瓶具有重要意义。根据颜色对塑料瓶进行分类回收可提升塑料质量,但目前存在过度依赖人力、缺乏精细化技术以及劳动效率较低等问题[5-8]。因此,利用深度学习技术高效识别和分选不同颜色的废旧塑料瓶,对于提高回收利用效率、资源循环利用和环境保护均具有重要意义。
随着深度学习技术的进步,国内外学者对塑料检测技术进行了广泛研究,并取得了一定成果。李洪波等[9]开发一种基于YOLOv2算法的塑料自动识别系统,实现了实时塑料垃圾检测网络系统。周晓等[10]设计具有残差连接的卷积神经网络,提升了废塑料瓶颜色分拣的准确率。曾维等[11]提出了基于计算机视觉进行垃圾塑料瓶的识别与定位的方法,通过YOLOv3算法的浅层增强特征实现对目标的识别和定位。王振等[12]基于YOLOv5s的轻量化进行塑料瓶颜色识别,减少了参数量和计算量,提高了识别准确率和识别速度。KOKOULIN等[13]通过结合卷积神经网络与物联网技术实现了对多种类塑料瓶的自动识别和分类。JIANG等[14]提出了基于深度卷积神经网络(CNN)的RGB图像瓶内液位的非接触式检测方法,该方法具备较高的检测准确率。WANG等[15]利用ReliefF算法对特征进行提取,并采用支持向量机(SVM)算法对塑料瓶进行颜色识别。
然而,上述研究方法中存在结构复杂、运算冗多等问题,难以在识别速度和准确率之间取得均衡。因此,为满足现实复杂工况需要,并进一步提升废旧塑料瓶识别效率和准确率,本文提出一种基于深度学习YOLOv8n改进模型对废旧塑料瓶进行颜色识别的方法。

1 YOLOv8模型简介

随着人工智能和机器视觉技术的发展,基于深度学习的目标检测算法得到了广泛应用[16-17]。主流的目标检测算法包括以R-CNN[18-19]、Fast R-CNN[20]和Faster R-CNN[21]为代表的双阶段目标检测算法,和以SSD[22]和YOLO[23-27]系列为代表的单阶段目标检测算法,其中YOLO系列因其高准确率和检测速度而表现出色[28]

YOLOv8为YOLO系列中最新的目标检测算法,由YOLOv5演化而来,并延续其优点。在YOLOv5基础之上,其骨干网络部分由YOLOv5的C3结构替换为C2f结构,并对不同尺度模型调整不同的通道数,极大地提高了模型性能。头部网络换成了目前较为受欢迎的解耦头结构,将分类和检测头分离,并用无锚框(anchor-free)替代有锚框(anchor-based)。损失计算方面采用对齐分配器(task-aligned assigner)[29]正样本分配策略,分类损失方面使用二元交叉熵(BCE)作为分类损失,同时在回归分支方面引入分布焦点损失(distribution focal loss)[30]并使用CIOU损失函数;YOLOv8较YOLOv5网络结构更简化,且检测速度和精度有着显著提升。图1为YOLOv8网络结构。

图1可以看出,YOLOv8网络结构包括骨干(backbone)网络、颈部(neck)网络和头部(检测头,head)网络。其中,Conv(即ConvModule)为卷积操作,包含二维卷积(Conv2d)、批量归一化(BatchNorm2d)和激活函数(SiLU),用于提取特征;C2f则由一系列卷积层组成,包含分割(Split)、深度学习框架的颈部结构(dark net bottle neck)等;SPPF为空间金字塔池化层,包含二维最大池化(Maxpool2d)、张量拼接(Concat)等;Upsample为上采样操作,增强特征图的空间分辨率;Bbox.Loss为位置定位损失;Cls.Loss为分类损失;nc(即number of classes)表示模型用于检测的对象类别总数;reg_max表示目标检测中的回归操作。

2 基于深度学习的废旧塑料瓶颜色识别方法研究

本文以YOLOv8n模型为基础进行3处改进研究,图2为改进后模型结构。从图2可以看出,3处改进包括:颈部网络引入BiFPN加权双向特征金字塔网络改进原有的PANet结构,加强多尺度融合能力;头部网络的解耦头结构中两个分支均仅采用1个Conv2d模块,并在分支前端添加重参数化卷积——RepConv模块,减少计算量并提升训练精度;损失函数由CIOU替换为WIOU v3,提升模型的检测精度。

2.1 特征融合颈部网络的改进研究

YOLOv8中选用的PANet通过上采样和下采样在多尺度融合方面取得较好效果,但计算量较大。本文采用的加权双向特征金字塔网络(bidirectional feature pyramid network, BiFPN)是在PANet的基础上进行改进,引入了双向连接和多尺度融合,进一步增强了特征融合的能力。BiFPN通过在自顶向下和自底向上的路径上引入额外的横向连接,使特征能够更全面和灵活充分地在不同层级之间传递和融合[31]图3为BiFPN结构。

BiFPN通过引入带权重的特征融合机制,能够更好地利用不同层级的特征信息,并自适应地学习路径权重,从而进一步提升模型性能。

BiFPN的带权特征融合公式为:

O = i W i ε + i W j I i

式(1)中:O为输出;I为输入;ε为用于约束数值振荡的极小值学习率;WiWj 为对应的权重。

2.2 检测头优化研究

在YOLOv8n模型中,头部网络采用目前较为流行的解耦头结构,两条并行的分支由两个Conv卷积模块和1个Conv2d卷积模块构成,分别提取类别特征和位置特征。

Conv卷积模块特征的表示能力较弱,且对输入图像的旋转和变形不敏感,难以满足不同变形下的图像特征提取需求,易发生拟合不足的情况,鲁棒性较差。在进行卷积操作时,会对输入的每个位置都进行计算,导致冗余计算,使模型计算量增大,其卷积模块操作如图4a所示。RepConv卷积模块引入可学习的重参数化(reparameterization)机制,使卷积核的参数量减少,从而降低模型的复杂程度和计算量。引入旋转操作,使模型对于图像的旋转和变形具有更好的鲁棒性。将二值化网络中的普通卷积模块替换为RepConv卷积模块后,可在不增加计算量的情况下,大幅度提高二值化网络的精度[32],其卷积模块操作如图4b所示。

图4a可以看出,Conv卷积模块中输入特征图(input feature map)、卷积核(filters)、输出特征图(output feature map)均为四维矩阵,Cin为输入通道数量,Cout为输出通道数量,Cout groups为输出通道数的分组设置,Sum over Cin则是对输入通道数进行求和操作。从图4b可以看出,RepConv卷积模块中,Cin*β和Cout/β分别代表输入通道数量和输出通道数量,Repeat*β2表示将输入特征图与卷积和的卷积结果在输出通道方向复制β2,Cout*β表示RepConv卷积模块的最终输出通道数量。

本文模型为使头部网络减少计算量并提升训练精度,两条并行的分支均仅使用1个Conv2d模块,并在分支前端增加1个重参数化卷积——RepConv模块,以提高训练精度。图5为头部网络改进对比。

2.3 IOU损失函数优化研究

YOLOv8n模型中采用CIOU损失函数作为检测框的回归函数,其公式为:

L C I O U = 1 - I I O U + ρ 2 ( b , b g t ) ( w c ) 2 + ( h c ) 2 + α v

式(2)中: I I O U为真实框与预测框的交并比;bb gt为预测框和真实框边界中心点;ρbb gt之间欧式距离;w ch c为预测框和真实框的最小外接矩形宽度和高度;v为预测框和真实框长宽比的相似性度量,如果宽高比差异较大,v值会更高,从而在损失函数中增加惩罚力度,促使模型优化预测框的宽高比,使之更接近真实框;α为权重函数,其表达式为:

α = v ( 1 - I I O U ) + v

式(3)中:v为两框宽高比的距离,其表达式为:

v = 4 π 2 ( a r c t a n w g t h g t - a r c t a n w h ) 2

式(4)中:w gth gt为真实框宽度和高度;wh为预测框宽度和高度。

从式(2)~(4)可以看出,CIOU损失函数的优点在于考虑了预测框和真实框的重叠面积、中心点距离、长宽比。但CIOU损失函数中长宽比仅反映预测框与真实框宽度和高度的比值关系,并不能反映预测框与真实框宽度和高度的真实差异,模型无法有效地进行相似性优化。

本文提出采用WIOU损失函数作为检测框的回归函数。WIOU是基于动态非单调聚焦机制的边界框定位损失函数。由于数据集中难免会存在一些低质量样本,因此预测框与真实框的距离、长宽比等几何因素会增加对低质量样本的惩罚从而导致模型泛化能力的下降。WIOU损失函数共有3个迭代,WIOU v1构造了基于注意力的边界框损失,WIOU v2和WIOU v3则是在此基础上通过构造梯度增益的计算方法来附加聚焦机制。其中,WIOU v3具有动态非单调FM并利用其明智的梯度增益分配策略,使自身获得较为优越的性能[33]。根据度量构建距离注意力,便得到具有两层注意力机制的WIOU v1,其公式为:

L W I O U   v 1 = R W I O U L I O U
R W I O U = e x p [ ( x - x g t ) 2 + ( y - y g t ) 2 ( W g 2 + H g 2 ) * ]

式(5)式(6)中:R WIOU∈[1,e)将会使普通质量锚框的IOU损失函数值L IOU明显加大;L IOU∈[0,1),当锚框与目标框重叠度较高的情况下,将会使高质量锚框的R WIOU及重点关注两个框的中心点之间距离明显减小;W gH g表示最小包围框的宽度和高度;为防止R WIOU产生阻碍收敛的梯度,需将W gH g从计算图中分离,*表示将W gH g从计算图中分离;(xy)和(x gty gt)分别代表锚框和目标框的中心坐标。

WIOU v3损失函数使用离群度来表示锚框质量。离群度反映了锚框与真实目标之间的匹配程度,低离群度表示高质量锚框,反之表示低质量锚框离群度,定义公式为:

β = L I O U * L ¯ I O U [ 0 , + )

为避免低质量样本产生较大的有害梯度,利用β构造1个非单调聚焦系数r,并将其应用于WIOU v1得到WIOU v3,其公式为:

L W I O U   v 3 = r L W I O U   v 1
r = β δ α β - δ

L ¯ I O U是动态的,锚框的质量划分标准也是动态的,使WIOU v3能够随时制定出最符合当时情况的梯度增益分配策略,致使模型性能也得到提升。

3 实验及结果对比分析

3.1 实验数据集

由于没有废旧塑料瓶公开数据集,实验所用废旧塑料瓶数据集为自建数据集。数据集制作时结合实际情况,包含废旧塑料瓶数量不同、相互重叠等情况。同时,对图片进行如平移、亮度调整、添加噪声等图形变换操作,以扩充训练数据量、提高模型的泛化能力、减少模型的过拟合、强化模型的鲁棒性,有助于提升深度学习模型的性能。图6为经过数据增广处理后的图像样本。从图6可以看出,以任意一张蓝色废旧塑料瓶图片为例,可由它的原图(图6a)数据增广至图6b所示效果。

根据实际废旧塑料瓶回收情况,数据集包含5个颜色种类,分别为棕色、绿色、蓝色、淡蓝色和透明色。使用labelimg工具对图片中的塑料瓶进行标注。

进行实验时,将所得数据集按照7∶2∶1的比例分为训练集和测试集,则训练集为1 050张图片,验证集为300张图片,测试集为150张图片。

3.2 实验环境及训练

表1为实验环境配置。使用YOLOv8n作为基准网络模型,超参数设置批大小(batch)设置为16,训练周期(epochs)为200,初始学习率(learning rate)为0.01,训练图片的大小(imgsz)为640×640,权重衰减系数(weight_decay)为0.000 5。

在大约迭代到60次之后,损失函数趋于保持稳定,模型达到最优化,图7为损失函数曲线对比。从图7可以看出,与YOLOv8n模型相比,本文模型损失收敛更快且稳定性更高。

3.3 评价指标

本文使用的评价指标包括召回率(R)、平均精度均值(mAP)、参数量(Params)、每秒检测帧数(FPS)和浮点运算速率(GFLOPs)。

召回率是根据正确预测的所有目标的比例来计算,公式为:

R = P T P T + N F

式(8)中: P T为检测结果中正确目标的个数; N F为正确目标中缺失目标的个数。

图8为召回率曲线对比。从图8可以看出,与原模型相比,经过30轮训练后,本文模型表现出的振荡幅度较小,并且在后期达到的稳定值,相比原模型提升了3%。

图9为mAP50曲线对比。从图9可以看出,就平均精度均值而言,本文模型mAP50值前期振荡幅度较小,达到的稳定值较原模型提升2.6%。

从上述各项性能评价指标结果可知,本文基于YOLOv8n的改进模型对于废旧塑料瓶颜色识别在训练中表现较好。

3.4 对比实验

为验证本文模型检测性能更优,在相同实验环境下使用SSD模型、Faster CNN模型、YOLOv8n模型与本文提出的模型进行对比实验,表2为不同模型检测性能对比结果。

表2可以看出,相比其他传统的目标检测模型,本文提出的模型有着更高的检测精度和更快的检测速度。

3.5 消融实验分析

为验证本文模型的优越性,进行了一系列消融实验,表3为消融实验性能对比。从表3可以看出,改进YOLOv8n模型可在不同位置上对原模型网络进行改进。YOLOv8n-W模型在替换损失函数为WIOU v3,YOLOv8n-B模型在颈部网络引入BiFPN结构,YOLOv8n-H模型在头部网络的两条分支均仅使用Conv2d模块且分支前端插入RepConv模块。实验验证了WIOU v3、BiFPN和头部网络改进均对模型的性能提升有着不同程度的贡献。

本文模型通过对上述3处进行改进,参数量由原模型3 006 233降低至1 659 557,计算量由原模型的8.1 GFLOPs降低至5.3 GFLOPs,较原模型分别降低44.8%和34.6%,召回率由原模型的95.4%提升至98.4%,mAP50由原模型的96.7%提升至99.3%,较原模型分别提升3.1%和2.7%,FPS由原模型的47提升至66,提升40.4%,满足实时检测要求。实验表明,与原模型YOLOv8n相比,本文模型参数量、浮点运算速率均大幅下降,检测准确率更高,检测速度更快,能够有效地解决废旧塑料瓶颜色识别问题。

4 结论

本文研究了废旧塑料瓶的颜色识别问题,提出了基于深度学习YOLOv8n改进模型回收废旧塑料瓶颜色高效识别方法,最终得出以下结论:

第一,在颈部网络引入BiFPN结构可增强模型特征融合能力,提升检测准确率;头部网络的两个分支均仅采用1个Conv2d模块,并在分支前端插入RepConv模块,可减少模型计算量,提升检测精度;选用WIOU v3损失函数替换CIOU损失函数,可降低低质量样本的影响,并能够提升检测精度。

第二,本文模型性能优于传统目标检测模型。与YOLOv8n模型相比较,本文模型参数量减少44.8%,计算量减少34.6%,召回率提升3.1%, mAP50值提升2.7%,识别速度可达66FPS,提高40.4%。改进的YOLOv8n模型针对颜色问题识别准确率更高,速度更快,能够满足实时检测识别的要求,实现了颜色识别的高效性和实时性,为后续分选设备研究奠定基础。

参考文献

[1]

李晔,许文.中国塑料制品市场分析与发展趋势[J].化学工业,2021,39(4):37-43.

[2]

薛志宏,刘鹏,高叶玲.废旧塑料回收与再利用现状研究[J].塑料科技,2021,49(4):107-110.

[3]

高珊.中国绿色包装材料研究现状与进展[J].内蒙古科技与经济,2018(17):3,6.

[4]

张文华,原心红,刘金妹,废旧塑料在道路工程建设中的应用[J].塑料科技,2022,50(2):93-97.

[5]

赵爱之.废弃塑料回收方法概述[J].塑料科技,2020,48(9):123-126.

[6]

张悦.塑料垃圾资源化处理探析[J].清洗世界,2023,39(10):178-180.

[7]

杨朝义,李海强,黄芬梅.计算机视觉技术在塑料成品检测中的应用[J].塑料科技,2021,49(5):99-102.

[8]

邢晶凯,刘腾腾,王波.可闭环回收塑料的研究进展[J].中外能源,2023,28(9):92-100.

[9]

李洪波,廖详刚,陈立.基于机器学习One-stage目标检测算法的塑料自动识别系统[J].塑料科技,2020,48(12):86-89.

[10]

周晓,焦晨,朱开瑄.基于卷积神经网络的废旧塑料瓶颜色分拣系统[J].数字制造科学,2021,19(3):227-232.

[11]

曾维,尹生阳,张凤.基于计算机视觉的垃圾塑料瓶识别与定位算法研究[J].电子测量技术,2021,44(23):12-17.

[12]

王振,方海峰,曹晋,基于YOLOv5s的轻量化可回收饮料瓶颜色识别[J].国外电子测量技术,2023,42(3):160-166.

[13]

KOKOULIN A N, TUR A I, YUZHAKOV A A. Convolutional neural networks application in plastic waste recognition and sorting[C]//2018 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus). New York: IEEE, 2018.

[14]

JIANG Y, SCHENCK E, KRANZ S, et al. CNN-based non-contact detection of food level in bottles from RGB images[C]//International Conference on Multimedia Modeling. Cham: Springer, 2019.

[15]

WANG Z K, PENG B B, HUANG Y J, et al. Classification for plastic bottles recycling based on image recognition[J]. Waste Management, 2019, 88: 170-181.

[16]

赵永强,饶元,董世鹏,深度学习目标检测方法综述[J].中国图象图形学报,2020,25(4):629-654.

[17]

许德刚,王露,李凡.深度学习的典型目标检测算法研究综述[J].计算机工程与应用,2021,57(8):10-25.

[18]

GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2014.

[19]

GIRSHICK R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2015.

[20]

REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[21]

GIRSHICK R, DONAHUE J, DARRELL T, et al. Region-based convolutional networks for accurate object detection and segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(1): 142-158.

[22]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C]//Computer Vision-ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part I 14. Cham: Springer International Publishing, 2016.

[23]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and pPattern Rrecognition. New York: IEEE,2016.

[24]

REDMON J, FARHADI A. YOLO9000: Better, faster, stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017.

[25]

REDMON J, FARHADI A. Yolov3: An incremental improvement[C]//Computer Vision and Pattern Recognition. Cham: Springer, 2018.

[26]

ZHOU F, ZHAO H, NIE Z. Safety helmet detection based on YOLOv5[C]//2021 IEEE International Conference on Power Electronics, Computer Applications. New York: IEEE, 2021.

[27]

WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023.

[28]

侯学良,单腾飞,薛靖国.深度学习的目标检测典型算法及其应用现状分析[J].国外电子测量技术,2022,41(6):165-174.

[29]

FENG C, ZHONG Y, GAO Y, et al. Tood: Task-aligned one-stage object detection[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE Computer Society, 2021.

[30]

LI X, WANG W H, WU L J, et al. Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection[J]. Advances in Neural Information Processing Systems, 2020, 33: 21002-21012.

[31]

TAN M, PANG R, LE Q V. Efficientdet: Scalable and efficient object detection[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. Piscataway, NJ: IEEE Computer Society, 2020.

[32]

齐志,史旭龙,刘昊.一种无计算增量但提高精度的RepConv通用卷积模块及使用策略:CN114819073A[P].2022-07-29.

[33]

董恒祥,潘江如,董芙楠,基于YOLOv5s模型的边界框回归损失函数研究[J].现代电子技术,2024,47(3):179-186.

基金资助

国家自然科学基金(52075306)

AI Summary AI Mindmap
PDF (2813KB)

212

访问

0

被引

详细

导航
相关文章

AI思维导图

/