基于改进YOLOv5s的松科球果目标检测与定位

滕弛 ,  董希斌 ,  宋梓恺 ,  张佳旺 ,  郭奔 ,  张雨晨 ,  刘慧 ,  高彤

森林工程 ›› 2025, Vol. 41 ›› Issue (04) : 812 -826.

PDF (11266KB)
森林工程 ›› 2025, Vol. 41 ›› Issue (04) : 812 -826. DOI: 10.7525/j.issn.1006-8023.2025.04.015
森工技术与装备

基于改进YOLOv5s的松科球果目标检测与定位

作者信息 +

Target Detection and Localization of Pinecone Based on Improved YOLOv5s

Author information +
文章历史 +
PDF (11536K)

摘要

传统松科球果采摘面临效率低、风险高和成本不可控等挑战,针对自动化松科球果采摘对果实的实时识别与定位问题,提出改进的YOLOv5s-7.0 (You Only Look Once)目标检测模型,基于此模型,构建基于双目深度相机的松科球果检测与定位网络。为提高目标检测精度及效率,对YOLOv5s模型进行改进,将部分卷积PConv嵌入到模型的颈部网络neck多分枝堆叠结构中,面对松科球果的复杂场景增强对稀疏特征的处理能力,提升鲁棒性,减轻特征信息的冗余。在骨干网络backbone的深层及backbone与neck的连接处嵌入简单注意力机制SimAM,在不引入过多参数的基础上优化模型复杂背景下特征提取能力和信息传递的有效性。为满足高效率检测定位,基于双目深度相机测距原理和改进的YOLOv5s模型搭建目标检测及实时定位代码,通过深度匹配,构建松科球果检测与定位系统。根据构建的大兴安岭樟子松球果与小兴安岭红松球果数据集,改进后YOLOv5s模型目标检测精确率达96.8%,召回率和平均精度分别达94%、96.3%,松科球果检测与定位系统在x轴、y轴、z轴的平均绝对误差分别为0.644、0.620、0.740 cm,顺、侧、逆光照下定位试验成功率93.3%,暗光下定位成功率83.3%,视场角等其他性能符合松科球果采摘需求。研究提出的松科球果检测与定位系统为机械化采摘的实时目标检测与定位问题提供可靠的解决方案。

Abstract

Traditional methods for harvesting pinecone species face challenges such as low efficiency, high risks, and uncontrollable costs. To address real-time recognition and localization in automated pinecone harvesting, we proposed an improved YOLOv5s-7.0 (you only look once) object detection model and construct a binocular depth camera-based detection and localization network. To improve the accuracy and efficiency of object detection, the YOLOv5s model was improved by embedding partial convolutions (PConv) into the neck module's multi-branch stacked structure to enhance sparse feature processing capability, improve robustness, and reduce feature redundancy in complex scenarios of pinecones. Additionally, the simple attention mechanism (SimAM) was integrated at deep backbone layers and backbone-neck connections to optimize the model’s feature extraction ability and information transmission efficiency in complex backgrounds without significant parameter increases. To meet the requirements of efficient detection and localization, a target detection and real-time localization code was developed using binocular vision principles and the improved YOLOv5s model, and a pinecone detection and localization system was constructed through depth matching. Based on the constructed dataset of Pinus sylvestris var. mongolica cones from the Greater Khingan Mountains and Pinus koraiensis cones from the Lesser Khingan Mountains, the improved YOLOv5s model achieved a precision of 96.8%, a recall of 94.0%, and an average precision (AP) of 96.3% in target detection tasks. The proposed pinecone detection and localization system demonstrated mean absolute errors of 0.644 cm, 0.620 cm, and 0.740 cm along the x-, y-, and z-axes, respectively. Under front, side, and backlighting conditions, the localization success rate reached 93.3%, while in low-light environments, it maintained a success rate of 83.3%. Other performance indicators, including field of view, meet the operational requirements for pinecone harvesting. The proposed pinecone detection and localization system provides a reliable solution for real-time target detection and localization problems in mechanized pinecone harvesting.

Graphical abstract

关键词

松科球果 / 目标检测 / 目标定位 / YOLOv5s算法 / 双目深度相机

Key words

Pinecone / target detection / target localization / YOLOv5s algorithm / binocular depth camera

引用本文

引用格式 ▾
滕弛,董希斌,宋梓恺,张佳旺,郭奔,张雨晨,刘慧,高彤. 基于改进YOLOv5s的松科球果目标检测与定位[J]. 森林工程, 2025, 41(04): 812-826 DOI:10.7525/j.issn.1006-8023.2025.04.015

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

松科球果作为一种重要的林业资源,因其在食品、医药和化工领域的广泛应用而备受关注1。松科树种属于高大乔木,果实生长于树梢,在天然红松林内树高多为25~30 m,其球果的采摘主要依赖人工,随着全球林业资源需求的增长和劳动力成本的持续上升,传统松塔采摘模式面临效率低、风险高和成本不可控等严峻挑战,而季节性劳动力短缺进一步加剧了松科球果资源的浪费,不能满足行业发展需要2,基于此,自动化采摘在提高效率、降低人力成本和减少安全风险方面展现出巨大潜力,实现精准、快速的松科球果检测与定位是推动自动化采摘技术发展的关键,也是制约采摘机器人在实际采摘中推广应用的主要因素3

在目标检测方面,目前,松果检测模型主要可以被划分为两阶段模型与单阶段模型2类。两阶段模型的工作流程为先从背景中提取候选区域,然后对目标进行分类和定位,尽管这种方法在检测精度上表现出色,但由于其复杂的处理步骤,通常无法满足实时检测的需求4。其中,RCNN5、Fast RCNN6和Faster-RCNN7是该类模型的典型代表。程嘉瑜等8提出无人机遥感结合改进Faster-RCNN算法对桃树进行检测,引入注意力模块CBAM、使用ROI Align替代原本池化结构、引入损失函数Focal Loss这3个方面对Faster-RCNN算法进行优化,改进后的算法对桃树检测平均精度达86.46%,但双阶段模型的实时性存在一定缺陷。相较之下,单阶段模型则直接从图像中预测目标的类别和位置,在检测精度和检测速度上做出了较优的平衡,代表性的模型包括SSD9、YOLO10等。YOLO系列网络作为经典的单目标检测方法之一,通过不断地采样预测物体的特征来实现目标检测11。周宏威等12以YOLOv8为基准算法,通过采用C2f-GAM(global attention mechanism,全局注意力机制)和动态检测头对算法进行优化,实现了梢斑螟虫蛀树木的检测,检测平均精度达84.8%,但在检测精度与速度的平衡上有所欠缺;赵辉等13基于改进YOLOv3实现了果园环境对苹果的识别,通过引入残差模块DarkNet53、空间金字塔池化(spatial pyramid pooling,SPP)模块和优化损失函数的方法提升模型性能,具有较好的实时性能。单阶段模型相对于两阶段模型的高效性使其更加适用于需要快速反应的实时松果检测任务。

在目标定位方面,近年来,许多学者利用双目立体视觉系统进行农业作物的空间定位研究14。Zhai等15基于双目立体视觉系统,结合秩变换、Harris检测器和随机样本一致性方法,提出了一种精确的立体匹配方法来定位多行农作物的三维位置。刘洁等16基于深度匹配技术和改进的YOLOv4实现橙果的识别与定位,目标果实在二维、三维的识别成功率分别达到98.7%与96.15%,具有较高的精度。Li 等17采用基于色差和色差比的分割方法分割被检测水果包围盒中的苹果和背景像素,使用平行极线约束的模板来匹配左右图像中的苹果,利用双目定位原理直接计算特征点的三维坐标,实现0.51 cm的定位标准差。基于双目视觉的定位方法虽能实现作物三维信息提取,但传统匹配算法易受光照、遮挡干扰,影响定位稳定性。尽管单阶段检测模型凭借其高效性在果实检测任务中广泛应用,但对于自然环境的实时采摘来说,对检测精度和速度的平衡尤其重要。本研究通过优化检测网络,结合深度相机与深度匹配算法增强复杂环境下的定位鲁棒性,针对松科球果提出实时目标检测与定位系统。该系统集成目标检测算法、深度相机与深度匹配模块,在保证毫米级定位精度的同时,可动态适配不同采摘场景需求。

1 松科球果数据集构建

以2大主要松属植物红松和樟子松的球果为研究对象,旨在解决自然环境中,复杂、存在遮挡环境下樟子松、红松球果的识别与定位问题,为智能松科球果采摘提供基础。

1.1 数据采集

采集成熟期(9—10月)内2种松科球果图像,为方便图像收集,选择种子园(树木经过矮化处理)进行采集,其中,樟子松球果图像采集于大兴安岭地区加格达奇区樟子松种子园(123°57′29″E、50°22′1″N,海拔566 m),红松球果图像采集于小兴安岭地区,伊春市新青区的汤林林场红松种子园(129°33′22.5 398″E、48°22′19.51 12″N,海拔435 m)。

考虑本算法后期的使用需结合感知设备部署,拍摄角度最大程度模拟自然环境下镜头可能的采摘视角,果实目标检测数据集的图片利用IPhone14手机进行采集,图像保存格式为JPG,图像分辨率为3 456× 4 608像素,距离果实0.2~2 m,为保证算法对不同角度果实识别成功率,单个果实选取不同角度多次拍摄,此外图像还注意以下多种情况的采集:逆光、顺光、侧光,果实被遮挡10%及以下、30%、50%、50%以上,无果、单果、多果。最终获得樟子松球果原始图像738张,红松球果原始图像1 343张,无果原始图像 61张(原始图片共计2 142张),图1展示了相关图像示例。

1.2 数据集增强和划分

使用LabelImg对原始图像进行标注,绘制标注框对果实进行完全框选,标签为“pinecone”代表目标球果,获得YOLO训练所需的TXT格式文件,部分空集图像不进行标注,对应的TXT格式文件内容为空。同时,为方便后续进行数据增强处理,通过Python脚本将数据集整理成VOC格式,生成XML格式的声明文件。将训练集、测试集、验证集通过Python脚本,按照7∶2∶1的比例进行随机划分,格式和分类如图2所示。

为保证算法的鲁棒性、识别准确率和弥补自然环境下拍摄的局限性,本试验通过算法对原始数据集进行数据增强处理,主要采用以下8种方法:添加噪声、改变亮度、随机角度旋转、镜像、倒置、增加黑框遮挡、曝光、高斯模糊,同时为拓展算法可用场景,少部分图像进行增加雨、雾处理,图3展示部分图像示例。将2 142张原始图像编号,取随机数对原始图像进行数据增强,保证0~3种数据增强生效,0~2种天气效果生效,对增强后的图像进行筛选,最终经过增强的图像共2 281张,数据集全部图像共计4 423张,最终数据集的构成与划分见表1表2

2 模型优化

YOLOv5作为单阶段目标检测算法,其框架主要由3部分组成:骨干网络、颈部网络和检测头,如图4所示。骨干网络负责提取图像特征,主要作用是将原始输入图像转化为多层特征图,颈部网络对骨干网络所提取到的深浅层次特征进行多尺度特征融合并传递给检测网络,检测头进行回归预测,完成目标特征的检测与分类18。YOLOv5s版本具有检测精度高、推理速度快和模型体积小的优势,适用于松科球果的实时检测。但在试验中发现YOLOv5s模型在松科球果被遮挡情况下易误判,在强光或背光条件下存在特征提取不足和漏检问题,检测精度仍有提升空间。在实际采摘过程中,视觉识别的准确性和实时性对松科球果定位至关重要。因此,本研究基于YOLOv5s架构和松科球果定位需求改进网络,以提升松科球果目标检测性能。

2.1 部分卷积(PConv)

部分卷积(partial convolution,PConv)19通过减少冗余计算和内存访问的数量,可以有效地提取空间特征,工作原理如图5所示。其核心思想是动态调整卷积操作,通过引入遮罩(mask)标记输入特征图中的有效区域,确保有效信息被充分利用,同时忽略无效数据。

对于可实际应用的模型来说,模型运算速度是关键因素之一,为了设计快速轻量化的检测模型,许多研究致力于减少浮点运算次数(FLOPs),FLOPs的减少可能带来运算速度的提升,但是普通的深度卷积(DWConv)操作对内存的频繁访问反而使浮点运算效率降低、不稳定性增加。本试验的检测目标只有松科球果“pinecone”这一类,目标松科球果背景为林区环境,复杂且出现遮挡的频率高,果实相对稀疏,所以在模型中引入PConv卷积方式,增强对稀疏特征的处理能力,提升对不规则输入数据的鲁棒性,减轻特征信息的冗余问题。将颈部网络的堆叠部分替换为PConv形式,具体为FPN和PANet结构中C3模块中的BottleNeck的常规卷积替换为部分卷积,减少冗余的特征处理。原结构的C3模块和引入PConv后新的P-C3模块结构如图6所示,在以上改进中,尺度和层次2方面均有兼顾,模型鲁棒性更强,而在卷积较为密集的部分引入PConv帮助模型轻量化提高推理速度,更符合后期设备的部署需求。

2.2 注意力模块SimAM

在检测过程中,目标球果与背景对比度较小,果实生长林区环境复杂,导致这种背景下的目标果实具有较低的对比度和较弱的表现形式,使其难以被常规的特征提取方式捕捉,同时对于采摘设备来说,轻量、反应迅速是关键因素之一。因此在原来的骨干网络中引入简单注意力模块SimAM20,这是一种简洁的注意力模块,工作原理如图7所示。SimAM模块不引入额外的卷积层或全连接层,相比于挤压和激励(squeeze-and-excitation,SE)等注意力模块,SimAM参数量更低,在计算中引入自适应调节参数,提高网络对关键特征的关注度,在参数量最小的情况下提高复杂背景下的检测能力。基于YOLOv5-7.0网络,将SimAM嵌入到骨干backbone的深层结构中,SimAM通过动态调整特征图中像素的权重,对深层语义特征进行细粒度的权重分配,突出目标区域,减弱背景噪声干扰,同时在backbone和neck的连接部分引入SimAM,优化信息传递的有效性。

2.3 改进YOLOv5s总框架

通过引入部分卷积构成新的P-C3模块和添加注意力机制(SimAM)优化YOLOv5s模型提高松科球果的检测能力,改进后松科球果检测模型的总体框架结构如图8所示。

3 深度定位分析

3.1 测距原理分析与选定

通过对YOLOv5目标检测模型进行训练与改进,可以高准确率确定目标果实的二维位置信息(即x轴和y轴坐标),实现目标果实抓取任务,还需要获取第3维度(即z轴坐标),三维坐标确定待采摘果实的空间位置,为机械臂或末端执行器的运动提供精确运动坐标。

由于松科球果形似宝塔,近似于椭球形,且密度较大抓取较牢固,本研究直接将检测框中心看作等效质点,视为球果采摘点的二维坐标。为获取三维坐标,需硬件设备进行感知获得深度信息,常见的深度信息获取按照原理有主动测距与被动测距2种形式,具体情况如下。

1)纯视觉方法,属于被动测距,包括非主动的单、双目摄像头,例如双目摄像机仿照人眼设计,通过视觉差进行计算得到目标物体深度,无须主动发射能量,受强光干扰较小,成本相对较低。但是精度依赖相机标定,与低纹理目标(如光滑表面)难以匹配,在暗光或无光环境下无法工作,受到相机俯仰角限制。

2)主动深度相机,属于主动测距,一般通过发射装置对待测物体投射光源(固定的红外光栅或图案),主动增加纹理场景或根据接收的反馈信息计算深度,例如双目深度相机(也称RGB-D相机,D指深度depth)或结构光相机,精度较高可达毫米级,不受光照和物体纹理的影响,响应速度较快,适合林区环境的采摘作业。

3)飞行时间(time of flight,TOF),属于主动测距,如Kinect 3.0深度传感器相机,通过发射激光或红外光测量反射时间计算深度。成本较高,不受光照和目标物体纹理的影响,但受多重反射的影响较大,部署和使用受到上位机功率的限制,虽然可达毫米级精度,但不适用于林区复杂环境。

双目深度相机(binocular depth camera)因其高精度(毫米级)、抗环境干扰性强、实时性高和成本适中的优势更加适用于林区松科球果采摘任务,相比纯双目视觉,通过主动投射散斑图案增强目标特征,解决低纹理匹配问题;相比TOF,成本更低且抗反射干扰更强,适合林区复杂光照和动态采摘场景,兼顾精度与实用性,因此本研究采用双目深度相机(RealSense D435)进行松科球果的定位。

3.2 基于双目深度相机的松科球果定位原理

Intel RealSense D435相机包括RGB模块、左成像器、光源发射器、右成像器,参数见表3,结构如图9所示,相机增加一个红外投影仪,使用能覆盖大视场角的散斑图案,通过主动发射红外光并结合立体视觉技术来实现深度测量。假设目标球果三维空间坐标为PX,Y,Z),其在左成像器中的坐标为xL,在右成像器中的坐标为xR,则视差(d)

d=xL-xR

根据相机几何关系,视差与物体的深度(Z)之间关系为

Z=fbd

式中:Z为目标果实到相机的深度;f为相机成像器的焦距;b为左右2个相机之间的基线长度;d为视差。

在定位过程中,使用改进的YOLOv5s模型对获取到的RGB图像进行松科球果的目标检测任务,在RGB图像中计算目标果实检测框的中心坐标,深度相机获取到的深度图像中的每个像素包含了到相机的距离信息,即该像素对应物体的深度值,将目标果实深度图像的像素深度值和目标检测中心的像素坐标进行匹配,使用函数转换关系,将像素点三维坐标转换为相机坐标系中的三维坐标,即目标果实在世界坐标系的三维坐标,定位流程如图10所示,精确的定位坐标是后续末端执行器实现采摘动作的基础。

4 试验与分析

4.1 目标检测性能试验

本试验所采用的硬件配置包括12th Gen Intel(R)Core(TM) i7-12700H处理器和NVIDIA GeForce RTX 3060 Laptop GPU显卡。软件环境则选用64位Windows10操作系统,深度学习框架为PyTorch version:1.10.2,Python version:3.6.13。同时,在试验过程中,使用了CUDA11.1作为GPU计算平台,输入图像的尺寸被调整至640×640像素,批量大小定为14,在训练过程中,初始学习率设置为0.01,最终学习率调整为0.000 1,整个训练周期设定为150轮。

为全面评价松科球果检测算法性能,使用查准率(precision,P)、查全率(recall,R)、平均精度(mean average precision,mAP,式中记为mAP)作为试验评价指标。由于算法以联合定位算法的最终应用为目的,为保证检测效率,对速度指标帧率(frames per second,FPS)进行评价,保障算法在实时场景中的性能表现。试验评价指标计算公式为

P=TPTP+FP
R=TPTP+FN
AP=01P(R)dR
mAP=1N·i=1n(APi)

式中:TP为正确检测的松科球果数量;FP为错误检测松科球果的数量;FN为没有检测到的松科球果数量;N为待检测的松科球果类别数量;P为查准率(精确率),代表准确检测松科球果的比例;R为查全率(召回率),代表准确检测所有松科球果的能力;AP为单一类别检测精度,代表P-R曲线构成的区域面积大小;mAP为平均检测精度,代表多个果实类别的平均AP(average precision)值,本研究类别只有“pinecone”一种目标,即AP值与mAP值相等。

针对本研究提出的模型优化方案,进行消融试验,结果见表4。对于PConv的引入,模型平均精度和召回率显著提升,从结果来看,平均精度和召回率分别提升了3.8%和6%,同时精确率从89.9%提升至92.5%,检测模型推理速度由47.5 fps提升至58.0 fps。数据表明,PConv的引入对精度指标与速度指标同时具有增益效果。对于注意力模块SimAM的引入,模型提升浅层特征如目标果实的纹理、边缘和颜色等的捕捉能力,模型的精确率和召回率提升显著分别提升了4.8%和4%,平均精度由原来的90.7%提升至93.8%,但是在backbone和连接处增加了注意力层,导致检测速度下降了1.1 fps。在有效融合PConv部分卷积模块与注意力机制SimAM后,针对松科球果的检测模型达到最优,数据指出,模型的精度指标精确率升至96.8%,召回率达到94%,平均精度提升至96.3%,部分卷积PConv的融合弥补了引入注意力机制(SimAM)导致检测速度下降的缺陷,检测速度上升至57.2 fps,满足采摘过程对检测速度的需求。针对松科球果数据集,将优化后模型与主流一阶段目标检测模型进行对比试验,结果见表5,由表5可知优化后的YOLOv5s模型在检测精度和推理速度上均优于其他模型。

4.2 空间定位性能试验

基于Intel RealSense D435的定位原理,设计并构建了适配的松科球果检测与定位算法网络BinYOLO-DP (binocular depth camera-based YOLO detection and positioning),算法网络结合前文优化后的目标检测模型,进行综合定位试验。

为量化检测坐标与真实坐标的偏差,采用平均绝对误差作为检测坐标与真实坐标的评价指标,计算平均绝对误差公式为

MAEx=1ni=1nxi'-xi
MAEy=1ni=1nyi'-yi
MAEz=1ni=1nzi'-zi

式中:MAEx、MAEy、MAEz 分别为x、y、z轴坐标的平均绝对误差;xi、yi、zi 为第i个目标球果的真实坐标;x'i、y'i、z'i 为第i个目标球果的测量值坐标。

基于python语言编写代码,实现基于Intel RealSense相机和YOLO模型进行松科球果的目标检测和深度信息提取,转换为可读的三维坐标。代码使用OpenCV库进行图像处理和显示,使用pyrealsense2库作为Intel RealSense SDK的Python接口实现对深度相机的访问,调用rs2_deproject_pixel_to_point()函数将二维像素坐标(ux,uy )和深度值dis转换为相机坐标系下的三维坐标(x,y,z)即世界坐标,在检测框上绘制矩形框可视化检测结果,通过调用主函数run()加载对应YOLO模型权重文件,实时处理输入的图像或视频流,并输出松科球果的检测结果及其对应的三维坐标。为了过滤掉低置信度的误检测,确保检测结果的准确性,设定置信度阈值为0.35,即置信度低于0.35时不予检测。

值得一提的是,对于采摘机器人定位的成功率和误差,目前尚无国际上统一的绝对标准,但在学术研究和商业应用中,通常会根据具体的场景和需求设定评价指标,一般要求采摘成功率>80%~90%,定位成功率>85%~95%,位置误差为±(5~20) mm。例如苹果、柑橘类21果实的容忍误差为±(15~20) mm;小果实如红花检测22要求误差小于±5 mm。因此考虑到目标松科果实大小、试验室环境及真实环境(风速一般在1~2 m/s,果实摆动幅度和频率不高)的情况下,本研究允许视觉和控制系统在x、y、z轴的误差均不超过±10 mm。

分别对目标果实进行试验室环境定位试验,环境如图11所示,调整相机对不同的目标球果进行定位,当上位机显示含有帧率稳定的检测目标时,记录目标球果的检测坐标(x′,y′,z′),同时测量目标球果在相机坐标系上的投影x、y、z的距离,得到目标球果的真实坐标(x,y,z),BinYOLO-DP系统测量结果见表6

将坐标信息进行可视化,如图12所示,真实坐标与检测坐标之间距离越近则误差越小、测量越精准,由表6及可视化后的图12可知,使用BinYOLO-DP系统的定位模型,x轴、y轴、z轴的平均绝对误差分别为0.644、0.620、0.740,均小于10 mm满足松科球果采摘的定位误差要求。部分定位结果展示如图13所示。

为全面分析模型对深度定位效果,模拟自然环境下采摘定位情况进行试验,按照顺光、侧光、逆光3种情况对系统进行验证。以逆光为例,目标球果固定,逆光照射果实,针对同一果实,相机坐标系下系统的x、y保持相同,调整相机,沿相机坐标系z轴方向移动,当上位机显示含有稳定帧率的检测目标时,记录检测深度值,记录真实深度值,完成一组试验。换下一目标果实并调整光源,重复试验。其中,误检(将其他非目标部分识别为目标球果)、漏检(未能检测到目标)2种情况定义为失败定位,根据误差要求,检测坐标与实际坐标的深度值(即z轴方向坐标)的误差超过10 mm定义为精度不足,基于此,每种情况进行20次试验,结果见表7

为测试特殊环境下两定位系统的性能,设置30组试验室环境下暗光定位试验,试验过程与上述相同的基础上,不进行特殊光照,将试验环境中主要光源关闭,此时环境光的照度为5.3 lx。

表7表8可知,针对于松科球果不同方向光照下定位,BinYOLO-DP系统的定位成功率达到93.3%,定位失败为5%,精度不足1.7%,在暗光下定位成功率为83.3%,结果还表明模型漏检或误检的情况均明显高于精度不足的情况,这是由于模型的感知设备主动向待测球果发送散斑图案,结合立体视觉技术来获得深度,这能保证定位系统在暗光甚至无光的情况下仍能获取深度信息。

为补充试验的局限性,表9展示了网络模型所 对应感知设备的其他参数指标以及所需计算资源指标(所在上位机环境为12th Gen Intel(R) Core(TM) i5-1240P,PyTorch version:1.10.2, Python version:3.6.13),根据表9参数分析,BinYOLO-DP的深度模块与RGB模块视场角分别达到87°×58°和69°×42°,显著超越同类单目设备(如Astra Pro Plus的58.4°×45.7°和66.1°×40.2°),其广角设计可覆盖更广阔的场景范围,完全满足林区空间感知的场景。模型计算量为16.4 GFLOPs,在12代i5移动端CPU上支持实时推理,(结合30FPS相机推算单帧处理时间≤33 ms)满足帧率需求。工作温度范围0~40 ℃,适配松科球果 9—10月采摘需求的环境部署。此外,基于PyTorch 1.10.2与Python 3.6.13的软硬件架构,确保了算法在主流开发环境中的稳定运行,为实际应用提供可靠基础。

5 结论

本研究构建了松科球果自然环境数据集,提出改进松科球果目标检测模型YOLOv5s,在优化过程中引入部分卷积PConv和注意力机制SimAM,平衡检测精度和检测速度,结合改进松科球果检测模型和深度感知设备双目深度相机,构建松科球果识别和定位系统BinYOLO-DP,通过试验分析,结果如下。

1)改进目标检测模型YOLOv5s基于松科球果数据集,检测精确率达96.8%,召回率和平均精度达94%、96.3%,速度指标达57.2 fps,在检测精度和检测速度上均满足采摘作业对目标果实的检测要求。

2)BinYOLO-DP系统的x轴、y轴、z轴的平均绝对误差分别为0.644、0.620、0.740,符合±10 mm的误差要求,不同方向光照情况下定位成功率达93.3%、

5.3 lx暗光下定位成功率83.3%,同时系统的可定位范围、工作温度及检测速度均满足松科球果采摘定位需求。

本研究提出的BinYOLO-DP系统有效解决了松科球果的检测与实时定位问题,同时,若扩展不同果实的训练数据集,可适配其他果实定位,推动系统向通用化农林业采收场景迁移。未来研究将重点探索定位系统与机械臂的联合控制策略,在完善的定位系统基础上,构建软硬件协同的采摘闭环,为实现林区松科球果智能自动采摘提供高精度、可扩展的技术支持。

参考文献

[1]

吴晨旭,张冬妍,张榄翔,基于RT-DETR的林间松果检测方法研究[J/OL].林业科学1-14[2025-01-07].

[2]

WU C XZHANG D YZHANG L X,et al.Research on forest pinecone detection method based on RT-DETR[J/OL].Scientia Silvae Sinicae1-14[2025-01-07].

[3]

王克奇,张维昊,罗泽,击打式松果采摘机器人设计与试验[J].农业机械学报202051(8):26-33.

[4]

WANG K QZHANG W HLUO Z,et al.Design and experiment of hitting pine cone picking robot[J].Transactions of the Chinese Society for Agricultural Machinery202051(8):26-33.

[5]

陈青,殷程凯,郭自良,苹果采摘机器人关键技术研究现状与发展趋势[J].农业工程学报202339(4):1-15.

[6]

CHEN QYIN C KGUO Z L,et al.Current status and future development of the key technologies for apple picking robots[J].Transactions of the Chinese Society of Agricultural Engineering202339(4):1-15.

[7]

TANG Y CCHEN M YWANG C L,et al.Recognition and localization methods for vision-based fruit picking robots:A review[J].Frontiers in Plant Science202011:510.

[8]

GIRSHICK RDONAHUE JDARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2014,Columbus,OH,USA:IEEE,2014:580-587.

[9]

GIRSHICK R.Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision.December 07-13,2016,Santiago,Chile:IEEE,2015:1440-1448.

[10]

REN SHE KGIRSHICK R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence201739(6):1137-1149.

[11]

程嘉瑜,陈妙金,李彤,基于改进Faster-RCNN网络的无人机遥感影像桃树检测[J].浙江农业学报202436(8):1909-1919.

[12]

CHENG J YCHEN M JLI T,et al.Detection of peach trees in unmanned aerial vehicle (UAV) images based on improved Faster-RCNN network[J].Acta Agriculturae Zhejiangensis202436(8):1909-1919.

[13]

LIU WANGUELOV DERHAN D,et al.SSD:Single shot multibox detector[C]//Proceedings of the European Conference on Computer Vision.The Netherlands:Springer Cham,2016:21-37.

[14]

REDMON JDIVVALA SGIRSHICK R,et al.You only look once:Unified,real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA:IEEE,2016:779-788.

[15]

邵延华,张铎,楚红雨,基于深度学习的YOLO目标检测综述[J].电子与信息学报202244(10):3697-3708.

[16]

SHAO Y HZHANG DCHU H Y,et al.A review of YOLO object detection based on deep learning[J].Journal of Electronics & Information Technology202244(10):3697-3708.

[17]

周宏威,纪皓文,吴羿轩,基于YOLOv8算法改进模型检测梢斑螟虫蛀树木[J].森林工程202541(1):126-137.

[18]

ZHOU H WJI H WWU Y X,et al.Improve the detection model of tree decay by dioryctria based on the YOLOv8[J].Forest Engineering202541(1):126-137.

[19]

赵辉,乔艳军,王红君,基于改进YOLOv3的果园复杂环境下苹果果实识别[J].农业工程学报202137(16):127-135.

[20]

ZHAO HQIAO Y JWANG H J,et al.Apple fruit recognition in complex orchard environment based on improved YOLOv3[J].Transactions of the Chinese Society of Agricultural Engineering202137(16):127-135.

[21]

曹家乐,李亚利,孙汉卿,基于深度学习的视觉目标检测技术综述[J].中国图象图形学报202227(6):1697-1722.

[22]

CAO J LLI Y LSUN H Q,et al.A survey on deep learning based visual object detection[J].Journal of Image and Graphics202227(6):1697-1722.

[23]

ZHAI Z QZHU Z XDU Y F,et al.Multi-crop-row detection algorithm based on binocular vision[J].Biosystems Engineering2016150:89-103.

[24]

刘洁,李燕,肖黎明,基于改进YOLOv4模型的橙果识别与定位方法[J].农业工程学报202238(12):173-182.

[25]

LIU JLI YXIAO L M,et al.Recognition and location method of orange based on improved YOLOv4 model[J].Transactions of the Chinese Society of Agricultural Engineering202238(12):173-182.

[26]

LI T FFANG WTZHAO G N,et al.An improved binocular localization method for apple based on fruit detection using deep learning[J].Information Processing in Agriculture202310(2):276-287.

[27]

ZHU L LGENG XLI Z,et al.Improving YOLOv5 with attention mechanism for detecting boulders from planetary images[J].Remote Sensing202113(18):3776.

[28]

CHEN J RKAO S HHE H,et al.Run,don't walk:Chasing higher FLOPS for faster neural networks[C]//Proceedings of 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 17-24,2023,Vancouver,BC,Canada:IEEE,2023:12021-12031.

[29]

YANG L XZHANG R YLI L D,et al.SimAM:A simple,parameter-free attention module for convolutional neural networks[C]//International Conference on Machine Learning.July 18-24,2021,Vienna,Austria,2021:11863-11874.

[30]

李丽,梁继元,张云峰,基于改进YOLO v5的复杂环境下柑橘目标精准检测与定位方法[J].农业机械学报202455(8):280-290.

[31]

LI LLIANG J YZHANG Y F,et al.Accurate detection and localization method of citrus targets in complex environments based on improved YOLO v5[J].Transactions of the Chinese Society for Agricultural Machinery202455(8):280-290.

[32]

郭辉,陈海洋,高国民,基于YOLO v5m的红花花冠目标检测与空间定位方法[J].农业机械学报202354(7):272-281.

[33]

GUO HCHEN H YGAO G M,et al.Safflower corolla object detection and spatial positioning methods based on YOLO v5m[J].Transactions of the Chinese Society for Agricultural Machinery202354(7):272-281.

基金资助

国家重点研发计划项目(2022YFD2201001)

AI Summary AI Mindmap
PDF (11266KB)

607

访问

0

被引

详细

导航
相关文章

AI思维导图

/