基于决策树算法的汽车保险杠喷涂质量影响因素

程诺 ,  王巍

森林工程 ›› 2025, Vol. 41 ›› Issue (02) : 339 -348.

PDF (3488KB)
森林工程 ›› 2025, Vol. 41 ›› Issue (02) : 339 -348. DOI: 10.7525/j.issn.1006-8023.2025.02.013
森工技术与装备

基于决策树算法的汽车保险杠喷涂质量影响因素

作者信息 +

Research on the Influencing Factors of Automobile Bumper Spraying Quality Based on CART Algorithm

Author information +
文章历史 +
PDF (3571K)

摘要

为提高林业运输车辆的保险杠喷涂合格率,以某公司汽车保险杠的涂装质量数据为例,运用排列图对涂装质量数据进行分析得出颗粒、桔皮属于影响喷涂质量的主要因素。从人、机、料、法、环5个方面分析产生颗粒、桔皮的主要原因,并采用斯皮尔曼(Spearman)相关系数进行特征提取以及重要性分析,得出喷漆房的温度、喷漆房相对湿度、机器人喷涂流量、旋杯转速、喷涂距离、喷涂速度、漆的品牌、机器人(机器(1)、机器(2)、…、机器(6))均会影响保险杠的喷涂质量。运用决策树(classification and regression tree,CART)算法确定喷涂流量、喷漆房的温度、喷漆房相对湿度、机器人(2)和机器人(4)、漆的品牌是影响保险杠喷涂质量的较为关键的因素。结果表明,利用CART分类算法对喷涂质量数据进行分析能够实现对故障点的判别,对于提高保险杠喷涂质量具有借鉴意义。

Abstract

To enhance the qualified rate of bumper painting for forestry transportation vehicles, the coating quality data of bumpers from a certain company were selected for analysis. The coating quality data were analyzed by using a Pareto chart, and it was found that particles and orange peel were the main factors affecting the painting quality. The primary causes of particles and orange peel were analyzed from five aspects: personnel, machinery, materials, methods, and environment. Spearman's correlation coefficient was employed for feature extraction and importance analysis, revealing that factors such as the temperature and relative humidity in the paint spray booth(paint spray both temperature, relative humidity in paint spray booth), robot spray flow rate, rotary cup rotation speed, spray distance, spray speed, paint brand, and robot all influenced the bumper's painting quality. By applying the classfication and regression tree (CART) algorithm, it was determined that spray flow rate, temperature and relative humidity in the paint spray booth, robots 2 and 4, and paint brand were the more critical factors affecting the bumper's painting quality. The results indicated that the analysis of painting quality data using the CART classification algorithm could effectively identify fault points, providing valuable insights for improving the quality of bumper painting.

Graphical abstract

关键词

汽车保险杠 / 喷涂质量 / 颗粒 / 桔皮 / 决策树 / 质量控制 / CART算法 / 影响因素

Key words

Automobile bumper / painting quality / particles / orange peel / decision tree / quality control / CART algorithm / influencing factors

引用本文

引用格式 ▾
程诺,王巍. 基于决策树算法的汽车保险杠喷涂质量影响因素[J]. 森林工程, 2025, 41(02): 339-348 DOI:10.7525/j.issn.1006-8023.2025.02.013

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

森林作业是人类获取森林资源的主要手段1,而林业运材车则是作为森林作业的主要运输工具。随着世界各国汽车销售规模的不断扩大以及汽车工业的快速发展,汽车保险杠的需求也得到了很大的提高,这也导致保险杠的市场竞争尤为激烈。由于林业运输车经常在复杂多变的环境中工作,因此保险杠需要具有出色的耐用性和可靠性。例如,在潮湿、多尘或高温的环境中,保险杠的材料和结构需要能够抵抗腐蚀、磨损和变形。从安全性方面,当车辆受到撞击时,保险杠可以作为缓冲装置,对前、后车身及行人进行安全保护;从外观角度,高品质的喷涂能够与车身很好地融合,起到很好的美化效果,因此对保险杠实施高质量的涂装工艺至关重要。而作为保险杠制造商,如何提高生产质量的同时降低生产成本是首要考虑的事。随着保险杠生产工艺的日渐成熟,传统保险杠制造企业加强了信息化建设,使企业信息系统显著增强,生产数据的采集和收集能力也得到提高,将这类数据充分挖掘利用会对企业降低成本起到很大的作用。

在大数据的背景下,以数据驱动的方式解决产品质量问题已是大势所趋。数据驱动旨在从大量的数据中挖掘有价值的信息。数据驱动技术正被广泛地应用在各行各业2。王晓丹等3运用大数据分析方法,通过对潜在的干扰因素进行感知,借助分析建模方法来解决问题,阻止不利问题的产生;Wang等4研究开发了一个基于深度神经网络(deep neural network,DNN)的框架,用于监测风力涡轮机齿轮箱健康状况并识别即将发生的故障,通过比较不同种数据挖掘算法,发现DNN模型最准确。实际应用表明,该方法能有效预测齿轮箱故障,优于基于油温的监测方法。卜晓阳等5在分析C 5.0决策树算法原理的基础上,采用信息熵方法,改进现有的属性选择方式,使信息增益比率的计算速度得到提高,并给出了改进的C 5.0决策树算法,该算法在数据分类方面具有良好的分类性能;Jiang6采用数据挖掘技术,包括聚类、决策树和层次分析法(the analytic hierarchy process,AHP)程序,将市场分为6个部分并通过AHP排名,挖掘高价值家庭旅行者,以优化在线航空公司和旅行社的CRM系统,最终得出了4个分类规则,有助于提高客户价值和增长率。谢鑫等7利用邻域等价关系从而诱导邻域ID3(iterative dichotomiser 3,ID3)算法,提出改进后的算法能更好地连续处理离散化数据,通过实例分析和数据试验证明改进后的ID3算法在连续数据分类时的有效性,且在分类机器学习中优于ID3算法;潘永生等[8]研究了ID3决策树构建方法和决策树剪枝方法,将其用于乳腺病变图像的数据挖掘中,得到具有实用价值的规律,并且具有较高的分类精度,由此表明该方法在医学影像数据挖掘领域有着广泛的应用价值。

运用数据挖掘技术所取得的效果是显而易见的,但从目前的研究现状来看,由于行业数据的高度机密性,以及在采集过程中缺乏统一的规范,导致其在工业生产实际应用中很少被采用。现有资料采集方法的改进,可以有效地把握生产流程中所累积的海量数据。为此,本项目拟采用基于决策树的数据挖掘方法,充分挖掘保险杠喷涂过程中产生的海量数据,并对其进行深度挖掘,从中找出隐含的规律或潜在规则,为林业运输汽车保险杠的质量控制提供参考。

1 某公司林业运输保险杠喷涂现状

1.1 保险杠涂装工艺

本研究对象为某公司林业运输保险杠喷涂情况,保险杠的生产主要有注塑、喷涂、安装三大工艺9。从生产设备和制造工艺上来说,喷涂工艺作为中间流程,由于包含众多细小的工艺点,因此喷涂对汽车的外观有着很大的影响,这一过程也是提高汽车附加值的一个关键环节10。详细的保险杠喷涂工艺流程如图1所示。

1.2 喷涂情况的数据介绍

选择2022年6—8月的喷涂数据,结合人、机、料、法、环5个方面对喷涂情况进行分析,选取喷漆房的温度、喷漆房相对湿度、机器人、喷涂距离、喷涂流量、旋杯转速、喷涂速度、漆的品牌作为特征属性。经过统计,共有样本数据2 500条,结合这些数据构建决策树模型,从而寻找影响保险杠喷涂质量的关键因素。企业根据喷涂结果将合格率划分为A、B、C 3个档次。合格率为95%~100%代表A级;合格率为90%~95%代表B级;合格率为75%~90%代表C级。经统计,得到部分样本数据见表1

经统计发现,生产线共有6条;“喷涂距离”控制在200~400 mm;“喷涂流量”控制在200~500 mL/min;“旋杯转速”控制在2 000~6 000 r/min;“喷涂速度”控制在0.2~0.6 m/s。

1.3 喷涂环节合格率现状

该公司的林业运输汽车保险杠采用机器人喷涂,收集2022年7—12月机器人喷涂各批次保险杠的一次合格率和总合格率数据。数据来源于一车间的实际生产记录,数据的具有真实性和实用性,数据汇总见表2

该公司2022年针对林业运输汽车保险杠的实际生产情况,提出了2022年的产品质量要求:一次合格率不低于80%,总合格率不低于95%。由表2可以看出,2022年7—12月份,林业运输汽车保险杠的一次合格率和总合格率分别是76.4%和93.4%,由此可以看出,该公司林业运输保险杠喷涂合格率均不符合要求。因此,本研究通过对林业运输保险杠喷涂数据结合喷涂情况进行分析,如何有效提高林业运输汽车保险杠的喷涂合格率,符合产品质量要求。

1.4 数据分析

1.4.1 影响因素

帕累托(Pareto)图法是按照各类别数据的频数多少排序(即根据频率降序排列)绘制,并在同一张图中画出累积百分比的一种图表。该图表是将出现的质量问题和质量改进项目按照重要程度依次排列而采用的一种图表。帕累托法能迅速、精确地找出影响产品质量的关键因素,其设计原则是通过把许多影响产品质量的因素按照其对质量的影响程度的大小,用直方图的次序进行排序,找出主导因素11。在帕累托图中,占比在0%~80%的为Ⅰ类主要因素,也是对质量产生影响最大的因素,占比在80%~90%的为Ⅱ类次要因素,占比在90%~100%的为Ⅲ类一般因素。

通过对林业运输汽车保险杠喷涂产品的质量检验,发现在喷涂过程中存在颗粒、桔皮、发花和流挂等问题,将主要问题以及问题数量汇总如图2所示。

图2可见,颗粒占比64.3%,桔皮占比13.0%,颗粒、桔皮累计占比77.3%,在0%~80%,属于Ⅰ类主要因素。由此可见这2个因素是导致林业运输保险杠喷涂合格率不达标的主要影响因素,为此,针对颗粒和桔皮这2个影响因素分析其产生原因。

1.4.2 主要影响因素颗粒和桔皮的原因分析

鱼骨图是一种问题分析与解决工具,通过图形化的方式,将问题的原因或影响因素按类别整理成鱼骨状分支,帮助人们直观识别问题的核心及关联因素,从而更有效地找到解决方案,常用于质量管理、项目管理等领域的问题分析与改进。本研究使用鱼骨图分析法,从5个方面对颗粒、桔皮的品质问题进行剖析,即人员、机器、材料、方法和环境,如图3图4所示。

图3图4可见,林业运输保险杠在喷涂生产的过程中,颗粒和桔皮产生的原因均涉及机器、方法和环境这4个方面的原因,在桔皮产生的原因中不涉及到人员影响。因此,主要从机器、方法、环境、材料4方面来探寻保险杠在喷涂过程中出现质量问题的深层次原因。

1.4.3 影响因素相关性分析

根据鱼骨图的分析,得出影响林业运输汽车保险杠的涂装质量因素主要是机械因素、工艺因素、方法因素和环境因素。因此,从这4个方面中提取喷漆房温度、喷漆房相对湿度、机器人喷涂流量、旋杯转速、喷涂距离、喷漆速度、漆的品牌和机器人 8个影响因素进行相关性分析。

首先用直方图绘制变量分布图,直方图可以用于展示数据集中各个变量值的分布情况和特征,是最常见的变量分布图之一,将一车间的实际生产数据进行汇总,绘制变量直方图如图5图6所示。

分类变量如“机器人”和“漆的品牌”属于分类的字符串,得到变量分布图如图6所示。

图5图6可观察到各因素均不符合正态分布,故采用斯皮尔曼(Spearman)相关系数对各变量进行相关性分析。Spearman相关系数为[-1,1],当取值趋近1时,表示2个变量之间存在较强的正相关关系;当取值逼近-1时,表示2个变量之间存在较强的负相关关系;而值接近0时,则表示相关性很低12。将选取到的因素绘制相关系数矩阵图,如图7所示。

在相关性矩阵图中,颜色越深、数值的绝对值越大代表相关性越强,反之则相关性越弱。由图7可知,各因素之间的相关系数都没有达到0.8以上,不存在具有强相关性的2个因素,所以这些影响因素都可以通过机器学习来建模13

2 决策树分析

2.1 决策树原理

决策树算法的核心在于构造精度高、规模小的决策树14。采用Breiman提出的一种决策树生成算法——CART(classification and regression tree)算法,其基本思路就是将特征变量和目录变量组成的训练样本进行分析并不断循环,并将其分解为二叉树的形式15。基尼系数(Gini Index)是CART算法中的一个关键参数,决定最优检测变量和划分门限的关键。直观来说,基尼指数是从组中选择2组不同类别的样本所得到的结果。样本的基尼值Gini(D)的表达式为

GiniD=k=1yk'kPkPk'=1-k=1yPk2

式中:pk=CkDD为样本的所有数量,Ck 为第k类样本的数量;k是一个索引变量,用于遍历数据集D中所有可能的类别;y表示数据集D中类别的总数。

在CART决策树中,通过计算每个特征的基尼系数,基尼值越小,代表数据集的纯度越高16。选择具有最小基尼系数的特征作为决策树的划分节点。这样可以使得每次划分后的子数据集的纯度最高,从而提高决策树的准确性。若将样本集D按照属性a进行划分,则其计算公式为

Gini_index(D,a)=ε=1vDεDGiniDε

式中:a为属性;D为样本的所有数量;ε是索引变量,用于遍历属性a的所有可能取值;v是属性a的不同取值的个数。

将基尼系数最低的那一组作为分类属性,依次递推地调用其余的属性,直到全部子数据集中的抽样属性都是相同的,或子数据集内已无可分的属性,便可停止决策树的分叉。

2.2 数据预处理

对于分类变量如“机器人”和“漆的品牌”,其取值并不是连续的数字,这种离散型的分类变量不能直接用于模型训练,需要进行独热(One-Hot)编码来转换为模型可用的形式。因此,本研究将原始喷涂情况数据进行处理,见表3

2.3 模型运行

对原始喷涂质量数据进行预处理后,为确保模型有足够数据训练,并能在未见数据上有效评估其泛化性能,同样根据数据集的特性和本研究的实际研究问题的需求进行模型训练,得到最佳的参数组合。将数据的70%划分为训练集,另外的30%作为测试集,利用Python软件,对CART算法进行编码,运行结果如图8所示。

图8中,Sample代表该层下的样本数量;Value表示在当前节点的样本中,分别属于3个类别的样本数量有多少;Gini为基尼值;Class为类别。由决策树图表中提取到的特定规则如下。

1)若机器人喷涂流量小于等于350 mL/min,机器人②小于等于0.5,机器人④小于等于0.5,立邦品牌漆小于等于0.5,那么保险杠的喷涂质量处于等级C。

2)若机器人喷涂流量小于等于350 mL/min,机器人②大于0.5,那么保险杠的喷涂质量处于等级B。

3)若机器人的喷涂流量大于350 mL/min,喷漆房温度小于等于25.5 ℃,机器人②小于等于0.5,机器人④小于等于0.5,那么保险杠的喷涂质量处于等级C。

主要规则在此处列出,其他不再详细叙述。

2.4 模型测评

本研究对训练结果进行测评,得到接收者操作特征曲线(Receiver Operating Characteristic,ROC)曲线图。ROC曲线是在机器学习中二分类问题常用的结果可视化方法,根据预测结果作为可能的判断阈值,其曲线下面积(area under the curve,AUC)作为预测精度的评估指标,取值范围[0,1]。AUC越大,即曲线越靠近左上角,说明模型性能越好17

应用Python运行代码后,得到关于保险杠训练集和测试集数据的ROC曲线,如图9所示。

在训练集上,该决策树模型获得了较为优异的性能。具体而言,模型在训练集上的AUC指标达到0.964 6,在独立的测试集上,模型同样表现出色,测试集上的AUC达到0.961 6,说明模型对训练数据和测试数据的判别能力较强。由此可以看出,该决策树模型在经过严格的训练和测试后,其性能指标全面优异,有着良好的分类精度、稳定性和泛化能力。通过对关键结果指标的多角度考量分析,可以判断该决策树分类模型是高度有效的。

2.5 结果分析

CART算法通过选择基尼系数作为特征标准,递归地对数据进行二元切分。从该决策树可见,选择的特征都是数值型变量,采用数值型的二分割点进行递归划分。本研究构建的决策树模型共有5层,23个节点。

1)机器人喷涂流量作为关键节点,由此可知喷涂流量是影响保险杠质量的关键要素。选定标准为350 mL/min,此时基尼指数为0.661,样本标签分为3类,数量分别为568、682、500。喷涂流量对于等级的影响作用很大,喷涂流量不低于350 mL/min,则能确定等级较好。

2)决策树的第2层节点为喷漆房温度和机器人,说明这两者对等级的决定因素较大。喷漆房温度作为下一重要节点进行划分,此时3类标签数量分为568、103、311。若喷漆房温度小于25.5 ℃,则产品等级会受到影响。因此,应将保险杠喷涂放置在温度在25.5 ℃以上的车间内,则产品会获得更好的等级。由图8可以看出,机器人②和机器人④的生产质量较高,经由机器人②和机器人④得到的产品会获得较高的等级,因此应对其他机器人进行改善以此提高喷涂质量。

3)决策树的第3层节点为漆的品牌和喷漆房相对湿度。由一车间的生产数据可知使用立邦漆得出的保险杠喷涂质量的品质较差,使用立邦喷漆的产品通常不会获得较好的等级。此外,喷漆房的相对湿度也会对产品质量产生影响。根据决策树,相对湿度小于65.5%通常会导致产品等级较低。

综上,根据决策树模型图可以得出,喷涂流量大于350 mL/min、温度大于25.5 ℃、机器人②和机器人④、非立邦品牌的漆、喷漆房相对湿度大于65.5%是对产品质量的主要保障因素,对于在其他环境下进行喷涂的保险杠,应主要从喷涂流量、喷漆房温度、机器人、漆的品牌和喷漆房相对湿度这5方面入手来优化生产安排,从而对保险杠的喷涂质量进行提高。

3 结论

基于CART算法对保险杠喷涂过程中的各项数据进行了分析,研究了林业运输汽车保险杠的喷涂质量控制,得到了以下几个方面的结论。

1)对某公司实际林业运输汽车保险杠合格率进行统计,对喷涂生产过程中出现的故障问题进行统计分析,得出桔皮和颗粒是影响保险杠喷涂质量最大的2个因素。

2)结合人、机、料、法、环5个方面,通过变量相关性分析方法,识别出喷涂流量、旋杯转速、喷涂速度、喷涂距离、喷漆房温度、喷漆房相对湿度、机器人、漆的品牌都会对保险杠喷涂质量造成影响。

3)运用基于CART算法的数据分析方法,将数据挖掘运用到保险杠的喷涂质量控制中,得到了在影响质量的各种要素中,喷涂流量、喷漆房温度、喷漆房相对湿度、机器人和漆的品牌是影响保险杠质量的最关键的4个因素。

4)通过采用大数据挖掘方法对各方面影响保险杠喷涂质量的因素进行程度分析,揭示了各种质量数据之间的内在联系,为实现保险杠喷涂质量的有效控制奠定基础。

研究表明本研究所采用的CART算法具有一定的可行性和准确性,能够对公司进行保险杠喷涂的质量数据做出判别,可以运用在质量数据分析方面,在研究过程中发现CART算法还可以和其他机器算法相结合以提高模型精度,下一步将优化算法,扩大算法的使用范围,为企业生产质量控制提供有力的技术支持。

参考文献

[1]

张子成,王超,梁刚,在原油中老化的螺杆泵定子氢化丁腈橡胶胶料的性能变化研究[J].橡胶工业202471(2):95-100.

[2]

ZHANG Z CWANG CLIANG G,et al.Study on variations of properties of HNBR compounds for stator of screw pump aged in crude oil[J].China Rubber Industry202471(2):95-100.

[3]

覃荣艳.软件工程中应用数据挖掘技术的方法研究[J].网络安全技术与应用2023(12):54-55.

[4]

TAN R Y.A methodological study on the application of data mining techniques in software engineering[J].Network Security Technology & Application2023(12):54-55.

[5]

王晓丹,汪惠芬,柳林燕.数据驱动下汽车注塑零部件的质量控制研究[J].内燃机与配件2021(14):173-176.

[6]

WANG X DWANG H FLIU L Y.Data-driven quality control research for automobile injection products[J].Internal Combustion Engine & Parts2021(14):173-176.

[7]

WANG LZHANG ZLONG H,et al.Wind turbine gearbox failure identification with deep neural networks[J].IEEE Transactions on Industrial Informatics201713(3):1360-1368.

[8]

卜晓阳,蔡岩,王宗伟,基于C5.0决策树算法的电力营销数据挖掘[J].微型电脑应用202238(1):23-26.

[9]

BU X YCAI YWANG Z W,et al.Electric power marketing data mining based on C5.0 decision tree algorithm[J].Microcomputer Applications202238(1):23-26.

[10]

JIANG W Y.Applying data mining with a new model on customer relationship management systems: a case of airline industry in Taiwan[J].Transportation Letters20146(2):89-97.

[11]

谢鑫,张贤勇,杨霁琳.邻域等价关系诱导的改进ID3决策树算法[J].计算机应用研究202239(1):102-105,112.

[12]

XIE XZHANG X YYANG J L.Improved ID3 decision tree algorithm induced by neighborhood equivalence relation[J].Application Research of Computers202239(1):102-105,112.

[13]

潘永生,庄天戈.决策树算法及其在乳腺疾病图像数据挖掘中的应用[J].计算机应用研究200219(9):78-79,145.

[14]

PAN Y SZHUANG T G.Decision tree and its application in the data mining of breast disease images[J].Application Research of Computers200219(9):78-79,145.

[15]

周康渠,肖燕,龚立雄,汽车精益生产物流设计与管理[M].北京:机械工业出版社,2012.

[16]

ZHOU K QXIAO YGONG L X,et al.Automotive lean manufacturing logistics design and management[M].Beijing: China Machine Press,2012.

[17]

张明.乘用车塑料涂装保险杠的涂装成本研究[D].上海:上海交通大学,2010.

[18]

ZHANG M.Study on the painting cost of plastic bumper of passenger car[D].Shanghai: Shanghai Jiao Tong University,2010.

[19]

马杰.中国轿车企业生产过程中的品质管理策略研究[J].经济研究导刊2018(26):22-40.

[20]

MA J.Research on quality management strategies in the production process of Chinese car enterprises[J].Economic Research Guide2018(26):22-40.

[21]

吴娟,朱跃龙,金松,三种机器学习模型在太湖藻华面积预测中的应用[J].河海大学学报(自然科学版)202048(6):542-551.

[22]

WU JZHU Y LJIN S,et al.Area prediction of cyanobacterial blooms based on three machine learning methods in Taihu Lake[J].Journal of Hohai University(Natural Sciences)202048(6):542-551.

[23]

侯霖莉,吴松,易建洲,基于机器学习的绿泥石微量元素判别矿床类型[J].地球科学2024,1-24.

[24]

HOU L LWU SYI J Z,et al.Discriminating deposit types using chlorite trace elements based on machine learning[J].Earth Science2024: 1-24.

[25]

BREIMAN L IFRIEDMAN J HOLSHEN R A,et al.Classification and Regression Trees(Wadsworth Statistics/Probability)[J].Biometrics198440(3):358.

[26]

董红瑶,王弈丹,李丽红.随机森林优化算法综述[J].信息与电脑202133(17):34-37.

[27]

DONG H YWANG Y DLI L H.A review of random forest optimization algorithms[J].Information & Computer202133(17):34-37.

[28]

杜春蕾,张雪英,李凤莲.改进的CART算法在煤层底板突水预测中的应用[J].工矿自动化201440(12):52-56.

[29]

DU C LZHANG X YLI F L.Application of improved CART algorithm in prediction of water inrush from coal seam floor[J].Journal of Mine Automation201440(12):52-56.

[30]

荣楚君,曹晓光,白相志.Facet方向导数特征与稀疏表示相结合的红外弱小目标检测算法[J].中国图象图形学报201823(11):1768-1776.

[31]

RONG C JCAO X GBAI X Z.Infrared small target detection algorithm based on derivative characteristics of Facet combined with sparse presentation[J].Journal of Image and Graphics201823(11):1768-1776.

基金资助

黑龙江省自然科学基金(LC201407)

AI Summary AI Mindmap
PDF (3488KB)

325

访问

0

被引

详细

导航
相关文章

AI思维导图

/