基于自选择架构网络的交通标志分类算法

文斌 ,  丁弈夫 ,  杨超 ,  沈艳军 ,  李辉

吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (05) : 1705 -1713.

PDF (1992KB)
吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (05) : 1705 -1713. DOI: 10.13229/j.cnki.jdxbgxb.20230812
计算机科学与技术

基于自选择架构网络的交通标志分类算法

作者信息 +

Self-selected architecture network for traffic sign classification

Author information +
文章历史 +
PDF (2039K)

摘要

自动驾驶技术的实现需要对交通标识进行高精度的识别,但由于交通标识的相似度高、尺寸小且易受户外环境影响,实时精准检测变得具有挑战性。针对传统神经网络设计方式效率低下的问题,本文提出了自选择架构算法,可以自动调整网络结构以提高模型的性能和效率。该算法采用两阶段训练实现网络节点最优路径选择,同时对多损失函数权重超参数使用梯度传播进行训练,使用动态损失网络方案替代传统人工调参。实验结果表明,该算法在GTSRB数据集中实现了95.74%的准确率和146.58帧/s的检测速度,且模型参数量仅为0.46 Mb,可部署于移动设备。与传统手动设计静态网络相比,采用自学习架构模块可以降低实验成本,提高精度和性能,在不同环境下更容易实现更好的检测效果,其损失收敛速度也获得明显提升。

Abstract

The implementation of autonomous driving technology required high-precision recognition of traffic signs. However, due to their high similarity, small size, and vulnerability to outdoor environmental factors, achieving real-time and accurate detection posed significant challenges. In response to the limitations of traditional neural network design approaches, an algorithm based on self-selecting architecture was proposed to automatically adjust the network structure, thereby enhancing model performance and efficiency. The algorithm adopted a two-stage training approach to optimize the selection of network paths. Moreover, gradient propagation was employed to train the hyperparameters for multiple loss functions, replacing the conventional manual tuning with a dynamic loss network scheme. The results demonstrated that the proposed algorithm achieved an accuracy rate of 95.74% and a detection speed of 146.58 frames per second on the GTSRB dataset, while maintaining a model parameter size of only 0.46Mb, enabling deployment on mobile devices. Compared to the traditional manual design of static networks, the adoption of the self-learning architecture module not only reduced experimental costs but also improved accuracy and performance. Furthermore, it enabled superior detection outcomes in various environments and exhibited a noticeable enhancement in loss convergence speed.

Graphical abstract

关键词

交通标识图像分类 / 深度学习 / 自选择架构 / 最优网络路径 / 动态损失网络

Key words

traffic sign classification / deep learning / self-selecting architecture / optimal network path / dynamic loss network

引用本文

引用格式 ▾
文斌,丁弈夫,杨超,沈艳军,李辉. 基于自选择架构网络的交通标志分类算法[J]. 吉林大学学报(工学版), 2025, 55(05): 1705-1713 DOI:10.13229/j.cnki.jdxbgxb.20230812

登录浏览全文

4963

注册一个新账户 忘记密码

0 引 言

交通标志检测任务主要包括定位和分类。在自然环境下,交通标志识别受到多种客观因素的影响,如天气、光照、背景、遮挡、形变和角度等。这些因素极大地降低了交通标志识别的准确率。目前常用的目标检测算法12在小目标类别的分辨上存在较大误差,使得分类结果不够精准,通常只能将标志分为禁止、警告、指示等大类,难以实现精细分类。此外,考虑到驾驶环境的实时性,当前分类算法的检测精度与速度都面临着巨大挑战3。因此,需要开发更加高效和准确的算法,以提高交通标志识别的实时性和准确性。

传统图像处理算法通常使用特征提取算法和模板匹配算法45等进行交通标志分类。这些算法往往需要依赖人工经验设置特征参数,难以完全适应不同交通标志的形状和尺寸变化,导致一些尺寸小或形状不规则的交通标志无法被有效检测67。同时,这些算法的性能容易受到光照、雾霾等天气因素的影响,检测准确率效低8

传统机器学习算法通过训练分类器对交通标志进行分类,其中决策树和支持向量机等算法9被广泛应用。这些算法能通过对训练样本的建模实现自动分类,虽然具有较高准确度,但训练难度大、检测速度慢,已逐渐被卷积神经网络取代。

最早的卷积神经网络模型LeNet-510由Lecun等10提出,采用卷积层和池化层进行特征提取,并通过全连接层实现分类;Simonyan等10提出了VGGNet11模型,其采用多个卷积层来提取图像特征,并通过多个全连接层进行分类,He等12提出。深度残差网络ResNet,通过引入残差连接,有效解决了深层卷积神经网络训练过程中出现的梯度消失问题,使得网络深度可以达到数十甚至上百层。此后,各类改进卷积算法(如深度可分离卷积13、空洞卷积14)、损失函数15、归一化算法等被众多学者提出,在图像分类、目标检测等领域被广泛应用。除传统的卷积神经网络外,2021年提出的Swin Transformer16将自注意力机制引入图像分类任务中,通过细粒度分区机制和局部窗口交换机制,进一步提高了分类准确率和计算效率。然而,神经网络模型的构建过程依赖于经验和专业知识,存在难度大且对不同检测对象普适性差的问题。

基于自动架构搜索的深度学习算法通过自动搜索网络架构,可以搭建出对数据集进行分类预测的最优模型。Real等17提出一种基于强化学习的自动架构搜索算法AutoML-Zero,该算法采用完全自动化的方式优化算法,通过基因编码、交叉和变异等操作搜索网络结构。这种算法具有搜索空间广、性能优化、可拓展应用等多方面优势,但也存在计算耗时较长、训练设备要求高的问题。Liu等18提出的DARTS是一种基于梯度的自动架构搜索算法,其模型参数与网络结构权重独立使用训练集和验证集进行损失梯度反向传播得到,但对数据集质量要求较高且实现复杂度大。

由此,本文提出了一种基于自选择架构算法的神经网络设计方法。首先,对输入图像进行预处理与归一化;然后,使用多层普通卷积下采样和自选择架构重采样,训练出最适合数据环境的特征提取路径网络,并将融合特征输入全连接网络;最后,利用Softmax分类器完成对交通标志的识别。此外,设计动态损失网络HybridLoss对多损失函数进行实时加权调整,从而确保分类网络最优路径权重学习效果。该方法实现了主分类网络的自动化构建,以及多损失函数进行损失值计算时的权重调参自动化。

1 本文算法

本文交通标志分类算法的神经网络结构如图1所示,由特征提取、池化特征融合和分类器3个模块组成。特征提取模块使用普通卷积下采样快速降低图像参数量,不同于传统根据多次实验设置的固定结构重采样层,本文使用自选择架构算法自动选择合适的结构进行特征重采样处理。随后通过池化操作将三维特征层转换为通道维度的一维特征向量,使用三层全连接层完成分类输出。

重采样可以在不改变特征分辨率的前提下,对像素点进行区域性采样以获得局部关联语义信息。重采样层作为特征提取网络的核心模块,是特征网络层数最多的部分。以不同尺寸重采样层为单元,使用自选择架构算法进行网络结构搜索,既能达到构建最优性能网络的目的,又能减少因全局搜索需要的大参数量与长训练时间。

1.1 自选择架构重采样

在每个自选择架构模块中预先设定多个节点,相邻节点间由4条路径连接。在训练第一阶段,第k个节点的输入由第k-1节点的4条路径进行加权相加得到;在训练第二阶段则由权重最大的路径直接进行正向传播。训练过程如图2所示,其中c1~c4分别为4条候选路径的权重值。

1.1.1 路径算法选择

节点间网络结构如图3所示,由4种常用卷积结构构成4条正向传播路径,其中路径一、二采用卷积核为(3,5)的深度可分离卷积,路径三、四采用卷积核为(3,5)、膨胀系数为2的空洞卷积。在每个模块计算完毕后使用随机失活层随机丢弃50%的输出参数,使神经网络学习更加鲁棒和泛化。

深度可分离卷积和空洞卷积是深度卷积神经网络中2种典型的卷积算法,各自具有独特的优势。深度可分离卷积将标准卷积操作分解为深度卷积和逐点卷积操作,有效减少了参数量。同时,通过单独应用卷积核,模型可以更清晰地理解每个输入通道对特征的贡献,从而提高对不同特征的识别能力,增强了模型的鲁棒性和泛化能力。

空洞卷积通过增加卷积的膨胀系数,在保持同等参数量的前提下扩大感受野,从而更好地提取图像的全局语义信息并保留局部细节。在设计深度学习模型时,需要依据具体场景和任务需求选择合适的网络结构。

相较于依赖经验和专业知识的人工构建网络,自选择架构模块能更好地适应不同环境下的需求,提升模型的实际应用效果。

1.1.2 路径深度构建

在卷积神经网络中,感受野是一个非常重要的概念,表示神经元对输入图像的响应区域大小。直接使用多深度同尺寸卷积核模块作为候选会导致网络更倾向于选择网络深度最大的路径,这是因为深层网络可以使用多层权值趋近于0的无效网络层维持与浅层网络相当的计算量和精度,即1+0=1。因此,直接使用不同深度卷积网络作为候选输出无法真正选出具有最佳效率的路径。

针对该问题,本文对同一类型卷积算法分别使用(3,5)卷积核作为候选路径。由于5×5卷积核的感受野与2个3×3串联卷积核所达到的感受野相同,因此,路径二和路径四实际上可以被视为拥有2倍网络深度的路径一和路径三。这使得模型能自适应地选择最优网络深度,达到更好的性能表现。

由此,本文的自学习架构模块同时实现了重采样层的网络结构和实际网络深度自适应选择,提高了网络性能和效率。

1.2 两阶段训练

为获得最优网络结构,本文算法采用两阶段训练策略,流程如图4所示。第一阶段使用多路径加权融合方式同时训练所有候选路径,得到最优路径所在索引;第二阶段使用所有节点最优路径重新构建最优网络,训练并得到最优性能与最优效率。

为提升训练效率,在第一阶段训练中使用单一损失函数FocalLoss对网络路径进行训练;在第二阶段中使用多损失网络对已构建最优路径网络进行深层次训练,提升分类网络性能。

1.3 损失函数

在图像分类任务中,使用单一的损失函数只能捕捉到图像分类任务的某一方面特征或统计属性,无法充分利用图像中的丰富信息。为此,研究人员提出使用多个损失函数来设计图像分类模型的方法。

然而,多损失函数的权重设计是一个难题,因其具有不同的量纲和取值范围。在权重设计时,需要考虑不同损失函数之间的关联性、重要性以及对分类性能的贡献。此外,在训练过程中还需要动态调整权重,以迭代地优化模型的性能。由此本文使用可学习超参数建立损失神经网络,自动对多损失函数进行加权。

损失网络训练过程如图5所示,与传统的根据训练中损失和精度变化进行人工调参的方式不同,本文通过设计一组权重的超参数构建一个简易神经网络。

步骤1 在每次训练迭代时,按式(1)计算混合损失作为分类网络的训练损失;

步骤2 在每次训练迭代后,随机取出一个批次的验证集图片进行预测,将预测结果和真实标签作为损失网络输入;

步骤3 使用交叉熵函数计算验证集分类损失;

步骤4 使用验证集分类损失对损失网络中各损失权重超参数λ1λ2λ3λ4进行反向传播,更新权值并保存。

损失网络训练设置与分类网络保持一致。学习率降为分类网络的1/100,使损失网络变化幅度滞后于分类网络。降低损失值波动,从而减少分类网络梯度爆炸或消失的概率,保障主分类网络训练效果。

LHybridLoss=λ1L1+λ2L2+λ3L3+λ4L4+λnorm
λnorm=αλ12+λ22+λ32+λ42

式中:λ1λ2λ3λ4分别为各损失函数的权重超参数;L1为CrossEntropyLoss损失函数,按式(3)计算;L2为FocalLoss损失函数,按式(4)计算;L3为SoftmaxLoss损失函数,按式(5)计算;L4为LabelSmoothedCrossEntropyLoss损失函数,按式(6)计算;λnorm为各权重超参数的正则化,其中α为正则化系数,引入λnorm可以惩罚大的权重值,避免模型过多关注前期收敛快的损失。

LCrossEntropyLoss=-logpt

式中:pt 表示预测为正确类别的概率。

CrossEntropyLoss直接衡量了模型预测结果和真实标签之间的差异。

LFocalLoss=-at(1-pt)γlogpt

式中:αt 为类别权重,反映某一类别的重要性;γ调整了难易样本的权重,当γ=0时,FocalLoss为标准的交叉熵损失;当γ>0时,容易被正确分类的样本被赋予小的权重,而容易被错误分类的样本会被赋予更高的权重。

这样,FocalLoss可以更加关注识别困难的样本(如数量较少的类别),进而提升模型的分类性能。

LSoftmaxLoss=1ni=1n-logpt

式中:n为标签类别数量。

SoftmaxLoss考虑了类别之间的相互关系,将预测结果转化为概率分布,能够更加准确地评估模型对不同类别的预测置信度。

LLabelSmoothedCrossEntropyLoss=-1-εlogpt+1nε

式中:ε为平滑因子,介于0~1,用于控制标签平滑的强度,本质上是一种正则化技术。Label SmoothedCorossEntropyLoss可以减少因预测概率过于追求完全匹配真实标签的分布导致的模型过拟合。

2 训练策略

2.1 实验环境

实验硬件环境为AMD Ryzen5 2600XCPU @ 3.60 GHz, NVIDIA GeForce RTX 3080。设置模型输入分辨率为32×32,批样本数量为64,训练轮次为155轮,采用余弦退火衰减策略调整训练过程中的学习率。使用SGD优化器,初始学习率设置为0.01,初始周期为5,每次周期长度变为上个周期的2倍,即每次学习衰减周期为5、10、20、40、80,最终在第155轮衰减至0。

2.2 数据集

本文使用GTSRB(German traffic sign recognition benchmark)数据集进行验证。该数据集是德国交通标志识别基准数据集,包含43种不同类型的交通标志,包括限速、禁止通行、注意安全等常见的交通标志类型,其类别可视化如图6所示,共有39 209张训练图像和12 630张测试图像。图片分辨率在15~250像素不等,各类别数量在200~2 000不等(图7),属于样本不均匀数据集。

在训练前需要将图片预处理为32×32分辨率,同时使用数据增强算法对训练数据进行不同的变换以增加样本数量。

数据增强包含了一系列针对图像数据的变换操作,包括缩放、旋转、颜色调整、翻转等,有助于提升数据的多样性,增强模型的泛化能力。

2.3 评价指标

使用准确率(Accuracy)作为分类精度的评价指标,使用每秒帧数(Frames per second,FPS)和模型参数量(Parameters)作为模型检测速度评价指标,并使用批显存占用和批训练时间作为训练设备需求的评价指标。

图像分类算法的准确率通常以正确分类的图像数量占总图像数量的比例来表示,即:

Accuracy=TPTP+FP×100%

式中:TP为正确分类的样本数量,FP为错误分类的样本数量。

每秒帧数的计算公式为:

FPS=FnT

式中:Fn为测试图片总数;T为测试总耗时。

图片推理耗时包括图片预处理、网络正向推理与分类的时间。

3 实验分析

3.1 训练第一、二阶段

本文网络旨在同步优化网络路径和分类精度。然而,传统学习率衰减策略易导致网络路径更新陷入局部最优。为此,采用余弦退火衰减策略,使学习率如图8(a)所示在初始值和零之间周期性波动,从而更易获得全局最优路径和精度。

如图8(b)(c)所示,在两阶段训练中,随着学习率的变化周期逐渐拉长,网络在训练初期呈现出阶段性准确率提升,而到后期则呈平稳上升。此外,在第二阶段采用权重最大路径进行正向传播可以达到多路径融合的精度,验证了自选择架构算法的有效性。

在第一阶段训练中,各层网络权重最大值路径训练过程图9所示。

在训练前,为保持路径梯度更新,设定各层网络初始权重为0~1的随机数乘以0.001,即网络初始路径完全随机。如图9所示,随着重采样层输入尺寸减小,训练路径从大感受野路径转为小感受野,这与网络架构设计实际经验与理论相符。

3.2 路径选择算法消融实验

本实验对比了所有节点使用同一路径网络、加权路径及自选择架构模块训练的最优路径网络在同一实验环境下的检测及训练结果,如表1所示。

实验结果表明,单一路径网络的最高准确率为93.17%,最低为86.68%。然而,为了得到这一精度,需要进行多次调参和网络训练,且实际网络结构设计需要测试更多候选路径组合,从而增加了实验成本,而训练结果也无法保证。

相比之下,自学习架构模块训练的最优路径,在准确率方面达到94.66%,高于本文其他单路径网络,同时训练与部署成本较低可以满足实时检测的需求。加权路径融合了所有候选路径的特征提取结果,达到了实验最高准确率95.19%和最低每秒帧数48.15帧,而使用最优路径能够基本达到其检测精度,验证了算法的有效性。因此,相较于单一路径网络,自学习架构模块能够减少实验成本,提高精度和性能,也更有可能适用于不同的环境和任务。相较于多路径复杂网络,更能满足轻量化部署和实时检测的需求。

3.3 损失函数消融实验

本文设计的损失函数自动加权模型融合了多种损失函数。如表2所示,本文设计损失网络取得最高准确率,由于准确率整体较高,相对单损失函数SoftmaxLoss的最高准确率仅提升0.06百分点,效果并不明显。但由图10可知,本文损失网络HybridLoss损失收敛速度与精度提升速度均是最佳,这意味着使用HybridLoss可以在更少的迭代次数中达到训练目标。

3.4 对比实验

表3所示,本实验对比了近年部分优秀深度学习分类网络1619-24及自选择架构模块训练的最优路径在同一实验环境下的检测及训练结果,其准确率与每秒帧数指标可视化对比如图11所示。

经过实验,本文算法在GTSRB数据集中的训练和检测表现出色,在同类算法对比实验中具有最高的准确率(95.74%)与最快的检测速度(146.56帧/s),对各类别交通标识均能进行精准分辨(图12)。这并非表明本文的特征提取和分类能力高于其他网络,而是说明本文算法在该数据集上更为适用。一个固定的网络结构并不适用于所有场景,而一个自学习、自选择结构的网络更容易在不同环境下达到更好的检测效果。

4 结束语

本文提出的基于卷积神经网络的交通标志识别算法采用自选择架构模块,通过自适应重采样提取特征,能够在特征提取、特征融合和分类器3个模块的有机结合中,高效准确地识别交通标志。通过使用自选择架构模块自动使用深度可分离卷积等优秀的卷积神经网络算法构建特征提取网络、余弦退火衰减策略等训练策略,模型在训练准确率方面达到了95.74%,高于其他单路径网络和目标主流分类算法。本算法在GTSRB数据集中的训练和检测表现出色,在同类算法中拥有最快的检测速度(146.56帧/s),可在不同的交通环境下适用,具有较强的鲁棒性和泛化性能。该算法还可在其他领域中得到应用。

参考文献

[1]

Babi D, Babi D, Fioli M, et al.Analysis of market-ready traffic sign recognition systems in cars: a test field study[J].Energies, 2021, 14: 14123697.

[2]

冯润泽, 江昆, 于伟光, 基于两阶段分类算法的中国交通标志牌识别 [J]. 汽车工程, 2022, 44(3): 434-441.

[3]

Feng Run-ze, Jiang Kun, Yu Wei-guang, et al. Chinese traffic sign recognition based on two-stage classification algorithm[J]. Automotive Engineering, 2022, 44(3): 434-441.

[4]

Wang M, Liu R, Yang J, et al.Traffic sign three-dimensional reconstruction based on point clouds and panoramic images[J].Photogrammetric Record, 2022, 37(177): 87-110.

[5]

Shen L, You L, Peng B, et al.Group multi-scale attention pyramid network for traffic sign detection[J].Neuro Computing, 2021, 452(6): 1-14.

[6]

Liu Y, Peng J, Xue J H, et al. TSingNet: scale-aware and context-rich feature learning for traffic sign detection and recognition in the wild[J].Neurocomputing, 2021, 447(4): 10-22.

[7]

Vashisht M, Kumar B. Effective implementation of machine learning algorithms using 3D colour texture feature for traffic sign detection for smart cities[J]. Expert Systems, 2021, 39(5): e12781.

[8]

Wan H, Gao L, Su M, et al. A novel neural network model for traffic sign detection and recognition under extreme conditions[J]. Journal of Sensors, 2021, 7: 9984787.

[9]

Yu L, Xia X, Zhou K. Traffic sign detection based on visual co-saliency in complex scenes [J]. Applied Intelligence, 2019, 49(2): 764-790.

[10]

Coţovanu D, Zet C, Foşalău C, et al. Detection of traffic signs based on support vector machine classification using HOG features[C]∥Proceedings of the 2018 International Conference and Exposition on Electrical And Power Engineering, Iasi, Romania, 2018: 8559784.

[11]

Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[12]

Simonyan K, Zisserman A.Very deep convolutional networks for large-scale image recognition [J/OL].(2015-04-10)[2023-07-30].

[13]

He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]∥Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 7780459.

[14]

Chollet F. Xception: deep learning with depthwise separable convolutions[C]∥Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 8099678.

[15]

Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions[J/OL].(2016-04-30)[2023-07-30].

[16]

Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]∥Proceedings of the 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 8237586.

[17]

Liu Z, Lin Y, Cao Y, et al. Swin transformer: hierarchical vision transformer using shifted windows[C]∥Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 10012-10022.

[18]

Real E, Liang C, So D R, et al. AutoML-Zero: evolving machine learning algorithms from scratch[C]∥Proceedings of the International Conference on Machine Learning, Vienna, Austria, 2020: 8007-8019.

[19]

Liu H, Simonyan K, Yang Y. DARTS: differentiable architecture search[J/OL].(2019-04-23)[2023-07-30].

[20]

Gao S H, Cheng M M, Zhao K, et al. Res2Net: A new multi-scale backbone architecture[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(2): 652-662.

[21]

Liu Z, Mao H, Wu C Y, et al. A convnet for the 2020s[C]∥Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 9879745.

[22]

Pham H, Guan M Y, Zoph B, et al.Efficient neural architecture search via parameter sharing [J/OL].(2018-02-12)[2023-07-30].

[23]

Tang Y, Han K, Guo J, et al. GhostNetV2: enhance cheap operation with long-range attention [J/OL].(2022-11-23)[2023-07-30].

[24]

Rao Y, Zhao W, Tang Y, et al.HorNet: efficient high-order spatial interactions with recursive gated convolutions [J/OL].(2022-10-11)[2023-07-30].

[25]

Chen J, Kao S H, He H, et al. Run, don't walk: chasing higher flops for faster neural networks [J/OL].(2023-05-21)[2023-07-30].

基金资助

国家自然科学基金项目(62273200)

国家自然科学基金项目(61876097)

湖北省输电线路工程技术研究中心研究基金项目(2022KXL03)

湖北省自然科学基金联合基金项目(2024AFD409)

AI Summary AI Mindmap
PDF (1992KB)

149

访问

0

被引

详细

导航
相关文章

AI思维导图

/