基于改进对抗擦除的食品图像识别方法

李艳灵 ,  梁庆琪 ,  李佳漫 ,  赵添宇 ,  杨志鹏

信阳师范大学学报(自然科学版) ›› 2025, Vol. 38 ›› Issue (04) : 408 -413.

PDF (1672KB)
信阳师范大学学报(自然科学版) ›› 2025, Vol. 38 ›› Issue (04) : 408 -413. DOI: 10.3969/j.issn.2097-583X.2025.04.005
计算机算法与应用

基于改进对抗擦除的食品图像识别方法

作者信息 +

Food image recognition based on improved adversarial erasing

Author information +
文章历史 +
PDF (1711K)

摘要

提出一种基于改进对抗擦除技术的食品识别方法,渐进式获取判别性区域。该方法通过Otsu算法和形态学操作获得判别性区域,降低噪声干扰。为验证所提食品识别方法的有效性,在Sushi⁃50、 ETH Food⁃101和Vireo⁃172数据集上,与其他文献的方法进行对比。实验结果表明,所提方法更有效地降低食品图像复杂背景的干扰,提升食品识别性能。在ETH Food⁃101数据集上,相较于ResNet⁃50,该方法在Top⁃1和Top⁃5准确率上分别提升2.6和0.8个百分点。

Abstract

A food recognition method was proposed based on the improved adversarial erasing technique that incrementally obtain discriminative regions. The method could identify each discriminative region using Otsu algorithm and morphological operations, thereby reducing noise interference. To validate the effectiveness of the proposed food recognition method, the comparative experiments were conducted on the Sushi-50, ETH Food-101 and Vireo-172 datasets with the methods presented in other literatures. The experimental results demonstrated that the proposed method can effectively mitigate interference from complex backgrounds in food images, thereby enhancing food recognition performance. Compared to ResNet-50, the method improved the Top-1 and Top-5 accuracy on the ETH Food-101 dataset by 2.6 and 0.8 percentage point, respectively.

Graphical abstract

关键词

卷积神经网络 / 复杂背景 / 对抗擦除 / Otsu算法

Key words

convolutional neural network / complex backgrounds / adversarial erasing / Otsu algorithm

引用本文

引用格式 ▾
李艳灵,梁庆琪,李佳漫,赵添宇,杨志鹏. 基于改进对抗擦除的食品图像识别方法[J]. 信阳师范大学学报(自然科学版), 2025, 38(04): 408-413 DOI:10.3969/j.issn.2097-583X.2025.04.005

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

食品不仅是人类生存的基本需求,也是文化、价值观和生活方式的重要组成部分1,在促进健康和预防疾病方面起着关键作用。随着肥胖问题日益严重,糖尿病和心血管疾病等多种慢性病的风险上升,科学的饮食结构愈发重要2。近年来,研究者针对食品类别和成分的识别展开相关研究。食品识别作为众多健康应用的重要环节,特别是在食品日志3和健康导向的食品推荐4中,发挥着不可或缺的作用。同时,食品识别作为细粒度视觉分类的重要分支,具有重要的研究意义。

与通用物体识别类似,食品识别的关键在于提取判别性视觉特征。早期的食品识别技术主要依赖人工提取的特征。例如,ZHU等5提取并融合颜色和纹理特征,实现食品图像识别。随着计算机视觉技术的发展,基于卷积神经网络(convolutional neural network, CNN)的方法逐渐成为食品图像识别的主流6。现有的食品识别方法大多使用CNN技术从食品图像中直接提取卷积特征进行识别。TANNO等7采用深度CNN提取视觉特征进行食品识别。文献[8]也通过微调Inception V3网络模型进行识别。但这些方法未能充分考虑图像背景的复杂性,识别性能仍有待提升。

近年来,一些研究者致力于设计面向食品图像识别任务的网络模型。例如,文献[9]提出一种新的网络框架,采用弱监督学习方法充分挖掘食品图像中的显著性区域,进行食品图像识别。文献[10]提出一种区域增强网络用于食品识别,该网络由渐进的局部特征学习和区域特征增强两个模块组成。前者通过改进的渐进式训练策略学习多样化且互补的局部特征,后者利用注意力机制将局部特征与上下文信息结合,进一步提升食品识别的效果。

食品图像包含大量的背景元素,如其他物体或多样图案,这些元素易引入视觉噪声,干扰目标识别的性能。针对此问题,本文提出一种基于改进对抗擦除的食品图像识别方法。该方法采用新型网络框架OER⁃Net,能够学习全局特征和互补的局部特征,从而提高食品识别的准确性。

OER⁃Net由4部分组成: 1)原始图像分类网络(original image classification network, O⁃Net),负责对原始图像进行分类,获得全局表示; 2)擦除图像分类网络(erased image classification network,E⁃Net),对擦除图像进行分类,并通过大津法(Otsu算法)11和形态学操作获得判别性区域; 3)区域分类网络(region classification network,R‑Net),负责对所有的判别性区域进行分类,从而获得互补的局部表示; 4)额外的全连接层将原始图像与挖掘区域的表示进行拼接,形成稳健且全面的表示,进行最终预测。选取PARNet9和ResNet12模型与所提模型OER⁃Net进行对比实验。结果表明本文方法更有效地消除食品图像复杂背景干扰,提升识别性能。

本文的贡献有以下两个方面:

(1) 提出一种基于改进对抗擦除的食品图像识别方法,该方法采用一种新型网络框架OER⁃Net,渐进式获取判别性区域。通过大津法(Otsu算法)减少复杂背景对目标食品识别的干扰,并通过形态学操作进一步降低噪声干扰。

(2) 在3个食品数据集Sushi‑509、ETH Food‑10113和Vireo Food‑17214上评估所提出方法,与PAR⁃Net和ResNet模型相比,本文所提方法在3个数据集上取得了最优的识别性能。

1 基于改进对抗擦除的食品识别

对抗擦除技术从一个小目标区域开始,通过对已挖掘区域进行对抗擦除,促使分类网络逐步发现新的互补目标区域,逐步定位并扩展目标区域。该方法可以有效获得判别性区域,降低复杂背景对食品识别的干扰。基于此,本文提出一种改进对抗擦除技术的食品识别方法,逐步挖掘判别性区域,采用ORE⁃Net网络框架进行食品识别。

1.1 判别性区域生成模块

通过应用大津法(Otsu算法),形态学操作和连通性标记方法,自适应获取判别性区域。生成判别性区域的过程如下:

首先,生成类激活图(class activation map,CAM)。CAM是一种可视化技术,用于突出显示分类网络识别目标的区域,由CNN的最后一个卷积层生成,将一幅训练图像输入模型,经过全局平均池化层(Global Average Pooling,GAP),获得特征向量,并将其连接至模型的输出层,生成CAM。计算公式如下:

CAM(O,c)=k=1Nwk,c·Fk,

式中:c表示图像O的目标类别;FkRH×W表示第k个特征图,总数为N;wk,c表示全连接层的权重。

然后,对生成的CAM进行上采样处理获得热力图,采用大津法(Otsu算法)进行自适应分割。大津法(Otsu算法)的具体分割过程和对应的计算公式为:

1) 根据每个灰度级的频率P(i)计算前景权重W1(T)和背景权重W2(T),其中:

W1(T)=i=0TP(i),
W2(T)=1-W1(T)

2) 计算前景均值μ1(T)、背景均值μ2(T)和类间方差σB2(T)

μ1(T)=i=0T(iP(i))/W1(T),
μ2(T)=i=T+1L-1(iP(i))/W2(T),
σB2(T)=W1(T)W2(T)(μ1(T)-μ2(T))2

3) 计算最大类间方差对应的最佳阈值T*

T*=argmaxσB2(T),

式中:i表示灰度级,T表示当前阈值,L表示灰度级的总数。

接着,为去除食品图像中包含的微小噪声,采用形态学操作,使用结构元素对图像进行腐蚀以去除微小的突出部分,然后进行膨胀操作以恢复原始物体的大小,确保食品轮廓完整。此过程不仅有效地平滑图像噪声,还保持了食品的主要特征。

最后,使用连通域标记技术,计算各连通区域的像素强度之和,将识别强度最大的区域作为判别区域。

1.2 OER⁃Net整体结构

OER⁃Net网络结构如图1所示。OER⁃Net由4个部分组成:1) O⁃Net网络对原始图像进行分类获得全局表示,然后通过判别性区域模块获得首个判别区域;2) E⁃Net对擦除图像进行分类,并通过判别性区域生成模块逐步挖掘判别性区域;3) R⁃Net则对判别性区域进行分类,获得互补的局部表示;4) 额外的全连接层将原始图像与挖掘的区域表示拼接,实现最终预测。其中,O⁃Net基于ResNet⁃101,E⁃Net基于ResNet⁃34,R⁃Net基于ResNet⁃50。

具体来说,给定图像和真实标签对Oi,yi作为输入以及区域挖掘次数N。将原始图像Oi输入到O‑Net进行分类,然后根据式(1)计算的CAM(Oi,yi)上采样,以热力图的形式将目标食品区域叠加在原图上,直观地展示图中的食品区域。Mi,nRi,nEi,n分别表示基于CAM生成的热力图、第n(nN)次挖掘步骤获得的挖掘区域和擦除图像。所有的Ri,nEi,n都使用原始图像Oi的真实标签yi。在上采样后,第一张热力图Mi,1的大小与Oi相同。对Mi,1应用Otsu方法,并通过形态学操作去除食品图像中的小噪声,使用连通性标记技术得到判别性区域Ri,1。接着,使用紧凑边界框裁剪该区域,通过双线性插值将裁剪后的图像块上采样到与Oi 相同尺寸,并输入到R⁃Net进行识别。然后进行第一次擦除操作,将Oi中包含Ri,1内的像素置零,得到第一张擦除图像Ei,1,将Ei,1输入到E⁃Net进行分类,继续通过CAM得到判别性区域,而R⁃Net则继续识别由E⁃Net提供的判别性区域。从O⁃Net和R⁃Net的GAP提取原始图像Oi的全局表示和区域Ri,n的局部表示,将这些表示拼接构成一个全面的特征,最后将全面的特征表示输入到额外的全连接层进行分类。随着挖掘次数的增加,Ei,n将包含更少的判别区域。因此,设置挖掘次数N=3,得到判别性区域图像(Ri,1Ri,2Ri,3)和擦除图像(Ei,1Ei,2)。

1.3 损失函数

OER⁃Net涉及的所有分类任务应用交叉熵损失。交叉熵损失函数的计算公式为:

LCE=-1Ni=1Nc=1Cyi,cln(y^i,c),

式中:LCE为交叉熵损失,N为样本数,C为类别数,yi,c为实际标签,y^i,c为第i个样本属于类别c的预测概率。

OER⁃Net的损失函数由4部分组成:O⁃Net分类原始图像Oi得到的损失Lo,n,E⁃Net分类Ei,n得到的损失Le,n,R⁃Net分类判别性区域Ri,n得到的损失Lr,n,以及额外的全连接层分类图像Oi和判别性区域Ri,n的拼接表示得到的损失Lconcat

N=0时,输入图像Oi仅通过O⁃Net进行识别,此时模型总损失L的值等于Lo。当N=1时,计算E⁃Net的损失Le,1和额外的全连接层损失Lconcat。E⁃Net的损失仅在成功挖掘判别性区域时计算。对于N=3,OER⁃Net的总损失L定义为:

L=Lo+n=13Lr,n+Lconcat+n=12Le,n,

式中:n为挖掘次数。

2 实验结果与分析

2.1 食品图像数据集

实验使用3个公开的通用食品图像数据集:Sushi‑509、ETH Food‑10113和Vireo‑17214。Sushi‑50数据集包含3963张食品图像,共50个类别,训练集和测试集的比例约为7∶3。ETH Food‑101数据集包含101个类别,每个类别含1000张图像,随机选取75%的图像作为训练集,25%的图像作为测试集。Vireo⁃172是一个大规模的中国食品图像数据集,包含110 241张图像,分为172个类别,其中60%的图像用于训练,10%用于验证,30%用于测试。

2.2 实验设置

实验平台硬件配置如下:GPU为NVIDIA A100 80 GB PCIe,内存为80 GB。实验平台软件配置如下:操作系统为Linux,Python版本为3.7.16,深度学习框架PyTorch的版本为1.13.1,CUDA版本为11.7,cuDNN版本为9.4.0。

OER⁃Net的每个子网络均基于ResNet12。在训练过程中,从原始图像中随机采样单个裁剪,并通过缩放和纵横比增强将其调整为224×224的输入大小。在测试阶段,使用中心裁剪从调整至256×256的原始图像中提取224×224大小的图像。

2.3 评价指标

Top⁃1准确率是指模型预测的第一类别与真实结果一致的准确率,而Top⁃5准确率则是指模型预测的前五个类别中包含真实结果的准确率。这两个指标是食品图像识别任务常用指标,因此,本文选择这两个指标评估OER⁃Net性能。

2.4 消融实验

评估OER⁃Net各组件间的有效性,在3个数据集上对各组件识别性能试验。表1表2展示了原始图像O,通过挖掘步骤n获得的判别性区域Rn、擦除图像En以及拼接表示concat的识别性能。

表1表2可以看出,与单一模型相比,OER⁃Net能够提升食品图像的识别性能。例如,在ETH Food⁃101数据集上,与O⁃Net分类性能相比,OER⁃Net在Top⁃1准确率上提升了1.8个百分点,OER⁃Net在Top⁃5准确率上提升了0.3个百分点。实验结果表明,随着挖掘次数n的增加,挖掘区域分类准确率逐渐下降,因为后挖掘区域比前挖掘区域的判别性更弱。同样,对于擦除判别性区域的图像,由于后续图像与先前图像相比剩余判别性区域减少,因此分类性能会下降。在3个数据集上的实验结果表明,拼接表示准确率最优,验证了全局和局部表示相结合的有效性。

2.5 对比性分析

表3表4表5展示了ResNet⁃50、ResNet⁃101和PAR⁃Net与本文提出的OER⁃Net在3个数据集上的识别性能。

表3表4表5可以看出,本文方法的识别性能均优于ResNet⁃50、ResNet⁃101和PAR⁃Net。在Sushi⁃50数据集上,与ResNet⁃50相比,OER⁃Net的Top⁃1准确率和Top⁃5准确率分别提升了3.4个百分点和0.5个百分点;与ResNet⁃101相比,OER⁃Net的Top⁃1和Top⁃5准确率分别提升了2.5个百分点和0.3个百分点;与PAR⁃Net相比,OER⁃Net的Top⁃1和Top⁃5准确率均提升了0.2个百分点。在其他数据集上的实验结果同样表明,所提方法性能均优于其他方法。与其他方法相比,本文的改进方法能更有效地提升识别性能。

2.6 可视化分析

为进一步验证方法的有效性,对OER⁃Net的实验结果进行可视化分析。图2展示OER⁃Net在一些食品图像上的可视化分析结果。其中区域1、区域2和区域3分别表示OER⁃Net获得的判别性区域Ri,1Ri,2Ri,3。热力图1、热力图2和热力图3分别表示通过O1Ei,1Ei,2生成的热力图。

对于具有复杂背景的食品图像,仅使用单一CNN难以提取关键特征,从而更易受背景干扰。在可视化结果的每一行中,使用基于ResNet⁃101的O⁃Net对原图像进行预测的结果均错误,而通过整个OER⁃Net模型的预测结果均正确。本文的改进方案能够针对性地解决食品图像因背景复杂而导致的识别率较低的问题。可视化结果也验证了所提方法的有效性,并表明该方法在多个食品数据集上表现出一致的性能。

3 结论

为解决食品图像复杂背景对食品目标识别的干扰问题,提出了一种基于改进对抗擦除的食品图像识别方法。该方法使用判别性区域生成模块,自适应生成判别性区域,从而降低背景噪声干扰。通过将原始图像的全局特征与判别性区域的局部特征相结合,构建更稳健全面的特征表示,实现最终预测。实验结果表明,该方法能有效抑制复杂背景干扰,突出判别性区域,进一步提升模型的识别性能。

参考文献

[1]

ENRIQUEZ J PARCHILA-GODINEZ J C. Social and cultural influences on food choices: A review[J]. Critical Reviews in Food Science and Nutrition202262(13): 3698⁃3704.

[2]

衡双平, 崔梦迪, 李晓琳, . 芥菜紫色叶片相关分子标记的开发和应用[J]. 信阳师范学院学报(自然科学版)202437(3): 360⁃365.

[3]

HENG ShuangpingCUI MengdiLI Xiaolinet al. Development and application of molecular markers related to purple leaf in Brassica juncea [J]. Journal of Xinyang Normal University(Natural Science Edition)202437(3): 360‑365.

[4]

杨文梅, 元成伟, 赵纪国, . 基于卷积神经网络的食品图像识别与营养分析[J]. 中国食品工业2024(24): 118‑120.

[5]

YANG WenmeiYUAN ChengweiZHAO Jiguoet al. Food image recognition and nutrition analysis based on convolutional neural network[J]. China Food Industry2024(24): 118⁃120.

[6]

CUNHA CREBELO JDUARTE R. Unveiling neural networks for personalized diet recommendations[J]. Procedia Computer Science2024241: 606⁃611.

[7]

ZHU FengqingBOSCH MSCHAP T Ret al. Segmentation assisted food classification for dietary assessment[C]//International Society for Optics and Photonics. Computational Imaging IX. Bellingham, WA: SPIE, 20117873: 77⁃84.

[8]

SHAH BBHAVSAR H. Depth-restricted convolutional neural network-a model for Gujarati food image classification[J]. The Visual Computer202440(3): 1931⁃1946.

[9]

TANNO ROKAMOTO KYANAI K. DeepFoodCam: A DCNN‑based real-time mobile food recognition system[C]//Proceedings of the 2nd International Workshop on Multimedia Assisted Dietary Management. New York: ACM, 2016: 89⁃89.

[10]

HASSANNEJAD HMATRELLA GCIAMPOLINI Pet al. Food image recognition using very deep convolutional networks[C]// Proceedings of the 2nd International Workshop on Multimedia Assisted Dietary Management. New York: ACM, 2016: 41⁃49.

[11]

QIU JLO F P WSUN Yet al. Mining discriminative food regions for accurate food recognition[J]. arXiv Preprint arXiv:2022.

[12]

MIN WeiqingWANG ZhilingLIU Yuxinet al. Large scale visual food recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence202345(8): 9932⁃9949.

[13]

刘勍, 黄金, 张亚亚, . 基于灰狼优化算法的PCNN中药材显微图像分割[J]. 信阳师范学院学报(自然科学版)202437(1): 120⁃126.

[14]

LIU QingHUANG JinZHANG Yayaet al. Microscopic image segmentation of Chinese herbal medicine based on gray wolf optimization PCNN algorithm[J]. Journal of Xinyang Normal University (Natural Science Edition)202437(1): 120⁃126.

[15]

HE KaimingZHANG XiangyuREN Shaoqinget al. Deep residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770⁃778.

[16]

BOSSARD LGUILLAUMIN MVAN GOOL L. Food-101-mining discriminative components with random forests[C]// Computer Vision-ECCV 2014. Zurich: Springer, 2014: 446⁃461.

[17]

CHEN JingjingNGO C W. Deep‑based ingredient recognition for cooking recipe retrieval[C]// Proceedings of the 24th ACM International Conference on Multimedia. New York: ACM, 2016: 32⁃41.

基金资助

河南省科技攻关项目(252102211025)

河南省研究生教育优质课程项目(YJS2022KC34)

信阳师范大学研究生科研创新基金项目(2024KYJJ087)

河南省研究生精品教材项目立项名单(YJS2025JC30)

AI Summary AI Mindmap
PDF (1672KB)

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/