基于数据增强和集成学习的矿物图像识别

王琳 ,  季晓慧 ,  杨眉 ,  何明跃 ,  张招崇 ,  曾姗 ,  王玉柱

地学前缘 ›› 2024, Vol. 31 ›› Issue (4) : 87 -94.

PDF (3258KB)
地学前缘 ›› 2024, Vol. 31 ›› Issue (4) : 87 -94. DOI: 10.13745/j.esf.sf.2024.5.6
深度学习与图像识别

基于数据增强和集成学习的矿物图像识别

作者信息 +

Mineral identification based on data augmentation and ensemble learning

Author information +
文章历史 +
PDF (3335K)

摘要

矿物识别是地质学研究的一个重要部分,对于资源勘探、岩石分类和地质环境监测都有着重要的意义。然而,传统方法通常依赖人的经验进行主观判断,并且效率低下。近年来,已有许多研究将深度学习的图像分类技术应用于矿物识别,以客观快速地识别矿物,这些研究都取得了一定的成果,但可识别矿物种类有限且精度需要进一步提升。为此本文首先解决了矿物数据集图像数据样本分布不平衡问题,对数据集中矿物图像较少的11个矿物类别采用DCGAN生成矿物图像进行数据增强,对比选择效果更好的方案对数据集进行扩充。其次,为了得到更可靠、精确度更高的识别模型,将ImageNet上表现较好的ResNet、RegNet、EfficientNet和Vision Transformer模型迁移到本文使用的矿物数据集上。针对训练好的基模型排列组合得到11个子模型,分别使用平均软投票法和加权软投票法两种方法进行集成,得到22个集成模型并对其训练得到识别结果,对比22个集成模型的结果选择出精度最高的集成模型。实验结果表明:使用DCGAN进行数据增强,在不同的模型上平均提升了3.12%的准确率,充分证明了DCGAN数据增强的有效性;在所有集成模型中,使用加权软投票法的模型表现较好,其中精度最高的是利用4个基分类模型进行加权软投票得到的集成模型,在扩充后的36种常见矿物数据集上达到了87.47%的准确率。

关键词

矿物识别 / 深度卷积生成对抗网络 / 数据增强 / 集成学习

Key words

mineral identification / deep convolutional generative adversarial networks / data augmentation / ensemble learning

引用本文

引用格式 ▾
王琳,季晓慧,杨眉,何明跃,张招崇,曾姗,王玉柱. 基于数据增强和集成学习的矿物图像识别[J]. 地学前缘, 2024, 31(4): 87-94 DOI:10.13745/j.esf.sf.2024.5.6

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

矿物识别是地质研究的重要环节,传统的矿物识别方法大多是鉴定者根据矿物颜色、光泽、纹路和化学成分等进行判断,但存在效率低、过度依赖专家、受主观因素影响等问题[1-2]。因此,建立简单、快速、准确的自动化矿物识别模型具有重要意义,而将图像分类技术应用于矿物识别是解决上述问题的重要途径[3]

目前已有相关工作是将基于深度学习的图像分类应用于矿物相机图像识别上:2019年,彭伟航等[4]通过图像随机选取增加数据的多样性,建立矿物识别InceptionV3模型,并引入Center Loss损失函数,使得16种矿物的识别精度达到了86%;2020年,郭艳军等[5]在卷积神经网络(CNN)的结构设计上,选取ResNet-18框架,实现了对石英、角闪石、黑云母、石榴石和橄榄石5种矿物89%的识别准确率; Liu等[6]在2019年论证了深度学习与聚类算法结合的有效性,后李明超等[7]基于强化后的纹理特征,利用K-means算法提取矿物颜色特征,建立颜色特征模型,使用迁移学习思想在Inception-v3上实现了19种矿物的智能识别,top-1精度达到72.2%;2022年,杨彪等[8-9]基于深度可分离卷积,结合注意力机制,通过密集连接的方式构建矿物智能识别模型,在5类矿物的识别上达到了90%的精度;同年,Zhou等[10]在MobileNet网络的基础上利用迁移学习与SENet机制相结合,对7种矿物的识别实现了96%的精度;2023年,李雷等[11]将ImageNet数据集上已预训练的ConvNeXt网络模型迁移学习到矿物识别模型中,并在ConvNeXt网络的基础上,通过在ConvNeXt块之后与注意力机制相结合的方式,在26种矿物图像认别测试中达到了98.58%的精度;在36种矿物的识别上,2021年,Zeng等[12]结合矿物的莫氏硬度,使用EfficientNet达到了90.1%的分类精度,2022年, Wu等[13]基于Vision Transformer模型使用多标签分类方法,对36种矿物实现了共/伴生矿物的识别,得到了85.26%的精度。

上述基于图像分类的矿物识别工作已取得一定进展,但能识别的矿物种类较少,且精度仍需进一步提高。在文献[12-13]的工作中,作者对36种矿物进行了识别,但使用的数据集内不同种类矿物的数量不均衡,影响识别精度。对数据集中数据量少的数据进行数据增强能进一步提升精度[14],其中使用生成对抗网络(Generative Adversarial Network, GAN)扩充数据集已取得了较好效果[15],如:2020年, Bushra等[16]使用DCGAN扩充数据集,解决新型冠装病毒可用诊断X光及CT扫描图像稀缺问题;2023年,姜霞等[17]利用GAN扩充数据集,将O型星的分类准确率提升至97.92%,整个恒星光谱分类器的准确率达到96.28%。这些工作都验证了GAN,尤其是DCGAN的扩充数据集效果,因此本文采用深度卷积对抗网络(Deep Convolutional GAN, DCGAN)[18]对矿物数据集进行数据增强。

集成学习也是提高图像分类精度的方法,其构建多个学习器,通过一定策略结合以获得比单个学习器更优越的效果[19],如:Saqlain等[20]在2019年使用集成学习提升了半导体制造中晶片映射缺陷模式识别的精度;2020年,崔阳阳等[21]使用集成学习进行了地质灾害危险性评价。因此,本文集成深度学习中精度较高的CNN和Transformer模型,以进一步提高矿物识别精度。

1 基于DCGAN数据增强和集成学习的矿物识别

1.1 基于DCGAN的矿物数据增强

在基于深度学习的图像分类中,数据集至关重要,其质量将直接影响识别准确率[14-17,22]。本文使用同文献[12]和[13]相同的数据集,数据集所有图片均使用爬虫技术爬取来自Mindat的相机照片,部分图像示例如图1。该数据集涵盖了36种常见矿物,矿物名称及数量如表1所示,共包含183 688张矿物图像。但自然界中个别种类矿物稀少等使得数据集内部各种类矿物图像数量分布不均衡,如数量最多的石英有34 883张,而雌黄只有720张,一定程度上影响了最终的识别精度,因此本文使用数据增强的方法对少于2 000张图像的钠长石、辰砂、钙铁榴石、透辉石、盐岩、白铁矿、雌黄、红宝石、蓝宝石、硫矿物和铜轴云母等11种矿物进行数据增强。

本文使用能更好捕捉图像中细微结构并生成更逼真图像且更快收敛的DCGAN[16,18,23-24]生成矿物图像,对样本少的矿物图像进行数据增强,如图2所示。与其他GAN相比,DCGAN去掉了所有的池化层,是一个全卷积网络。它的核心是一个生成器和一个鉴别器:生成器使用步长卷积代替池化层,使用tanh激活函数,是一个反向的卷积神经网络;鉴别器使用分数补偿卷积代替池化层,使用leakyReLU激活函数,是一个简单的卷积神经网络。具体结构如表2所示。

DCGAN生成矿物图像的核心是通过生成器G与鉴别器D不断对抗训练,最终判别器判别不出样本是来自于生成器的输出还是真实矿物图像,判别概率均为0.5,此时生成器生成的图像即可补充到数据集中以增加样本少的矿物图像数量。对抗训练时生成器不断捕捉真实矿物样本的数据分布特点,并根据捕捉到的数据分布特点进行学习,从初始时的随机噪声生成新的矿物数据,鉴别器对其输入进行判断,鉴别其输入是真实矿物图像还是生成矿物图像。对抗训练后,生成器的矿物图像生成能力提高,使鉴别器无法成功鉴别样本是生成矿物图像还是真实矿物图像,而鉴别器对矿物图像判别能力也在训练中不断增强。

对抗训练的损失函数如公式(1)所示。生成器G的目标是生成器生成的样本数据G(z)经过鉴别器后可以鉴别为真,即鉴别器输出概率等于1,D(G(z))=1,1-D(G(z))=0;鉴别器D的目标是如果输入真实矿物图像,则鉴别器D的输出概率等于1,D(x)=1,如果输入生成器生成矿物图像G(z),则鉴别器D的输出概率等于0,即D(G(z))=0,1-D(G(z))=1。公式(1)中Pdata为某类真实矿物数据的分布,Pg为随机噪声数据的分布,生成器G和鉴别器D交替迭代更新,先固定生成器G训练鉴别器D,当且仅当Pdata=Pg时,随机噪声数据分布与真实矿物数据分布一致,公式(1)达到全局最优解,停止训练,此时生成器G成功学习了真实样本数据Pdata的分布,鉴别器模型D的准确率稳定在0.5。

m i n G   m a x D   V ( G , D ) = E x ~ P d a t a ( x ) [ l o g a D ( x ) ] + E z ~ P g ( z ) { l o g a [ 1 - D ( G ( z ) ) ] }

表1中所示图像数量少于2 000张的11种矿物图像分别对DCGAN进行对抗训练,即可分别获得这11类矿物的生成图像。

1.2 集成多个CNN和Transformer模型的矿物识别

如前所述,集成学习可以提高图像分类的精度[19-21,25],本文集成不同的CNN和Transformer模型对矿物图像进行识别,以得到更高的精度。常用的基于多模型的集成方法是Stacking和Voting[19,25],其中Stacking对层数较多的深度学习模型易出现过拟合[19,25],因此本文使用Voting进行模型集成。

本文采用基于Voting集成学习的矿物识别,如图3所示。首先采用在ImageNet上效果较好的ResNet[26]、RegNet[27]、EfficientNet[28]和Vision Transformer[29]表1所示的数据集进行训练、验证和测试,得到各分类器在测试集上的测试精度acci。ResNet、RegNet和EfficientNet是经典的CNN网络模型:ResNet的核心是残差块多层堆叠,网络深度较大[26];RegNet的特点是通过对模型的卷积、网络和数据大小以及深度残差等进行调整,以适应不同特定环境[27];EfficientNet通过平衡分辨率、深度和宽度3个维度,实现网络在效率和准确率上的优化[28]。而Vision Transformer是Transformer模型应用于图像分类的代表模型,具有全局性强、收敛快等特点[29]

进行集成时采用平均软投票和加权软投票两种方法。平均软投票对所有基分类器的矿物预测概率取平均;加权软投票是对所有基分类器的预测概率按照公式(2)加权得到的结果,可见精度较高的基模型的权重较大,精度较低的基模型权重较小,公式(2)中,M为基分类器的个数,本文最大为4。

F i n a l _ R e s u l t = i = 1 M a c c i i = 1 M a c c i a c c i

2 实验结果及分析

本文使用Python编程语言,基于Pytorch框架在Linux系统上实现所有的实验。实验的所有深度学习模型都在GPU上运行,以提高训练效率。具体实验环境如表3所示。

2.1 DCGAN数据增强

如前所述对原数据集中少于2 000张图像的钠长石、辰砂、钙铁榴石、透辉石、盐岩、白铁矿、雌黄、红宝石、蓝宝石、硫黄和铜铀云母的11种矿物进行扩充,采用如下两种扩充方案:一是每类生成300张图像;二是将少于2 000张图像的矿物都扩充到2 000张以上。两种方案手动删除垃圾数据后将生成图像加入训练集。生成的部分矿物图像如图4a所示,其去除背景的反相图如图4b所示,可以看到生成的矿物图像大部分清晰且较为真实,但仍存在部分生成图像不清晰或与矿物图像并不相似,如图4a中的02,因此将此类图片手动删除,两种方案扩充后11种矿物的数据如表4所示。方案一共增加2 866张矿物图像;方案二共增加8 916张矿物图像。

数据增强前数据集按照8∶1∶1划分为训练集、验证集和测试集,然后将生成的矿物图像加入训练集,使用的基模型分别为ResNet_50、ResNet_101、RegNetX_600MF、EfficientNet_b4和ViT_base_16_224。训练时使用的超参数如表5所示。

实验过程中5个模型训练时,随着训练次数的增加模型逐渐收敛,训练集精度逐渐增大,损失逐渐减小,当模型的损失和精度都趋于稳定时,模型结束训练。最终5个模型在矿物数据集上的识别结果如表6

结果表明数据增强对各模型的精度均有提升,方案一平均提升精度为2.04%,方案二平均提升精度为3.12%。这表明增加的训练数据越多且越均衡时,精度的提升效果越好。

2.2 投票法集成学习

集成学习采用如前所述在ImageNet上效果较好的ResNet_101、RegNet、EfficientNet和Vision Transformer(ViT)4个基分类模型,集成得到11个子模型,如表7所示。为确定最优的集成方式,使用平均软投票法和加权软投票法进行原始未扩充数据训练,所得结果如表7所示。

表7可见,表现最好的是1号,它是由4个基模型组成的加权软投票集成模型,得到了84.45%的top-1精度。因此将此模型在方案二扩充后的数据集上训练,在测试集上所得36种常见矿物识别的平均精度为87.47%。集成模型与EfficientNet和ViT在36种矿物识别上的精度对比如图5所示,而EfficientNet是CNN模型中精度最高的,可见集成模型具有最高的精度。

文献[12]对36种矿物的识别准确率为78.3%,本文基于数据增强及加权软投票法集成学习所得的精度为87.47%,提高了9.17%。

3 结论

(1)为了解决自然界中矿物数量不平衡带来的数据分布不平衡问题,本文使用无监督数据增强方法对数据量较少的矿物进行了图像生成,实验结果表明增强后的数据集提高了矿物图像识别精度,在4个不同模型上的准确率平均提升了3.12%。

(2)为进一步提高矿物识别精度,对ResNet、RegNet、EfficientNet和Vision Transformer模型使用平均软投票和加权投票法进行了集成,实验结果表明由4个基模型组成的加权投票法的集成模型具有最高的准确率,在数据增强后的数据集训练后得到的准确率为87.47%。

参考文献

[1]

郝慧珍, 顾庆, 胡修棉. 基于机器学习的矿物智能识别方法研究进展与展望[J]. 地球科学, 2021, 46(9): 3091-3106.

[2]

周永章, 左仁广, 刘刚, 数学地球科学跨越发展的十年: 大数据、 人工智能算法正在改变地质学[J]. 矿物岩石地球化学通报, 2021, 40(3): 556-573, 777.

[3]

徐述腾, 周永章. 基于深度学习的镜下矿石矿物的智能识别实验研究[J]. 岩石学报, 2018, 34(11): 3244-3252.

[4]

彭伟航, 白林, 商世为, 基于改进InceptionV3模型的常见矿物智能识别[J]. 地质通报, 2019, 38(12): 2059-2066.

[5]

郭艳军, 周哲, 林贺洵, 基于深度学习的智能矿物识别方法研究[J]. 地学前缘, 2020, 27(5): 39-47.

[6]

LIU C Z, LI M C, ZHANG Y, et al. An enhanced rock mineral recognition method integrating a deep learning model and clustering algorithm[J]. Minerals, 2019, 9(9): 516.

[7]

李明超, 刘承照, 张野, 耦合颜色和纹理特征的矿物图像数据深度学习模型与智能识别方法[J]. 大地构造与成矿学, 2020, 44(2): 203-211.

[8]

杨彪, 马亦骥, 倪瑞璞, 基于多尺度密集连接网络的矿物图像智能识别[J]. 云南大学学报(自然科学版), 2022, 44(6): 1118-1126.

[9]

杨彪, 倪瑞璞, 高皓, 基于多分辨率图像的矿物特征自动提取与矿物智能识别模型[J]. 有色金属工程, 2022, 12(5): 84-93.

[10]

ZHOU W Y, WANG H, WAN Z B. Oreimage classification based on improved CNN[J]. Computers and Electrical Engineering, 2022, 99: 107819.

[11]

李雷, 卢才武, 江松, 基于改进ConvNeXt网络的矿物图像智能识别[J/OL]. 地质通报: 1-11[2023-08-16]. http://kns.cnki.net/kcms/detail/11.4648.P.20230331.1254.002.html.

[12]

ZENG X, XIAO Y C, JI X H, et al. Mineral identification based on deep learning that combines image and mohs hardness[J]. Minerals, 2021, 11(5): 506.

[13]

WU B K, JI X H, HE M Y, et al. Mineral identification based on multi-label image classification[J]. Minerals, 2022, 12(11): 1338.

[14]

ANTONIOU A, STORKEY A, EDWARDS H. Data augmentation generative adversarial networks[EB/OL]. (2018-03-21)[2023-07-29]. https://arxiv.org/abs/1711.04340v2.

[15]

CRESWELL A, WHITE T, DUMOULIN V, et al. Generative adversarial networks: an overview[J]. IEEE Signal Processing Magazine, 2018, 35(1): 53-65.

[16]

BUSHRA S N, SHOBANA G. A survey on deep convolutional generative adversarial neural network (dcgan) for detection of Covid-19 using chest X-ray/CT-Scan[C]// Proceedings of the 3rd international conference on intelligent sustainable systems (ICISS), Thoothukudi. New York: IEEE, 2020: 702-708.

[17]

姜霞, 邱波, 王林倩, 基于半监督模式的恒星光谱自动分类方法[J]. 光谱学与光谱分析, 2023, 43(6): 1875-1880.

[18]

甘岚, 沈鸿飞, 王瑶, 基于改进DCGAN的数据增强方法[J]. 计算机应用, 2021, 41(5): 1305-1313.

[19]

DONG X B, YU Z W, CAO W M, et al. A survey on ensemble learning[J]. Frontiers of Computer Science, 2020, 14(2): 241-258.

[20]

SAQLAIN M, JARGALSAIKHAN B, LEE J Y. A voting ensemble classifier for wafer map defect patterns identification in semiconductor manufacturing[J]. IEEE Transactions on Semiconductor Manufacturing, 2019, 32(2): 171-182.

[21]

崔阳阳, 邓念东, 曹晓凡, 基于集成学习的地质灾害危险性评价[J]. 水力发电, 2020, 46(10): 36-41.

[22]

李艳霞, 柴毅, 胡友强, 不平衡数据分类方法综述[J]. 控制与决策, 2019, 34(4): 673-688.

[23]

LI J, JIA J J, XU D L. Unsupervised representation learning of image-based plant disease with deep convolutional generative adversarial networks[C]// Proceedings of the 37th Chinese control conference (CCC). New York: IEEE, 2018: 9159-9163.

[24]

蔡晓龙. 基于DCGAN算法的图像生成技术研究[D]. 青岛: 青岛理工大学, 2018.

[25]

ROKACH L. Ensemble learning: a survey[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2018, 8(5): e1249.

[26]

HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. New York: IEEE, 2016: 770-778.

[27]

RADOSAVOVIC I, KOSARAJU R P, GIRSHICK R, et al. Designing network design spaces[C]// Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. New York: IEEE, 2020: 10428-10436.

[28]

TAN M X, LE Q V. Efficientnet: rethinking model scaling for convolutional neural networks[EB/OL]. (2020-09-11)[2023-07-02]. https://arxiv.org/abs/1905.11946.

[29]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. (2021-06-03)[2023-07-16]. https://arxiv.org/abs/2010.11929.

基金资助

国家科技资源共享服务平台——国家岩矿化石标本资源库子项目(NCSTI-RMF20230107)

AI Summary AI Mindmap
PDF (3258KB)

261

访问

0

被引

详细

导航
相关文章

AI思维导图

/