基于SSD与图像变换的镜下矿物光片智能识别

侯振隆 ,  申晋容 ,  魏继康 ,  赵文天

东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (06) : 131 -137.

PDF (9737KB)
东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (06) : 131 -137. DOI: 10.12068/j.issn.1005-3026.2025.20230347
资源与土木工程

基于SSD与图像变换的镜下矿物光片智能识别

作者信息 +

Intelligent Identification of Minerals Polished Section Under Microscope Based on SSD and Image Transformation

Author information +
文章历史 +
PDF (9970K)

摘要

在矿物识别中,当识别伴生矿物时,有时会产生漏判、误判.为了解决上述问题,开展了显微镜下矿物的智能化识别方法研究.首先,改进了SSD网络并结合图像变换构建了一种智能识别方法;其次,将该方法应用于中国辽宁省某铁矿光片的显微镜下矿物图像,通过试验证明了方法的准确性;最后,确定了学习率、批量尺寸对损失函数的影响,使用梯度下降法进一步提高了识别精度.在试验中,识别精度超过90%,最高可达100%,损失函数值最小值约为0.008.结果表明,提出的方法具有较强的矿物识别能力.

Abstract

In mineral identification, there may sometimes be cases of missed identification or incorrect identification when identifying associated minerals. To address these issues, the intelligent mineral identification methods under the microscope were developed. Firstly, an intelligent identification method was constructed by improving the SSD network and incorporating image transformation. Secondly, the method was applied to microscope images of minerals in polished sections from the iron ore in Liaoning Province, China, and its accuracy was demonstrated through tests. Finally, the effects of learning rate and batch size on the loss function were determined, and the accuracy was further improved by using the gradient descent method. In the tests, the identification accuracy exceeds 90%, reaching up to 100%, with the minimum value of the loss function was approximately 0.008. The results indicate that the proposed method has strong mineral identification capabilities.

Graphical abstract

关键词

矿物识别 / 深度学习 / SSD / 图像变换 / 矿物含量估算

Key words

mineral identification / deep learning / single shot multibox detector (SSD) / image transformation(IT) / mineral content estimation

引用本文

引用格式 ▾
侯振隆,申晋容,魏继康,赵文天. 基于SSD与图像变换的镜下矿物光片智能识别[J]. 东北大学学报(自然科学版), 2025, 46(06): 131-137 DOI:10.12068/j.issn.1005-3026.2025.20230347

登录浏览全文

4963

注册一个新账户 忘记密码

识别矿物是地质研究中不可或缺的部分.目前,由于人工智能高效、免受人为干扰等优点,该技术已经应用于矿物识别的研究中.智能识别是当前地球科学领域中的热点之一,许多研究都是利用图像数据开展的.例如,基于显微镜下图像1-3和岩石图像4-6进行的岩性识别与分类.在这些研究中,机器学习、图像处理和人工神经网络技术发挥了重要作用.随着深度学习的快速发展,不同类型的卷积神经网络越来越多地被应用于地学中.在找矿预测7、地质填图8、遥感影像的识别与提取9-10以及掌子面岩石结构分类11等领域中,基于卷积神经网络算法的准确率分别可达88.9%,90.0%,95.3%和98.1%,体现了其具有较高的性能.近年来,这类智能算法也被应用于矿石图像分类12-14,取得了良好的识别结果,对于矿山高效生产具有重要意义.除了岩性识别,还需要辨别出显微镜下图像中的不同矿物.然而,受限于矿物图像复杂程度,使用现有的方法易造成错误判断和种类的遗漏.
在图像识别领域,目标检测是重要的方法之一.相比于其他方法,它具有准确率高、速度快等优点.常用的网络包括:Faster R-CNN(faster region-based CNN)15,YOLO(you only look once)16和SSD(single shot multibox detector)17等.SSD是在Faster R-CNN和YOLO的基础上发展得来的,在它们中具有最强的检测能力17,被认为是当前较为高效的目标检测方法,将SSD用于矿物识别有望获取更准确的矿物种类信息.
因此,本文开展了一项基于SSD与图像变换的智能识别方法研究,以解决伴生矿物低精度识别等问题.将提出的方法应用于中国辽宁省某铁矿的显微镜下图像,分析和讨论了方法性能以及影响结果的因素.

1 方 法

1.1 改进的SSD网络

SSD是一种单阶段的目标检测方法18,具有高效率的优点.通过金字塔特征结构19,SSD能充分利用所有卷积层的特征信息.不同于YOLO网络只使用一个特征层进行预测,SSD方法利用多个特征层进行分类和回归,并执行非极大值抑制筛选边界框.因此,SSD具有比YOLO更强的小目标检测能力.

为了进一步提升SSD的识别能力与训练速度,将其基础网络由VGG16(visual geometry group network with 16 weight layers)替换为ResNet50(residual net with 50 layers).这是因为ResNet50在精度、计算速度上均优于VGG16;通过增加网络层数,可进一步提高ResNet50用于识别的效果20.因此,从SSD的第1层至第5层(L1~L5)提取特征图,其大小依次为42×42,21×21,11×11,6×6,3×3.其中,前3层沿用ResNet50的网络结构;第4层与第5层各包含两个部分,均由卷积层与BN(batch normalization)层组成:前半部分的卷积层步长为1,卷积核大小为1×1,后半部分的卷积层步长为2,卷积核大小为3×3.改进的SSD网络结构如图1所示.本文通过边界框识别出不同矿物的种类,从而确定整个视域中总的种类.

1.2 图像变换和评价指标

当存在矿物伴生情况时,显微镜下图像特征会比单一矿物更复杂,仅使用改进的SSD也不能非常准确地分辨矿物,故提出一种结合SSD和图像变换(image transformation,IT)的识别方法(简称SSD-IT)(图2)来解决这一问题.该方法以矿物在反射偏光显微镜下反射色、亮度的差别为基础,先通过SSD对图像中的矿物种类进行识别,再通过图像变换对矿物含量进行估算.具体地,当应用SSD-IT时,伴生体将被视为一种新的矿物种类,也要被加入训练集.将建立的数据集输入SSD进行训练并获取最优的模型后,利用经测试后的SSD进行初步识别,给出含伴生体的矿物种类.再按照式(1)21将彩色图像变换为灰度图像.

L=R×0.299+G×0.587+B×0.114.

其中:L表示灰度值;RGB分别表示彩色图像的红、绿、蓝颜色通道值.

矿物在反射偏光显微镜下亮度是不同的,例如,赤铁矿的亮度高于磁铁矿.依据矿物的灰度值范围可将伴生体中矿物进行有效区分.统计同一灰度值的像素在视域中的面积占比,该比值即矿物含量.通过变换,可以有效避免识别不准、不全等问题,并且该方法能够同时进行矿物识别与含量估算.

在镜下图像中,目标矿物的含量可能很少,而非目标矿物很多,所以导致真负例(true negative, TN)值会过高,即在非目标范围内没有预测出矿物的情况增加.因此,使用TN计算的评价指标不宜被用来评价准确率.识别精度(P)、召回率(R)和F-score(F)将作为本研究的评价指标,计算公式为

P=TPTP+FP,
R=TPTP+FN,
F=(β2+1.0)×P×Rβ2×P+R.

其中:TP(true positive)是真正例,表示算法在目标范围内预测出了该矿物;FP(false positive)是假正例,表示算法预测出一个目标范围中不存在的矿物;FN(false negative)是假负例,表示算法没有在目标范围内预测出该矿物;β表示召回率相对于识别精度的重要性,当β=1时,识别精度与召回率的权重相同,当β=0.5或2时,召回率的权重是识别精度的一半或2倍22. β=0.5,1和2分别对应F0.5-score,F1-score和F2-score.

对伴生体的识别必须是精确的,否则伴生体中的矿物不能被准确地区分.首先需要模型已预测出某一矿物,再判断其预测正确与否.因此,利用识别精度评价方法更为合适.通常地,随着识别精度增高,召回率就会下降;反之亦然23.综上所述,识别精度被选作主要的评价指标,同时也使用召回率和F-score用于评价,避免只使用单一指标无法全面客观评价模型的问题.当识别精度P>90%时,可以认为获得了期望的结果.

1.3 数据预处理

对于模型的训练,图像的质量会影响识别精度,且图像数量必须保持较大的量级才有助于增强模型泛化能力.当构建训练集与测试集时,采集的图像数据必须进行预处理,从而提高图像质量并扩充图像数量.预处理包括图像的标注与数量扩增,主要步骤如下:①根据显微镜图像中矿物特征,为边界框选择比例和长宽比,将其以PASCAL VOC数据集格式标注,并保存为XML文件;②对XML文件和图像数据进行数据增强,包括缩放、翻转、旋转、镜像、随机裁剪等(图3);在预处理过程中,要保持边界框和图像同步变化;③对步骤②中生成的图像数据进行筛选,删除预处理后图像内无矿物可识别的数据;④挑选预处理图像的70%作为训练集,30%作为测试集.

2 试验和讨论

为了检验SSD-IT方法的效果与可行性,将其应用于辽宁省某铁矿的显微镜下矿物图像.采集的岩石样本包括磁铁石英岩、赤铁石英岩、含硅酸盐赤铁石英岩和含碳酸盐赤铁石英岩.在用于获取图像的光片中,矿物主要包含硅酸盐矿物、褐铁矿、磁铁矿、赤铁矿.其中,磁铁矿和赤铁矿是目标矿物,赤铁矿在显微镜下具有上述矿物中最高的亮度,其R,G,B值均大于210.根据式(1),可得L>210;磁铁矿较赤铁矿亮度低,其R,G,B值和灰度值分布于区间[120,210]内;同理,可得其他矿物的L值.使用了卡尔蔡司Primotech单偏光显微镜(20×10倍镜),通过12个光片采集了160张图像数据.在数据预处理后,扩增了图像数量:数据集包含4 184张图像,其中,训练集图像数量为3 075张,测试集图像为1 109张.对于每一个模型,需进行200次迭代,训练约6.6 h.试验是在天河HPC4超级计算机的GPU(graphics processing unit)节点(配置:处理器Intel Xeon Gold 6354 @ 3.00 GHz,18核×2;256 GB内存;GPU为NVIDIA HGX A100×2;系统为RedHat Enterprise Linux 8.4)上进行的.代码是利用Python语言编写的,调用了LabelImg,imgaug,torch,PIL等工具箱用于图像标注、图像增强、网络构建、图像处理等.图像数据的标注方式和识别结果如图4所示,其中,红色实线框为预测的目标矿物边界框,Mag表示磁铁矿,Hem表示赤铁矿,Mag+Hem表示磁铁矿与赤铁矿伴生体.图像变换能够进一步区分伴生体中的矿物,使SSD-IT可以准确地识别出目标矿物,且能够计算出图像中矿物的含量.在图4中,磁铁矿和赤铁矿质量分数分别为9.5%,8.4%.

下面通过几组试验来讨论和分析SSD-IT的识别能力.

将SSD-IT与其他基于神经网络的识别方法作对比,以验证方法的有效性,评价结果见表1.在所有训练中,初始学习率均为0.01,批量尺寸均为32.评价结果中,SSD-IT的识别精度、召回率值最高,Faster-RCNN和YOLOv5s的识别结果则较差;通过图像变换,识别精度均获得了较大的提升,说明引入图像变换是有效的,且SSD-IT可提供精确的识别.此外,SSD-IT的F-scores值最高,也反映出SSD-IT的优越性.由表1可知,当识别精度作为主要评价指标且令β=0.5时,SSD-IT方法可以获得最高的F-score值,因为此时识别精度具有高权重.

通过不同光片的图像进一步测试SSD-IT的性能.本试验中主要利用识别精度进行评价.从测试集中对12个光片分别选取5张显微镜下图像.初始学习率为0.01,记录不同迭代次数下的平均识别精度(图5).由结果可知,平均识别精度总体上均随迭代次数增加而增加,但呈现不同程度的波动.最终的平均识别精度最低为83.3%,最高可达100%,平均值为92.3%.结果表明,对于大多数样本,SSD-IT都能取得超过90%的识别精度,甚至达到100%,只有极少数样本的识别精度较低.原因是这些图像中目标矿物含量少,此时的准确率会较高,如果以准确率为主要评价指标,那么评价将不合理.这也证明了使用识别精度作为SSD-IT的评价指标更为客观、准确.上述试验还表明,足够多的迭代次数是识别结果良好的基础,而较少的迭代次数可能无法获得精准的识别.

引入损失函数以确定损失值和迭代次数、学习率之间的关系,从而确定最优的训练参数.在识别过程中,损失值Lt用来表示预测值与真实值之间的差距.损失值越高表示识别精度越低.损失值的计算公式17

Lt=1N(Lconf+αLloc).

其中:N表示正样本数量;Lconf表示置信损失;Lloc表示定位损失;α表示加权因子,设为1.此外,不同的学习率会导致损失值的变化.在不同学习率下,损失值随迭代次数变化的曲线如图6所示.

图6a中,随着迭代次数的增加,除了学习率r=0.020,所有的损失值均下降且最终趋于稳定.当r分别为0.005,0.010,0.015,0.020,0.025时,相应损失值分别为0.015,0.008,0.022,0.362,0.053.因此,当r=0.010时损失值最小,识别效果最好;当r>0.010时,损失值总体上随着学习率的增加而增加.尽管当r=0.005时前20次迭代内收敛最快,但其最终损失值不是最小值,这是由于学习率过小,导致后续训练中缓慢收敛.当损失值趋近于一个平稳且较小的值时,即可得到合适的模型.试验证明学习率能够影响数据拟合和训练时间.

为了进一步验证学习率对结果的影响,还对比了在学习率保持不变和变化情况下训练的损失值(图6b).在本试验中,变化的学习率指在训练过程中采用梯度下降法,即随着迭代次数的增加,学习率的值将按式(6)更新:

rk=r0×dt.

其中:r0rk 表示初始学习率和第k次迭代中的学习率;d表示下降率;t表示迭代次数除以整数n所得的整数值(向下取整).试验中d=0.8,n=40,即每经过40次迭代,学习率将下降20%.该方法使训练从较大的学习率开始,但随着迭代次数的增加,学习率将下降.由于学习率过大造成的过拟合问题将得以解决,使拟合程度得到改善,提升了训练效率,从而减少了训练时长.需要注意的是,当迭代次数过大时,学习率将过低,可能对识别产生负面影响.

试验中,初始的学习率设为0.010,则当使用固定的和变化的学习率时,最终损失值分别为0.008 4,0.007 8.这表明当使用相同初始学习率时,梯度下降法可以获得更小的损失值.由图6b还发现,当学习率随着迭代次数增加而减小时,损失值下降得更快.

在上述试验中,发现批量尺寸对损失值也有影响.记录不同批量尺寸情况下的损失值(图7),当批量尺寸b为16,32,64,128,256时,所对应的最终的损失值分别为0.036,0.008,0.015,0.016,0.041.其中,当b=32时,收敛速率最快;当b=16时,损失值下降缓慢,这是由于取值过小导致单次训练不充分,故收敛速率慢,且最终损失值较大.随着批量尺寸的增大,最终损失值也随之增加,且收敛速率减慢.批量尺寸对训练时间和模型精度都会产生影响,故批量尺寸取值应适中.

对于部分变换后的图像出现目标矿物含量计算偏高的情况,是由于显微镜下光线强度过高,变换为灰度图像后使图像中心的亮度值过高(图8),从而导致灰度值升高,使目标矿物含量估算不准确.由于该灰度值是SSD-IT识别的依据,采集图像数据时应该尽量保持白天室内自然光照下的强度.

3 结 语

本文提出了一种基于SSD与图像变换的矿物识别方法SSD-IT,并将其应用于辽宁省某铁矿的矿物图像数据.与基于YOLOv5s和Faster-RCNN的方法相比,SSD-IT大幅提高了伴生矿物的识别精度;同时,还有效估算出了图像中的矿物含量.研究发现,使用识别精度评估SSD-IT更为客观,特别是对于目标矿物含量少的图像,且识别精度作为主要指标能够获得更高的F-score.对于不同光片,SSD-IT的平均识别精度为92.3%,最大值甚至可达100%.学习率、批量尺寸对于训练过程中的收敛速度有一定影响.一般地,这些参数的值越小,收敛越快,最终的损失值越小;但是,当参数值过小时,收敛速度会变慢,损失值将变大.因此,为了获得最优模型,参数取值要适中.试验还证明了梯度下降法有助于提高识别精度,但迭代次数不宜过多.综上,SSD-IT能够提供期望的结果,并为智能化地质研究提供重要依据.

参考文献

[1]

Młynarczuk MGórszczyk ABartłomiej Ś. The application of pattern recognition in the automatic classification of microscopic rock images [J]. Computers & Geosciences201360: 126-133.

[2]

Xu Z HMa WLin Pet al. Deep learning of rock microscopic images for intelligent lithology identification: neural network comparison and selection [J]. Journal of Rock Mechanics and Geotechnical Engineering202214(4): 1140-1152.

[3]

Polat ÖPolat AEkici T. Automatic classification of volcanic rocks from thin section images using transfer learning networks [J]. Neural Computing and Applications202133(18): 11531-11540.

[4]

Zhou Y MWong L N YTse K K C. Novel rock image classification: the proposal and implementation of HKUDES_Net [J]. Rock Mechanics & Rock Engineering202356(5): 3825-3841.

[5]

Singh VRao S M. Application of image processing and radial basis neural network techniques for ore sorting and ore classification [J]. Minerals Engineering200518(15): 1412-1420.

[6]

Tessier JDuchesne CBartolacci G. A machine vision approach to on-line estimation of run-of-mine ore composition on conveyor belts [J]. Minerals Engineering200720(12): 1129-1144.

[7]

Ding KXue L FRan X Jet al. Siamese network based prospecting prediction method: a case study from the Au deposit in the Chongli mineral concentrate area in Zhangjiakou, Hebei Province, China [J]. Ore Geology Reviews2022148: 105024.

[8]

Wang X PZuo R GWang Z Y. Lithological mapping using a convolutional neural network based on stream sediment geochemical survey data [J]. Natural Resources Research202231(5): 2397-2412.

[9]

谢洪途,陈佳兴,张琳,.基于脉冲神经网络的轻量化SAR图像舰船识别算法[J].东北大学学报(自然科学版)202445(4):474-482.

[10]

Xie Hong-tuChen Jia-xingZhang Linet al. Lightweight ship recognition algorithm based on SNN in SAR images [J]. Journal of Northeastern University(Natural Science)202445(4):474-482.

[11]

武锦龙,吴虹麒,李浩,.基于改进DeepLabV3 + 的荞麦苗期无人机遥感图像分割识别方法研究 [J].农业机械学报202455(5):186-195.

[12]

Wu Jin-longWu Hong-qiLi Haoet al. Segmentation of buckwheat by UAV based on improved lightweight DeepLabV3 + at seedling stage [J]. Transactions of the Chinese Society for Agricultural Machinery202455(5):186-195.

[13]

Chen J YYang T JZhang D Met al. Deep learning based classification of rock structure of tunnel face [J]. Geoscience Frontiers202112(1): 395-404.

[14]

Deo A JSahoo ABehera S Ket al. Vision-based size classification of iron ore pellets using ensembled convolutional neural network [J]. Neural Computing and Applications202234(21): 18629-18641.

[15]

Zhou W YWang HWan Z B. Ore image classification based on improved CNN [J]. Computers and Electrical Engineering202299: 107819.

[16]

王伟,李擎,张德政,.基于深度学习的矿石图像处理研究综述[J].工程科学学报202345(4):621-631.

[17]

Wang WeiLi QingZhang De-zhenget al. A survey of ore image processing based on deep learning [J]. Chinese Journal of Engineering202345(4): 621-631.

[18]

Ren S QHe K MGirshick Ret al. Faster R-CNN: towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence201739(6): 1137-1149.

[19]

Redmon JDivvala SGirshick Ret al. You only look once: unified, real-time object detection [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, 2016: 779-788.

[20]

Liu WAnguelov DErhan Det al. SSD: single shot multibox detector [C] // ECCV 2016: 14th European Conference. Amsterdam, 2016: 21-37.

[21]

Zhang S FWen L YBian Xet al. Single-shot refinement neural network for object detection [C] //2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, 2018: 4203-4212.

[22]

Lin T YDollár PGirshick Ret al. Feature pyramid networks for object detection [C] // 2017 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu,2017: 2117-2125.

[23]

He K MZhang X YRen S Qet al. Deep residual learning for image recognition [C] // 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, 2016: 770-778.

[24]

Pratt W K. Digital image processing: PIKS scientific inside [M]. Hoboken: Wiley-Interscience, 2007.

[25]

Chinchor NSundheim B. MUC-5 evaluation metrics [C] // Proceedings of the 5th Conference on Message Understanding—MUC 5’93. Baltimore, 1993: 69-78.

[26]

Frankes W BBaeza-Yates R. Information retrieval: data structure & algorithms [M]. Englewood cliffs: PrenticeHall, 1992.

基金资助

国家自然科学基金资助项目(42204140)

辽宁省自然科学基金资助项目(2022-MS-107)

AI Summary AI Mindmap
PDF (9737KB)

142

访问

0

被引

详细

导航
相关文章

AI思维导图

/