基于Stacking集成学习的CT图像质量分类

刘怡文; 温涛; 毕远国; 朱宏博

doi:10.12068/j.issn.1005-3026.2025.20240225

东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (11) : 30 -36. DOI: 10.12068/j.issn.1005-3026.2025.20240225

信息与控制

基于Stacking集成学习的CT图像质量分类

刘怡文 ¹^,² ,
温涛 ² ,
毕远国 ² ,
朱宏博 ²^,³

作者信息 +

CT Image Quality Classification Based on Stacking Ensemble Learning

Yi-wen LIU ¹^,² ,
Tao WEN ² ,
Yuan-guo BI ² ,
Hong-bo ZHU ²^,³

Author information +

文章历史 +

PDF (1931K)

摘要

计算机断层扫描成像因低成本和高效性成为医学影像的一种重要形式，然而图像质量下降对诊断和预后造成严重干扰.针对单分类器性能有限，无法满足高精度CT（computed tomography）图像质量分类需求的问题，提出一种面向伪影识别的Stacking集成学习方法.基于分类多样性和各分类器性能考虑，选取具有异构性能的随机森林（random forest,RF)、反向传播神经网络（back propagation neural network，BPNN）和Inception v3作为基分类器，采用极限梯度提升(eXtreme gradient boosting，XGBoost)作为元学习器.实验结果表明，该方法准确率达到99.2%，使得模型的分类效果有所保证，能够满足不均衡数据集条件下CT图像质量分类的高准确率需求.

Abstract

Computed tomography （CT） imaging has become an important form of medical imaging due to its low cost and high efficiency. However， the decline in image quality causes serious interference to diagnosis and prognosis. The limited performance of a single classifier cannot meet the requirements of high-precision CT image quality classification. To address this issue， a method based on Stacking ensemble learning was designed for artifact recognition. Based on classification diversity and individual classifier performance， random forest （RF）， back propagation neural network （BPNN）， and Inception v3， all of which are heterogeneous， were selected as the base classifiers. Extreme gradient boosting （XGBoost） was used as the meta-learner. The experimental results show that the accuracy of this method reaches 99.2%， which ensures the classification effect of the model and can meet the high accuracy requirements for CT image quality classification under the condition of an unbalanced dataset.

Graphical abstract

关键词

CT图像 / 质量分类 / Stacking集成学习 / 不均衡数据集 / 复杂网络

Key words

CT image / quality classification / Stacking ensemble learning / unbalanced dataset / complex network

引用本文

引用格式 ▾

刘怡文,温涛,毕远国,朱宏博. 基于Stacking集成学习的CT图像质量分类[J]. 东北大学学报(自然科学版), 2025, 46(11): 30-36 DOI:10.12068/j.issn.1005-3026.2025.20240225

登录浏览全文

4963

注册一个新账户忘记密码

在图像质量分类领域，鉴于不同模型在特征提取与分类方法上存在的显著差异，单独依赖某一特征或分类手段往往难以达成高精度的分类目标.集成学习^［1］作为一种高效的学习范式，通过构建并融合多个分类器的预测能力，不仅能够促进不同分类器之间的优势互补，提升整体的分类性能，而且能够在一定程度上降低对大规模训练数据的依赖性.影响集成算法性能的两个核心要素：一方面，当每个基分类器的精度得以提升时，泛化误差的平均值会随之降低，进而促使集成分类器的整体泛化误差减小；另一方面，基分类器间的差异性是影响集成分类器整体性能的关键因素.基分类器间的泛化误差相关性越小，意味着它们之间的差异性越大，这有助于提升集成分类器的整体泛化能力.差异性大的基分类器能够从不同角度捕捉数据的特征，从而增强集成模型对复杂问题的处理能力.因此，提升基分类器的分类精度和增强基分类器之间的差异性是提高集成分类器整体性能的有效途径.这为集成学习领域提供了理论指导，即在设计和实施集成策略时，需同时考虑基分类器的准确性和多样性，以确保集成模型在复杂分类任务中达到最优的分类效果.

许多研究表明，与仅使用单个分类器相比，集成学习可以获得更好的结果^［2］.集成学习已被应用于计算机视觉领域^［3］.近年来，医学影像分析领域也采用了集成学习来改进深度学习模型的结果^［4-6］.Mohebbian等^［7］通过Stacking集成学习方法将医学图像运动伪影分成5类，取得了91.6%的准确率.Huertas-Tato等^［8］通过结合卷积神经网络（convolutional neural network，CNN）模型框架的预测结果与传统图像手工特征的机器学习分类器的预测结果，使得图像分类性能实现了提升，验证了多模型集成的有效性.Ding等^［9］采用两阶段集成学习方法对黑色素瘤进行分类，有效提升了基分类器的准确率和鲁棒性.

Stacking是一种分层的集成学习方法^［10］.首先，使用初级分类器对训练数据进行预测；然后，将这些初级分类器的输出作为特征，输入到一个次级分类器中进行训练.这一过程可视为一个两阶段的学习过程：在第一阶段，训练多个基础模型以捕捉数据的不同特征；在第二阶段，利用这些基础模型的输出作为新的特征集，训练一个元模型来整合这些特征并作出最终预测.Stacking 方法的关键在于选择合适的基础模型和元模型，以及适当的训练策略来确保模型的泛化能力.这种方法能够充分利用不同模型之间的互补性，从而提高整体的预测性能.理论上，Stacking方法可以涵盖Bagging和Boosting方法，在处理复杂分类问题时尤为有效，其能够捕获并整合多个模型在不同方面的判别信息，具有更优的分类性能.

1 融合物理特征与结构特征的信息提取方法

1.1 面向 CT图像的像素级结构特征提取

在CT图像质量分类中，CT图像特征提取的完备性和可解释性对分类性能起着关键性作用.CT图像包含人体器官组织信息，其结构和分布常呈现出拓扑复杂性.单一的基于纹理特征提取方法难以全面表征CT图像的特征，仅注重图像纹理的描述，而忽略了结构特征的提取，对特征的理解不够全面，无法获取到原始CT图像中具有鉴别力的特征，易带来误判，难以在CT图像质量分类的实际应用中落地.网络科学理论为描述系统复杂性提供了一套有效的方法论.该方法利用节点与边对系统构成要素及其相互作用进行建模，从而将不同形态与功能的复杂结构抽象为统一的图表示.得益于其高度的灵活性和通用性，该理论已在诸多学科领域中得到广泛应用.通过对图进行分析，能够深刻认识其结构和相应的网络拓扑特征，这在各种复杂网络中成为了研究热点.复杂网络是复杂系统的高度简化模型，为理解复杂系统的性质和功能提供了一种方法^［11］.因其功能强大、灵活性强和具有普适性而引起了越来越多的关注.许多跨学科的应用都是基于网络科学理论进行研究^［12-15］.通过复杂网络的构建可以得到网络的拓扑结构并实现对网络拓扑的分析.然而，使用网络科学理论对医学图像伪影识别方面的研究很少.目前复杂网络建模一般只针对复杂系统的网络分析，很少有人用复杂网络进行形状或图像建模.本文应用网络科学理论建立了基于图的分析方法来保留结构信息和提取节点特征，可以不考虑传统图像识别方法中涉及到的节点位置、节点顺序，从而简化建模难度.表1为本文相关符号及其定义.

CT图像网络图表示的数学形式如下：

G = （ V, E ）

.(1)

在基于像素级的图像构建方法中，每个像素都被视为1个节点，

E

是图中不同节点之间的连边，所构造的复杂网络是无向的.图像中像素间的关系形成的复杂系统可以转化成为复杂网络的表现形式.在图构建过程中，像素点作为节点，基于半径、阈值、边权重等参数对网络规模进行控制.图1为典型的无伪影及有伪影图像，图2为图1的拓扑结构.

完成图构建后对生成的复杂网络进行特征提取，得出相应的复杂网络指标.复杂网络结构特征^［16-17］分为节点级别以及网络级别.通过对拓扑特征的研究可以更为深入地理解网络结构，认识形成网络功能的结构化依据.复杂网络的相关指标如下：

度（degree）：属于节点级别特征，刻画单个节点属性，表示节点与网络中其他节点的连边数量，表达了网络的连边特性.在文章构建的无向图中，节点的度是指该节点与网络中所有节点的连边数量之和.某一节点的度值越大，说明该节点与网络中其他节点连边数量就越多，即该节点在构建的网络中越为重要.

平均度（average degree）：属于网络级别特征，用于刻画网络整体特征.图

G

的平均度

k m

是图的所有节点度除以其节点数的总和N.

k m = 1 N ∑ i = 1 N k i

.(2)

式中，节点i的度为k_i .

平均聚类系数（average clustering coefficient）：度量网络中节点之间连接的紧密程度.对于网络中任意度为k_i 的节点i，其邻居节点之间存在连边的可能性记为聚类系数C_i，E_i 为实际存在的连边数.

C i = 2 E i k i (k i - 1)

.(3)

网络中所有节点聚类系数的平均值即为平均聚类系数.

C = 1 N ∑ i = 1 N C i

.(4)

边数（number of edges）：可用于表征网络规模的图级特征.

1.2 面向CT图像的纹理特征提取

纹理作为一种反映图像中同质现象的视觉特征，描述了物体表面结构组织排列的缓慢或周期性变化，是自然界中普遍存在却又难以精确描述的一种视觉感知.纹理特征作为图像分析中的一个关键维度，其提取和表达一直是研究的热点和难点，对于质量分类至关重要.作为图像内容的基础特征之一，纹理的正确认知及其相关概念的深入理解，是后续CT图像分类工作的基石.

对于灰度图像的纹理特征提取，灰度共生矩阵（gray level co-occurrence matrix， GLCM）是一种有效的方法^［18］.图像的纹理特征源自灰度值在空间位置上的重复分布模式，这种分布导致图像中相隔一定距离的两像素间存在着特定的灰度共生关系.GLCM基于这一关系构建，详细记录了图像在某一特定方向上且相隔固定距离时，各灰度等级像素对出现的统计频次.具体而言，GLCM通过对图像进行细致分析，统计了在给定方向和距离条件下，所有可能的灰度值组合出现的次数.这一统计过程不仅揭示了图像灰度值的分布特征，还深入刻画了具有相似或相近灰度值像素间的空间位置关系.因此，GLCM不仅是关于图像灰度变化的二阶统计特征，更是图像纹理特征的重要量化表示.

文章采用了GLCM的4个主要特征值：对比度（contrast）、相关性（correlation）、能量（energy）和均质性（homogeneity），以量化CT图像在伪影影响下的微观质量退化.对比度反映了图像中局部灰度变化的快慢，相关性描述了图像中灰度值的线性相关程度，能量表征了图像灰度分布的均匀性和纹理的粗细程度，而均质性则反映了图像中局部区域灰度分布的均匀性.

对比度：衡量图像局部灰度变化剧烈程度的重要指标，其直接关联到图像的清晰度和纹理沟纹的深浅.具体而言，对比度反映了图像中相邻像素灰度值差异的统计特性，这种差异越大意味着图像中的纹理沟纹越深，视觉清晰度越高；反之，若对比度较小，则表明纹理沟纹较浅，视觉效果趋于模糊.

相关性：旨在描述图像中像素与其周边像素或特定参数之间的关联程度.其取值范围在-1至1之间，这一区间不仅涵盖正相关的情况，也包含负相关的情况，从而全面反映图像灰度值之间的相互作用.相关性特征深刻揭示了图像的局部灰度相关性，其通过对GLCM的元素在行或列方向上的相似性进行度量，来捕捉图像纹理的细微变化.具体而言，当灰度共生矩阵的元素值差异较小时，表明相邻像素的灰度值相近，此时相关性较大；反之，若元素值差异显著，则相关性较小.

能量：用于量化图像中重复像素对的出现频率及灰度分布的随机性程度，反映图像灰度分布的均匀性特征，是表征图像纹理特征的关键指标.此外，像素间的高度相关性也会导致能量值的显著提升.能量定义为灰度共生矩阵元素值的平方和，该指标既能表征图像灰度分布的均匀程度，又能反映纹理的粗细特征.能量值的大小可以作为评估图像纹理模式均一性与规则性的重要依据.能量特征分析对于揭示图像的内在结构与功能特性具有至关重要的意义.

均质性：用于评估矩阵元素相对于主对角线的聚集程度.这一指标深刻反映了图像灰度级的丰富程度及其变化的平缓性.具体而言，当1幅图像的灰度级分布广泛且变化平缓时，其GLCM中的元素会更加集中于主对角线附近，从而呈现出较高的均质性值.均质性值的高低，直接关联到图像中两个对象之间灰度色调的差异程度.当均质性值较高时，意味着图像中的像素对在灰度上更加接近，图像呈现出一种更为均匀或平滑的视觉效果.相反，若均质性值较低，则表明图像中的灰度变化更为剧烈，从而呈现出更为复杂或多样的纹理特征.

在质量分类领域，纹理特征提取是一种备受青睐且成效显著的方法.这一方法之所以受到广泛重视，是因为纹理特征能够精准地描绘图像中那些反复出现的局部模式.这些局部模式作为图像的重要构成元素，其分布和排列方式往往蕴含着丰富的信息，是图像分析和理解不可或缺的一环.当图像中存在伪影时，这些异常的局部模式便会在纹理特征中得到显著体现.伪影作为图像质量受损的直接表现，其存在往往会打破原有纹理的规律性和一致性，导致纹理特征发生异常变化.因此，通过提取和分析图像的纹理特征，可以有效地检测和识别出图像中的伪影，为图像质量分类提供有力支持.

物理特征和结构特征缺一不可，互为补充.融合物理特征与结构特征的信息提取方法有助于全面认识和理解CT图像.

2 基于Stacking集成学习的CT图像质量分类方法

2.1 方法设计

基于Stacking集成学习的图像质量分类方法是一种利用集成学习技术来提高图像质量检测准确率的方法.首先，基于Stacking的方法使用数据集训练每个基学习器.这些学习器将在Stacking框架的第一层中独立运行.然后，将每个基学习器的输出作为特征，构建一个新的数据集，完成第一层的集成.最后，使用第一层集成得到的新数据集来训练元学习器.元学习器负责整合基学习器的预测结果并作出最终的决策.

随机森林（RF）、BP神经网络（BPNN）以及Inception v3等是数据分类中常用的方法.选取RF，BPNN和Inception v3作为基分类器，XGBoost作为元分类器.图3所示为使用Stacking集成学习进行质量分类的模型.模型分为两个阶段：第一阶段使用基分类器对样本进行初步分析，获得多个结果，并将结果汇总成新的训练集；第二阶段使用元分类器，将第一阶段的多个结果作为训练样本输入到元分类器中训练和使用，得到最终的分类结果.通过构建两阶段Stacking集成学习模型可以避免单个模型精度较低的问题，同时通过对各个单一分类器的优点进行融合，有效提升模型的分类准确率.

2.2 评价指标

对于二值分类问题，有伪影和无伪影的CT图像分别被确定为正例和负例.真阳性（TP）指受伪影影响的图像被正确识别为有伪影的情况；假阳性（FP）指无伪影图像被误识别为有伪影的情况；真阴性（TN）指无伪影的图像被正确识别为无伪影的情况；假阴性（FN）指受伪影影响的图像被错误识别为无伪影的情况.在获得TP，TN，FP和FN后，构建多个评价指标，从准确率、灵敏度、特异性等不同角度评估模型分类性能.通过测试集的准确率、灵敏度和特异性来综合评价模型性能.

准确率（Accuracy）表示正确分类样本数与预测样本总数的比值.

A c c u r a c y = T P + T N T P + F P + F N + T N

.(5)

灵敏度（Sensitivity）是指在所有考虑的伪影图像中，能被模型正确识别为阳性结果的图像所占的比例.

S e n s i t i v i t y = T P T P + F N

.(6)

特异性（Specificity）是指在所有没有伪影的图像中，能被正确识别为阴性结果的样本所占的比例.

S p e c i f i c i t y = T N F P + T N

.(7)

2.3 实验结果

实验使用从不同医院医疗设备采集的CT图像数据，共包含10 552个样本，其中有伪影CT图像2 177张，无伪影CT图像8 375张.所有标注均由具有CT影像分析经验的医生完成，确保图像数据均被正确标注.数据划分情况如表2所示.

通过不同种类基分类器对CT图像质量进行分类，结果如表3所示.

由表3可以看出，Inception v3在基分类器中表现最佳；然而，单一分类器在处理不均衡的CT图像数据集时仍存在一定的局限性.

为克服单一分类器的局限性，本研究采用基于Stacking集成学习方法对图像质量进行分类，并与其他方法进行对比分析，如表4所示.

提出的Stacking集成模型取得了最优的结果.通过图4可以看出，所提出的基于Stacking集成学习方法取得了最高的准确率，其准确率达到99.2%.与单一分类器相比，提出的Stacking集成学习模型的整体性能优于单一分类器，比单一分类器中性能最佳的Inception v3模型在准确率上提高了2.2%.在准确率方面最大提升幅度达6%.Stacking集成学习模型能够有效解决大规模不均衡数据集条件下的质量分类问题.

由图5可知，所提出的基于Stacking集成学习方法，BPNN+Inception v3，Inception v3+RF+BPNN模型取得了较高的灵敏度，均优于单一分类器的灵敏度.提出的基于Stacking集成学习方法比单一分类器中最优灵敏度提高了6.4%.与单一分类器相比，在灵敏度上最多提高了12.8%.

由图6可知，所提出的基于Stacking集成学习方法特异性最优，其特异性达到99.4%，比单分类器的最好性能模型Inception v3在特异性上提高1.2%，比单分类器最多提高了4.3%.

实验结果表明，提出的Stacking集成学习方法能够弥补单分类器性能的不足，有效表征图像特征，从而提高CT图像质量分类能力.同时，实验结果证明了模型选择和策略选择的有效性，以及模型的泛化能力.通过利用不同模型之间的互补性，提高了整体的性能，基本可弥补人工判别带来的误差.

图7及图8为部分CT质量分类可视化结果.

由于拓扑结构特征为质量分类的性能提升提供了重要支撑，为探究有伪影图像与无伪影图像的拓扑结构差异，在不同部位对平均度、边数及平均聚类系数进行了比较研究，结果如图9~图11所示.

由图9可以看出，尽管部位不同，有伪影图像的平均度均大于无伪影图像的平均度，即伪影导致了图像在拓扑结构特征上的变化（如有伪影图像的平均度增加）.由图10可以看出，尽管部位不同，有伪影图像的边数较无伪影图像的边数更大.由图11可以看出，尽管部位不同，有伪影图像的平均聚类系数都大于无伪影图像的平均聚类系数.伪影的存在造成了有伪影图像在平均度、边数和平均聚类系数上相对于无伪影图像的显著差异.有伪影图像及无伪影图像平均度、边数、平均聚类系数的关系具有普适性.

为了探究模型的泛化能力，在多分类问题中进行验证，数据集由“轻微伪影”、“严重伪影”以及“无伪影”图像组成.通过Stacking集成学习方法得出性能指标如表5所示.结果表明，该方法满足多分类问题需求.

3 结论

1）为了更全面地刻画CT图像像素间的关系，提出了一种融合物理特征与结构特征的信息提取方法.

2）基于Stacking集成学习模型通过整合多个基础模型的预测结果，能够深入捕捉CT图像特征，提升CT图像质量的分类性能.实验结果表明，所提出的算法能够满足大规模不均衡数据集条件下的质量分类需求.

3）通过分析复杂网络拓扑指标，探究了不同质量CT图像对应网络拓扑结构的差异性特征，得出具有普适性的结论.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Ganaie M A， Hu M H， Malik A K， et al. Ensemble deep learning： a review［J］. Engineering Applications of Artificial Intelligence， 2022，115：105151.

[2]	Yu Z W， Wang D X， Zhao Z X， et al. Hybrid incremental ensemble learning for noisy real-world data classification［J］. IEEE Transactions on Cybernetics， 2019， 49（2）： 403-416.

[3]	Dang T， Nguyen T T， McCall J，et al. Two-layer ensemble of deep learning models for medical image segmentation［J］. Cognitive Computation，2024，16（3）： 1141-1160.

[4]	Ghamya K， Reddy M K. Internet of medical things-based ECG monitoring for arrhythmia classification utilizing metaheuristic optimization with ensemble deep learning model［J］. Cluster Computing， 2025，28（6）： 369.

[5]	Ganaie M A， Tanveer M. Ensemble deep random vector functional link network using privileged information for Alzheimer’s disease diagnosis［J］. IEEE/ACM Transactions on Computational Biology and Bioinformatics， 2024， 21（4）： 534-545.

[6]	Yang Y， Hu Y， Zhang X， et al. Two-stage selective ensemble of CNN via deep tree training for medical image classification［J］. IEEE Transactions on Cybernetics， 2022， 52（9）： 9194-9207.

[7]	Mohebbian M R， Walia E， Habibullah M， et al. Classifying MRI motion severity using a stacked ensemble approach［J］.Magnetic Resonance Imaging， 2021，75： 107-115.

[8]	Huertas-Tato J， Martín A， Fierrez J，et al. Fusing CNNs and statistical indicators to improve image classification［J］.Information Fusion，2022，79：174-187.

[9]	Ding J Q， Song J， Li J W， et al. Two-stage deep neural network via ensemble learning for melanoma classification［J］. Frontiers in Bioengineering and Biotechnology， 2021， 9： 758495.

[10]	Schapire R E. The strength of weak learnability［J］. Machine Learning， 1990， 5（2）： 197-227.

[11]	Boccaletti S， De Lellis P， del Genio C I， et al. The structure and dynamics of networks with higher order interactions［J］. Physics Reports， 2023， 1018： 1-64.

[12]	Yang K W， Li J C， Liu M D，et al. Complex systems and network science：a survey［J］. Journal of Systems Engineering and Electronics， 2023， 34（3）： 543-573.

[13]	Battiston F， Amico E， Barrat A， et al. The physics of higher-order interactions in complex systems［J］. Nature Physics， 2021， 17（10）： 1093-1098.

[14]	Baggio G， Bassett D S， Pasqualetti F. Data-driven control of complex networks［J］. Nature Communications， 2021， 12： 1429.

[15]	Girvan M， Newman M E J. Community structure in social and biological networks［J］. Proceedings of the National Academy of Sciences of the United States of America， 2002， 99（12）： 7821-7826.

[16]	Barabási A L， Albert R. Emergence of scaling in random networks［J］. Science， 1999， 286（5439）： 509-512.

[17]	Albert R， Barabási A L. Statistical mechanics of complex networks［J］. Reviews of Modern Physics， 2002， 74（1）： 47-97.

[18]	Hall-Beyer M. Practical guidelines for choosing GLCM textures to use in landscape classification tasks over a range of moderate spatial scales［J］. International Journal of Remote Sensing， 2017， 38（5）： 1312-1338.