基于机器学习优化的血液指标肺结核诊断模型：多中心研究

周靖; 丁寿鹏; 蔡子涵

临床与病理杂志 ›› 2025, Vol. 45 ›› Issue (01) : 25 -37.

周靖, 丁寿鹏, 蔡子涵

作者信息 +

Author information +

文章历史 +

摘要

目的：肺结核是一种全球范围内严重的传染性疾病，准确、快速的诊断对于减少传播和优化治疗至关重要。现有诊断方法在资源有限地区推广受限且成本较高，因此开发基于血液指标的经济、高效的诊断工具具有重要意义。方法：本研究纳入121例肺结核患者(结核组)和101例健康对照者(健康对照组)，通过对血液指标的统计分析，筛选出与肺结核显著相关的特征。采用梯度提升决策树(e Xtreme Gradient Boosting,XGBoost)、支持向量机递归特征消除(Support Vector Machine Recursive Feature Elimination,SVM-RFE)和森林之神(Boruta)3种机器学习算法进行特征筛选，并利用筛选出的特征构建多种机器学习模型。随后，通过沙普利加性解释(Shapley Additive Explanations,SHAP)方法对模型特征变量的重要性及贡献进行解释，进一步分析特征的作用机制及对分类性能的影响。结果：结核组多项血液指标与健康对照组之间存在显著差异，其中包括淋巴细胞百分比(lymphocyte percentage,LYM%)、嗜酸性粒细胞百分比(eosinophil percentage,EOS%)、天冬氨酸氨基转移酶(aspartate aminotransferase,AST)、嗜酸性粒细胞绝对值(eosinophil absolute count,EOS#)和中性粒细胞绝对值(neutrophil absolute count,NEU#)等。XGBoost筛选出34个重要特征，SVM-RFE在包含5个特征时性能最佳，而Boruta筛选出15个显著特征。3种机器学习算法的交集包含5个核心特征(LYM%、EOS%、AST、EOS#、NEU#)。在模型构建中，XGBoost在训练组、验证组和外部验证组上的受试者操作特征曲线的曲线下面积分别为0.989、0.975和0.969，验证集正确分类率达94%，表现出最优的性能。SHAP分析进一步验证LYM%对模型预测具有显著的正向贡献，而AST和EOS#具有负向贡献，同时发现特征间有显著的交互作用。结论：本研究通过整合血液指标和机器学习算法成功构建了一种高效的肺结核诊断模型，具有高准确性和良好的泛化能力。与现有的诊断方法相比，该模型基于常规实验室指标，成本低廉且易于推广，特别适用于资源有限的地区。