PDF
摘要
目的 探讨结直肠无蒂锯齿状病变(SSL)发生的危险因素,构建可解释的机器学习预测模型。方法 选取2019年1月—2024年10月于徐州医科大学附属徐州市立医院消化内镜中心接受结肠镜检查的患者作为研究对象。收集患者的临床资料和实验室检查结果。根据结肠镜检查结果和病理报告,将患者分为SSL组和对照组,按照7∶3的比例随机分为训练集与验证集。通过单因素分析筛选SSL发生的相关危险因素,并通过LASSO回归筛选特征性预测变量。使用Python软件构建4种机器学习模型,包括逻辑回归(LR)、支持向量机(SVM)、随机森林(RF)和极端梯度提升(XGBoost)模型。绘制受试者工作特征(ROC)曲线,评估4种机器学习模型的性能。根据Shapley加法解释(SHAP)方法解释LR模型。绘制SHAP直方图和SHAP摘要图,评估模型预测效能。结果 最终纳入628例患者(SSL组329例,对照组299例)。单因素分析结果显示,年龄、性别、体重指数(BMI)、吸烟史、饮酒史、高血压病史、白细胞计数、中性粒细胞计数、中性粒细胞/淋巴细胞比值(NLR)、单核细胞计数、红细胞计数、血红蛋白、空腹血糖、总胆固醇(TC)、甘油三酯(TG)、TC/高密度脂蛋白(HDL)、TG/HDL、TyG指数是SSL发生的相关危险因素(P<0.05)。LASSO回归结果显示,年龄、性别、BMI、吸烟史、饮酒史、高血压、白细胞计数、NLR、单核细胞计数、血红蛋白、空腹血糖、TC、TC/HDL、TyG指数是筛选出的14个关键预测因子。ROC曲线分析显示,LR模型预测SSL发生的AUC值为0.79,优于其他3种模型。LR模型的SHAP直方图结果显示,预测变量的重要性排序为:年龄、血红蛋白、性别、TyG指数、吸烟史。年龄增大、Hb升高、TyG指数升高、男性和有吸烟史的个体对SSL的预测影响较大。结论 基于机器学习算法的可解释LR模型对SSL具有较高的预测价值。
关键词
结直肠癌
/
无蒂锯齿状病变
/
机器学习
/
逻辑回归
/
预测模型
Key words
基于机器学习算法构建可解释的结直肠无蒂锯齿状病变风险预测模型[J].
徐州医科大学学报, 2025, 45(10): 753-759 DOI: