PDF
摘要
目的 探讨结直肠腺瘤性息肉发生的危险因素并构建决策树(decision tree, DT)、随机森林(random forest, RF)、极端梯度提升(xtreme gradient boosting, XGBoost)、支持向量机(support vector machine, SVM)风险预测模型,并评估各模型效能,为结直肠腺瘤性息肉早期诊断和早期干预提供依据。方法 回顾性收集2019年12月至2024年5月在兰州大学第一医院行结肠镜检查患者的临床资料(共31项指标),采用单因素及多因素Logistic回归分析筛选结直肠腺瘤性息肉发生的危险因素。将数据集按8∶2随机分组方式分为训练集和测试集,将其筛选重要变量纳入DT、RF、XGBoost及SVM算法中并构建模型,分别计算模型的敏感度、特异度、准确度、AUC等,筛选出最优模型。并对纳入变量的重要性进行评估。结果 根据单因素及多因素Logistic回归分析结果提示:年龄、吸烟史、饮酒史、便秘史、脂肪肝、息肉直径及息肉数目为结直肠腺瘤性息肉发生的独立危险因素。采用DT、RF、SVM、XGBoost等四种机器学习算法构建预测模型,训练集AUC值分别为0.830、0.828、0.765、0.820;测试集AUC值分别为0.724、0.717、0.705、0.725。其中测试集结果显示,XGBoost的AUC值最高(0.725),DT次之(0.724)。Delong检验显示,各模型之间的AUC值差异无统计学意义(P>0.05)。DT和XGBoost在训练集和测试集上的分类性能在敏感度、特异度、准确度上具有一致性。特征重要性评估显示年龄的重要性最大,其次是息肉数目。结论 本研究基于机器学习成功建立了4种结直肠腺瘤性息肉风险预测模型,DT和XGBoost均为预测结直肠腺瘤性息肉发生的最优模型。
关键词
结直肠腺瘤性息肉
/
危险因素
/
预测模型
/
机器学习
Key words
基于机器学习结直肠腺瘤性息肉风险预测模型建立与评估[J].
胃肠病学与肝病学杂志, 2025, 34(12): 1738-1745 DOI: