PDF
摘要
目的 探究导致肺癌发生的潜在风险因子,并运用机器学习(ML)算法建立肺癌发病风险预测模型,为肺癌的防治提供科学依据,以实现精准预防。方法 选取广东某医院2013年1月—2023年12月收治的首次病理确诊肺癌患者共1 066例作为肺癌组,同时,按1∶1比例选取同期健康体检中心体检结果排除肺癌和(或)其他癌症人群1 066例作为对照组。收集2组研究对象的相关资料,包括一般资料、临床资料等。数据集按7∶3的比例随机分为训练集和测试集,训练集中采用最小绝对收缩和选择算子(LASSO)算法筛选有意义的特征变量纳入模型中,以逻辑回归(LR)、随机森林(RF)、多层感知器(MLP)、支持向量机(SVM)、K最近邻(KNN)、轻量梯度提升(Light GBM)、极端梯度提升(XGBoost)、决策树(DT)等8种常用算法建立ML模型,对每一个模型进行贝叶斯优化,并采用五折交叉验证方法对其进行测试,从而得到最优超参数模型的参数配置。通过绘制受试者工作特征(ROC)曲线和决策曲线分析法(DCA)曲线来评估这些模型的区分能力和临床应用的实用性。使用SHAP算法对最佳ML模型进行解释,提升模型重要特征的直观性。最后基于Stacking集成学习组合不同模型以进一步提升模型性能。结果 采用LASSO算法筛选出重要变量,包括年龄、吸烟情况、身体质量指数(BMI)、蔬果食用量、运动时间、文化程度、糖尿病史、癌症家族史、肺癌家族史、慢性支气管炎史、肺气肿史、慢性阻塞性肺病史、长期接触煤烟、长期接触烹饪油烟、长期接触柴草烟雾。在预测模型中,表现最佳的为Light GBM模型,其曲线下面积(AUC)=0.961 8、准确率=0.893 8、精确率=0.894 0、灵敏度=0.880 9、特异度=0.906 5、召回率=0.893 8、F1分数=0.893 7,综合预测性能较好,且在DCA曲线中,Light GBM模型的净收益超过了其他模型。SHAP算法分析提示BMI、年龄、肺气肿史对肺癌发病风险贡献最大。经过Stacking集成学习的新模型准确率大部分高于单一模型,其中以SVM模型作为元学习器时准确率最高,达到89.06%,其AUC为0.915 1。结论 本研究成功构建了基于Light GBM和Stacking集成学习的肺癌发病风险预测模型,确认了多项影响肺癌发病风险的预测因子。在临床实践中,通过预测因子能快速识别高风险患者,为肺癌的早期识别和预防提供了有效工具,有助于实施更加有效的肺癌防治措施。
关键词
机器学习
/
肺癌
/
预测因子
/
预测模型
/
Stacking集成
Key words
肺癌预测因子分析:基于机器学习预测模型构建[J].
保健医学研究与实践, 2025, 22(05): 50-56 DOI: