基于特征选择的集成学习方法在预测中国老年人轻度认知障碍中的应用

孙雅宁; 张恒川; 陈银银; 曹雅雯; 方闻斌; 陈莹莹; 邵珊珊; 潘贵霞

中国卫生统计 ›› 2025, Vol. 42 ›› Issue (05) : 705 -712.

孙雅宁, 张恒川, 陈银银, 曹雅雯, 方闻斌, 陈莹莹, 邵珊珊, 潘贵霞

作者信息 +

Author information +

文章历史 +

PDF

摘要

目的基于集成学习方法构建中国老年人群中的轻度认知障碍(mild cognitive impairment,MCI)风险预测模型，并对其进行验证，以便早期识别MCI患者并及时给予干预措施。方法选择2008—2018年中国老年健康影响因素追踪调查(Chinese longitudinal health longevity study,CLHLS)中的8691名老年人作为研究对象，将2008—2014年的数据作为训练集，2014—2018年的数据作为测试集，使用中文版简易精神状态检查量表(Chinese version of the mini-mental state examination,CMMSE)量表对参与者的认知状态进行评估。采用递归特征消除-随机森林(recursive feature elimination-random forest,RFE-RF)、Boruta、互信息(mutual information,MI)和额外树(extra trees classifier,ETC )四种特征选择算法识别预测因素并筛选出共同预测因素。采用logistic回归(logistic regression,LR)、随机森林(random forest,RF)、线性判别分析(linear discrimination analysis,LDA)、K近邻(K-nearest neighbors,KNN)和朴素贝叶斯(na?ve bayes,NB)五种单一基础模型和融合这五种基础模型的stacking集成模型预测中国老年人轻度认知障碍风险，并使用一致率、精确率、召回率、F1分数、受试者工作特征下面积(area under the receiver operating characteristic,AUROC)和精确率-召回率曲线下面积(area under the precision-recall curve,AUPRC)评估模型性能。结果不同特征选择算法下stacking集成模型的表现均优于任何单一基础模型，其AUROC均大于0.9，而特征选择算法ETC+stacking集成模型表现最好，测试集中的AUROC和AUPRC分别为0.912和0.872。结论 stacking集成模型在预测MCI方面，显示出优越的性能。这对于及时识别MCI高危人群，减轻我国老年人MCI带来的沉重负担，为我国健康老龄化战略提供了有力支持。