PDF
摘要
目的 本研究基于ADNI(Alzheimer's disease neuroimaging initiative)数据库构建阿尔茨海默病(Alzheimer's disease,AD)的风险预测模型,为更好地了解AD提供理论基础,同时也为合理配置卫生资源及制定预防控制策略提供参考依据。方法 下载ADNI数据库的ADNIMERGE、UPENNBIOMK、ADNINIGHTINGALELONG及DXSUM数据集,利用随机森林算法对缺失值进行填补。先通过LASSO回归进行变量筛选,针对组间不平衡采用Borderline-1 SMOTE重采样调整后,纳入包括XGBoost、随机森林、bagging、AdaBoost和支持向量机在内的基分类器,然后基于voting和stacking策略构建增强集成分类器预测模型。通过在验证集上计算Youden指数、曲线下面积(area under curve,AUC)、F-score、G-mean、准确度、马修斯相关系数(Matthews correlation coefficient,MCC)和Kappa值对模型的效能进行评价和比较。结果 无论是基分类器还是增强型集成分类器,针对平衡后数据的分类器性能都有不同程度的提升。基于优势基分类器构建的stacking和voting增强型集成分类器型性能相较基分类器有更好的性能。平衡后基分类器中XGBoost的性能更优(AUC:0.9090,accuracy:0.9091),增强型集成分类器中voting算法的性能更优(AUC:0.9178,accuracy:0.9179)。结论Borderline-1 SMOTE重采样调整数据后,基分类器和增强分类器的性能均得到提升。针对平衡数据的XGBoost基分类器和voting增强集成分类器可以有效辅助临床上阿尔茨海默病的疾病进展预测。
关键词
机器学习
/
重采样
/
分类器
/
阿尔茨海默病
Key words
基于重采样和集成分类器的阿尔茨海默病进展的预测研究[J].
中国卫生统计, 2025, 42(05): 699-704+712 DOI: