PDF (2704K)
摘要
目的 利用自适应合成抽样(adaptive synthetic sampling, ADASYN)与类别逆比例加权法处理类别不平衡数据,结合分类器构建模型对阿尔茨海默病(alzheimer′s disease, AD)患者疾病进程进行分类预测。方法 数据源自阿尔茨海默病神经影像学计划(Alzheimer′s disease neuroimaging initiative, ADNI),经随机森林填补缺失值,弹性网络筛选特征子集后,利用ADASYN与类别逆比例加权法处理类别不平衡数据。分别结合随机森林(random forest, RF)、支持向量机(support vector machine, SVM)构建四种模型:ADASYN-RF、ADASYN-SVM、加权随机森林(weighted random forest, WRF)、加权支持向量机(weighted support vector machine, WSVM),与RF、SVM比较分类性能。模型评价指标为宏观平均精确率(macro-average of precision, macro-P)、宏观平均召回率(macro-average of recall, macro-R)、宏观平均F1值(macro-average of F1-score, macro-F1)、准确率(accuracy, ACC)、Kappa值和AUC(area under the ROC curve)。结果 ADASYN-RF的分类性能最优(Kappa值为0.938,AUC为0.980),ADASYN-SVM次之。利用ADASYN-RF预测得到的重要分类特征分别为CDRSB、LDELTOTAL、MMSE,在临床上均可得到证实。结论 ADASYN与类别逆比例加权法都能辅助提升分类器性能,但ADASYN算法更优。
关键词
类别不平衡
/
ADASYN
/
加权法
/
阿尔茨海默病
/
分类
Key words
杨慧, 易付良, 陈杜荣, 秦瑶, 韩红娟, 崔靖, 白文琳, 马艺菲, 张荣, 余红梅
ADASYN与类别逆比例加权法在阿尔茨海默病不平衡数据中的应用[J].
中国卫生统计, 2024, 41(02): 175-180 DOI: