PDF (1198K)
摘要
目的 对山西省某肿瘤医院血液科2011—2020年被确诊为弥漫性大B细胞淋巴瘤(diffuse large B-cell lymphoma, DLBCL)并经过治疗达到完全缓解(complete response, CR)的498例患者构建2年内的复发风险预测模型,为患者的临床治疗提供参考。方法 第一步使用最小绝对收缩和选择算子(least absolute shrinkage and selection operator, LASSO)特征选择算法并结合临床医师意见筛选出对DLBCL达到CR的患者两年复发率影响较大的21个变量因素,第二步用SMOTE(synthetic minority oversampling technique)与SMOTE-ENN(synthetic minority oversampling technique and edited nearest neighbor)两种不平衡方法处理数据,将原始未处理数据和两种不平衡方法处理后的数据分别使用7种分类器进行模型预测。第三步用深度森林(deep forest, DF)做复发风险预测模型。第四步使用准确率(accuracy)、查准率(precision)、灵敏度/召回率(sensitivity/recall)、特异度(specificity)、F1值(F1-score)和G均值(G-means)比较模型分类性能,采用Brier分数(Brier score, BS)评价模型校准度。结果 SMOTE-ENN不平衡方法下的深度森林算法表现最好(accuracy=0.932, precision=0.949, recall=0.944, specificity=0.910, F1-score=0.946, G-means=0.926, Brier score=0.068)。结论 本文使用SMOTE-ENN不平衡方法与深度森林分类器结合的方法,对完全缓解的DLBCL患者两年复发进行预测,模型达到预期效果。
关键词
弥漫性大B细胞淋巴瘤
/
不平衡数据
/
复发预测
/
深度森林
Key words
基于SMOTE-ENN和深度森林的弥漫大B细胞淋巴瘤复发风险预测[J].
中国卫生统计, 2025, 42(01): 67-72 DOI: