PDF (1099K)
摘要
目的 应用一种可以同时解决少数类和多数类类间和类内不平衡问题的类别不平衡处理方法,并将其与随机森林(random forest, RF)分类器结合实现对弥漫大B细胞淋巴瘤(diffuse large B-cell lymphoma, DLBCL)患者早期复发的预测,为DLBLC患者的治疗提供参考。方法 首先使用一种基于高斯混合模型双向聚类重采样的类别不平衡处理方法(Gaussian mixture model, GMM-GMM)处理数据,并与随机过采样(random over sampling, ROS)、合成少数类过采样技术(synthetic minority over-sampling technique, SMOTE)、Borderline-1 SMOTE、Borderline-2 SMOTE、GMM上采样、GMM下采样、SMOTE+RUS、SMOTE+GMM和GMM+RUS进行比较,然后以RF作为分类器验证10种类别不平衡方法的性能,之后为验证RF的性能,在处理后的数据集上使用logistic回归和决策树(decision tree, DT)作为对照,最后从区分度和校准度两方面对模型进行评价。结果 在本文所有模型中,采用GMM-GMM的RF模型取得了相对最优的分类性能(accuracy=0.79, AUC=0.87, sensitivity=0.71, specificity=0.87, G-means=0.79, MSE=0.21)。结论 GMM-GMM优于其他传统的重采样方法,结合RF用于DLBCL患者早期复发的预测取得了相对较好的分类结果,可以很好地实现对DLBCL患者早期复发的预测。
关键词
类别不平衡
/
高斯混合模型聚类重采样
/
随机森林
/
复发预测
/
弥漫大B细胞淋巴瘤
Key words
基于高斯混合模型双向聚类重采样和随机森林构建DLBCL早期复发预测模型[J].
中国卫生统计, 2025, 42(01): 7-11+17 DOI: