基于机器学习的骨质疏松风险预测模型的构建与评价

赵睿; 吴卓青; 陈静锋; 丁素英; 陈淑琬; 孙博

doi:10.13705/j.issn.1671-6825.2024.10.085

郑州大学学报（医学版） ›› 2025, Vol. 60 ›› Issue (06) : 842 -846. DOI: 10.13705/j.issn.1671-6825.2024.10.085

基于机器学习的骨质疏松风险预测模型的构建与评价

赵睿, 吴卓青, 陈静锋, 丁素英, 陈淑琬, 孙博

作者信息 +

Author information +

文章历史 +

PDF

摘要

目的:采用机器学习方法探讨骨质疏松相关预测因素，并构建骨质疏松风险预测模型。方法:回顾性选取2020年5月至2021年12月于郑州大学第一附属医院健康管理中心进行健康体检的1 553例受检者为研究对象，按7∶3随机分为训练集(n=1 088)和测试集(n=465),使用Logistic回归筛选骨质疏松预测因素，分别使用类别提升(CatBoost)、随机森林、Logistic回归、支持向量机4种机器学习方法构建模型，采用ROC曲线、校准曲线、决策曲线分析(DCA)等评估模型性能，通过特征重要性和SHAP可解释性分析讨论骨质疏松的危险因素。结果:基于性别、年龄、SBP、HbA1c、疾病史构建骨质疏松风险预测模型，其中CatBoost模型在训练集与测试集获得了最优的AUC(95%CI),分别为0.861(0.835～0.888)与0.833(0.783～0.883);校准曲线显示预测概率与实际情况相符；且DCA结果提示，当训练集与测试集中风险概率阈值<75%时，CatBoost均获得较高的净收益。模型的SHAP可解释性分析显示年龄、性别、HbA1c依次为骨质疏松预测的前三大重要特征(SHAP分别为0.127、0.028、0.006)。结论:基于CatBoost方法构建的骨质疏松风险预测模型具有较好的预测效果，可为临床早期筛查及干预提供决策依据。