缺血性脑卒中发病风险预测模型的构建与验证

赵苗苗; 李玉革; 尹胜楠; 阿力玛斯·阿布力孜; 张雨嫣; 贾美湘子; 渠林楠; 杨晓萍; 王增亮

新疆医科大学学报 ›› 2026, Vol. 49 ›› Issue (03) : 411 -419+426.

赵苗苗, 李玉革, 尹胜楠, 阿力玛斯·阿布力孜, 张雨嫣, 贾美湘子, 渠林楠, 杨晓萍, 王增亮

作者信息 +

Author information +

文章历史 +

PDF

摘要

目的基于机器学习算法构建缺血性脑卒中发病风险预测模型。方法纳入2021年1月至2024年12月某三甲医院进行体检的人群为研究对象，通过现场问卷调查、体格检查及实验室检测，收集研究对象的暴露因素、健康结局及相关生物学标志资料。通过单因素分析比较缺血性脑卒中患者与非缺血性脑卒中人群之间的差异，剔除单因素分析P>0.05的特征变量，对保留的特征变量结合重要特征森林图筛选出发生缺血性脑卒中的前20个独立危险因素。将研究人群按照7∶3的比例划分为训练集与测试集，并基于Logistic回归、决策树(Decision tree, DT)、随机森林(Random forest, RF)、支持向量机(Support vector machine, SVM)和轻量梯度提升(Lightgradient boosting machine, LightGBM)5种方法模型构建缺血性脑卒中发病风险预测模型。绘制受试者工作特征曲线(Receiver operating characteristic curve,ROC),比较5种模型的曲线下面积(Area under the curve,AUC)、准确率、F1值、灵敏度与特异度，筛选出最优模型，并对其风险预测概率的准确性及净临床获益进行评价。用沙普利可加性解释(Shapley additive explanations, SHAP)方法对Logistic筛选出P<0.05的特征变量进行预测模型可解释性分析。结果共纳入16 922例样本，其中缺血性脑卒中患者1 800例，非缺血性脑卒中人群15 122例。单因素和重要特征森林图共筛选出20个独立危险因素，分别为年龄、总胆固醇、低密度脂蛋白、脑功能评分、血糖、糖化血红蛋白、高血压病史、身高、白细胞计数、收缩压、尿素、高密度脂蛋白、血红蛋白、舒张压、呼吸系统疾病病史、腰围、出血性卒中病史、冠心病病史、运动频次及饮酒情况。SVM模型在训练集中的AUC(0.986)、准确率(0.978)和F1值(0.956)表现最佳，展现出良好的预测及分类能力。综合比较，SVM为缺血性脑卒中风险预测的最优模型。校准曲线中SVM模型在高概率区间校准性能良好，决策曲线中SVM模型在早期缺血性脑卒中风险识别(低阈值)和高危患者分层(中阈值)中的净获益最高，表现优异。Logistic多因素分析结果显示，身高、运动频次、高密度脂蛋白、低密度脂蛋白、尿素、脑功能评分、呼吸系统疾病病史为缺血性脑卒中的保护因素(β<0,OR<1,P<0.05);年龄、饮酒情况、白细胞计数、血红蛋白、血糖、高血压病史、冠心病病史、出血性卒中病史为缺血性脑卒中的危险因素(β>0,OR>1,P<0.05),其中出血性卒中病史关联强度最高(OR=179.315,95%CI:118.123～272.647,P<0.001);纳入P<0.05的15个特征变量，绘制SHAP汇总图。年龄的SHAP值最高(1.671),对模型预测贡献最为显著。其次为低密度脂蛋白(0.755)、尿素(0.705)和血糖(0.685),均为对预测结果影响较强的特征变量。结论 SVM模型可作为缺血性脑卒中风险预测的有效工具，结合年龄、低密度脂蛋白、尿素、血糖等主要危险因素，可为健康人群早期预防缺血性脑卒中提供参考。