基于机器学习可解释性框架的流感传播风险模型应用研究

汤舒涵; 殷一; 潘明月; 王小莉; 彭质斌; 王丽萍; 彭志行

中国卫生统计 ›› 2026, Vol. 43 ›› Issue (02) : 162 -166.

汤舒涵, 殷一, 潘明月, 王小莉, 彭质斌, 王丽萍, 彭志行

作者信息 +

Author information +

文章历史 +

PDF

摘要

目的探讨不同机器学习模型在探究北京市流感流行风险预测因素中的应用效果，筛选在测试集中表现最优模型并量化气象因子对流感传播风险的影响。方法基于2020—2024年北京市流感周度实验室确诊记录数据及同期气象资料，估算时变再生数（R_t），以R_t=1.2为阈值将结局转换为二分类变量，构建极端梯度提升模型、轻量级梯度提升机、随机森林和支持向量机四种预测模型，以准确率、精确率、召回率、F1分数及AUC评估模型性能；采用沙普利加性解释（Shapley additive explanations,SHAP）方法对最优模型进行解析，明确关键气象因子的贡献方向与相对重要度。结果 RF模型表现最佳，AUC为0.802，综合预测性能显著优于其他模型。SHAP分析表明，该模型能有效识别气象因子与流感风险之间的关系，其中气压、温度和相对湿度对模型预测的累积贡献度超过85%，且影响方向与流行病学规律一致，印证了模型决策的合理性。结论本研究构建的随机森林模型在流感风险识别中具有较好的稳健性，结合SHAP可解释性分析，增强了模型在公共卫生决策中的可信度与可用性。该建模框架可为流感早期预警系统的开发提供方法学支持，并为融合气象与流行病学数据的智能化防控提供模型基础。