PDF
摘要
目的 基于可解释机器学习研究环境暴露物与人乳头瘤病毒(Human papillomavirus, HPV)感染风险的关联性。方法 使用美国国家健康与营养调查(National health and nutrition examination survey, NHANES)数据库,收集2013-2014年、2015-2016年两个周期内受试者的人口学特征、HPV DNA检测结果和环境暴露标志物数据。按照8∶2随机分为训练集和验证集,并基于9种机器学习算法构建预测模型。通过曲线下面积(Area under the curve,AUC)、准确度、精确度、灵敏度、特异度和F1评分评估模型性能,选取最佳预测模型,利用全局可解释模型(Shapley additive explanations, SHAP)解释环境暴露变量对HPV感染风险的贡献度。结果 共纳入1 521名受试者,其中男性770名(50.6%),女性751名(49.4%)。HPV感染与婚姻状况、体质指数、教育程度、家庭收入和贫困比率、吸烟状态和饮酒状态显著相关(P<0.05)。缺失值删除填补后,通过最小绝对收缩和选择算法(Least absolute shrinkage and selection operator, LASSO)筛选出20个与HPV感染显著关联的环境暴露变量。模型性能评估结果显示,额外树模型表现最佳(AUC=0.73,准确度=0.68,精确度=0.69)。SHAP分析显示,血清可替宁、丙烯酰胺、尿锡、1-羟基芘、2-羟基萘、血汞、1-羟基菲和血铅对HPV感染风险是正相关,尿钼、尿硝酸盐、尿铯、尿甲基砷酸、血锰、血硒、尿钡、尿锑对HPV感染风险是负相关。性别和年龄分层分析表明,男性在血清可替宁暴露中的比例高于女性;不同年龄组对环境暴露标志物的敏感性存在差异,其中46~60岁组对血清可替宁最敏感,其次为36~45岁组;20~25岁组对丙烯酰胺和尿锡的暴露更敏感,尿硝酸盐暴露较其他年龄组低。结论 血清可替宁、丙烯酰胺、多环芳烃和重金属等暴露显著增加HPV感染风险,钼、硒等具有保护作用,通过减少烟草暴露、加强污染治理及合理膳食有助于预防HPV感染。
关键词
HPV
/
环境暴露物
/
NHANES
/
SHAP值
Key words
基于可解释机器学习的环境暴露物与HPV感染风险关联性研究[J].
新疆医科大学学报, 2025, 48(06): 838-844 DOI: