儿童龋病是国内外口腔医学长期关注、重点防治的慢性进行性破坏性疾病,至今仍呈现逐年增长的趋势,特别是在儿童替牙期
[1]。第四次全国口腔健康流行病学调查结果
[2]显示,儿童患龋率较10年前大幅度上升,严重影响儿童身心健康,同时增加家庭和社会经济负担
[3];儿童的龋患风险因个体患龋经历、膳食糖的消耗、饮食习惯、口腔卫生预防行为、家庭及社会背景等因素的差异表现不同水平,患龋风险随着风险因素的变化出现动态改变
[4-5]。吴中区位于苏州市南部,属吴文化的发源地,是糖文化饮食代表地区,日常饮食制作工艺以精细及久烹为特点,风味调配中蜜、糖的使用频率高且范围广。同时,米面、糕点类食物极为盛行,整体饮食风貌以显著的精细、甜腻、黏糯著称
[6],特殊的饮食偏好加重了该地区儿童罹患龋病的风险和负担。
伴随大数据应用的持续迭代,机器学习广泛实践于医学领域,比如开发疾病预测模型
[7-8]。通过数据训练模型,发现规律,预测趋势,机器学习展现了良好的预测精准度
[9]。风险控制与龋病的防治存在明确的正相关系,采集分析患龋风险信息,预测患龋风险人群及高风险行为,针对性防龋治龋,是龋病防治的最新趋势
[10]。研究基于苏州地区的儿童饮食偏好及相关性行为的测量,采用随机森林、决策树、极端梯度提升等算法建立机器学习模型,综合比较出苏州地区儿童更为适配的龋病风险预测模型,推进针对性干预措施的制定。
1 材料和方法
1.1 研究对象及抽样
研究样本来自2024年苏州市吴中区儿童口腔综合干预项目的常住人口,根据苏州地区开展儿童口腔健康检查的政策措施,采用随机分层整群抽样进行调查,选取该地区7个街道(长桥街道、城南街道、越溪街道、横泾街道、郭巷街道、香山街道、太湖街道)和7个镇(甪直镇、光福镇、临湖镇、木渎镇、金庭镇、东山镇、胥口镇)内38所公办小学的9岁儿童,各城乡的样本数量等额抽取,最终实际纳入儿童共计7 225名,收回完整调查研究7 225份。本研究经苏州市吴中人民医院伦理委员会审核批准(KY2021013),研究对象的信息采集和整理过程均告知家长,获得同意后开展。
纳入标准:1)调查地9岁常住在校学生;2)家长知情同意参与调查;3)具备参与的意愿及能力。排除标准:1)患有特殊疾病或服用药物的儿童;2)非双亲家庭;3)因主、客观因素无法参与的家庭。
1.2 数据采集
1.2.1 口腔检查
参照《第四次全国口腔流行病学抽样调查方案》及世界卫生组织最新版口腔流行病学调查方法
[11]。使用一次性口腔镜和牙周指数 (community periodontal index,CPI)探针,在统一人工光源下,以视诊结合探诊的方式进行儿童口腔健康检查。以班级为单位,检查前30 min常规刷牙,检查中必要情况时借助棉签拭去隐蔽处软垢,对第一恒磨牙进行评估,配专人记录。
1.2.2 问卷调查程序
参照《第四次全国口腔流行病学抽样调查方案》及调查表,包含内容如下。1)社会人口学特征:性别、家庭籍贯、父母的最高学历等;2)饮食偏好:含糖食品、饮品的发生频率和发生节点等;3)口腔护理相关行为:餐后漱口、刷牙方法、刷牙频率、刷牙时长及刷牙后睡前进食等。开发线上程序,系统对输入数据进行加权分析,提示风险等级并罗列相关风险因素。在调查开展前,由各学校、班级向家长发放线上调查端口、纸质知情同意书,并附流程解释说明,由家长与儿童共同完成问卷调查。
1.3 标准定义
1.3.1 龋齿
参照《口腔健康调查检查方法》(WS/T472-2015)标准
[12],将存在龋洞、因龋缺失、因龋充填的牙齿均定义为龋齿。
1.3.2 户籍所在地
以儿童生活主要照顾者为调查对象,分为苏州本地与迁入两类,非苏州户籍均归纳为迁入。
1.4 质量控制
1.4.1 口腔检查
检查者由苏州市吴中人民医院6名5年以上临床经验并具备执业医师证书的口腔医生组成,登记员由3名5年以上临床经验的口腔科护士组成,均经项目办理论与实践的考核合格后进行,检查过程中,接受另一位检查者以调查对象5%的比率复查,标准一致性检验kappa值≥0.85。此外,不定时接受质量控制小组的监督及可靠性检查,发现偏离标准时即刻校准。
1.4.2 线上程序问卷调查
综合儿童龋病风险评估因素及指标的优缺点,制定适合非专业人员使用的评估机制,Cronbach’s ɑ系数0.82,凯泽—迈耶—奥金度量(Kaiser-Me-yer-Olkin measure,KMO)值0.91,信效度检验表现较好。以问答形式开发线上信息采集程序,通过手机端输入信息,设置逻辑自检机制,出现逻辑相悖或中途结束未完成等情况时跳出提醒框。程序开发人员加强与项目负责人沟通,深化项目认识,明确程序目的,完善程序的功能性并优化使用体验。同时建立用户端家长的使用反馈机制,数据采集完成后,按照标准及要求核查和验收资料,随机抽取8%的比率进行人工电话回访,与线上调查的变量进行比对,保证信息采集的可靠性。
1.4.3 数据库
将口腔检查数据与线上采集信息经过验证后,导入项目数据库。数据库存储在专用设备,由专人负责保管,专用于本研究相关工作。
1.5 统计学方法
使用Visual Studio Code(VS Code)1.85.2结合R 4.3.1进行数据整理与统计分析。定性数据使用R语言进行统计学分析,采用频数(百分比)的方式进行描述,通过χ2检验对组间进行比较。多因素Logistic回归用于评估第一恒磨牙龋齿的相关因素。使用VS Code对数据进行建模,数据集按8∶2的比例随机划分为训练集和验证集,用于模型构建与性能验证。将Logistic回归分析中P<0.05的因素纳入模型。依次运用决策树模型探讨各特征对儿童第一恒磨牙龋齿风险的影响;借助随机森林模型,整合多棵决策树,增强预测的稳定性和准确性;利用极端梯度提升模型,处理特征间复杂的非线性关系;依托Logistic回归模型,分析各特征对患龋的线性影响;基于极端梯度提升与决策树,构建轻量级梯度提升模型,实现计算速度更快且内存占用降低,以适配不同分析需求。模型评估指标涵盖准确率、精准度、召回率、特异度及受试者工作特征曲线下面积(area under the curve,AUC)值。其中,AUC值显示较强的模型区分能力。对比后择最优模型引入沙普利加和解释(Shapley additive explanations,SHAP)进行分析。P<0.05表示差异有统计学意义。
2 结果
2.1 基本情况
项目共计纳入符合要求的9岁儿童7 225名,其中第一恒磨牙患龋人数3 971人(54.96%)。患龋儿童中,男性2 074人(占全体男性儿童的53.98%,占患龋儿童总数的52.23%),女性1 897人(占全体女性儿童的56.07%,占患龋儿童总数的47.77%)。迁入籍家庭3 138个,其中患龋儿童家庭1 558个(49.65%)。苏州籍家庭4 087个,其中患龋儿童家庭2 413个(59.04%)。单因素分析显示,家长籍贯、甜饮料、甜点心和糖果、零食频率、刷牙后睡前零食、母亲含糖饮食频率等均有统计学意义,详见
表1。
2.2 多因素Logistic回归分析
本研究因变量设定为是否患龋,多因素Logistic回归分析显示,甜饮料频率、甜点心和糖果频率、零食频率、刷牙后睡前零食等差异均有统计学意义,详见
表2。
2.3 模型的预测效能对比
将Logistic回归分析后具有统计学意义的变量纳入5模型,算法分类结果见
表3。5种模型的准确率、精准度均大于69.5%,AUC均大于75.5%。对比后总体表现最佳的是极端梯度提升模型,AUC为90.1%,准确率为81.2%,精准度为80.9%,召回率为84.7%,特异度为83.8%,整体预测能力突出,随机森林和轻量级梯度提升综合性能也较好,AUC值为88.9%和88.6%,决策树和Logistic回归次之,AUC为75.5%和83.9%。5模型的ROC曲线见
图1。极端梯度提升模型显示儿童第一恒磨牙龋病前6位影响因素分别为零食频率、甜点心和糖果、甜饮料、刷牙后睡前零食、家长籍贯和母亲含糖饮食(
图2)。
2.4 SHAP分析
通过对比独热编码后的变量,高频甜食(如:甜点心和糖果每天≥2次,母亲含糖饮食每天≥2次)与不良口腔习惯(如刷牙后睡前经常吃零食,不规律刷牙)的SHAP值显著为正,对模型输出(是/否患龋结果)有强正向影响,是关键驱动因素;而防护行为(如规律漱口)的SHAP值偏向负或0,提示其可降低患龋风险。“刷牙后睡前零食-经常”的SHAP值显著为正,正向提升风险;而家长特征部分,“籍贯-苏州”的SHAP值分布比较分散,部分为正,“籍贯-迁入”的SHAP值接近0,表明对模型输出有一定影响,但需要结合其他变量综合判断;“父、母患龋-否”的SHAP值部分为正,而“父、母患龋-是”的SHAP值接近0,表明需结合其他变量综合判断对模型输出的影响。这些分析为揭示变量与模型的关联提供了直观的证据,见
图3。
3 讨论
龋病是细菌发酵膳食中碳水化合物产生酸性副产物对局部硬组织的慢性破坏
[13],替牙初期的第一恒磨牙更易患龋,至今处于上升趋势
[14]。地处饮食偏好甜及发酵类碳水化合物地区的儿童,龋病发生风险不断增加
[15];且随着年龄的增加还将升高
[16]。当前,已远高于《中国防治慢性病中长期规划(2017—2025年)》
[17]中提出“12岁儿童患龋率控制在30%以内”的目标。随着龋病防治的推进,龋病从广泛流行转变为在特定群体中流行,75%的龋风险负担倾向于集中在25%~40%的人口中
[18]。综上所述,龋病在儿童群体中呈现特定流行态势,作为具有突出易患特点的疾病,通过龋病风险评估获得易患信息,是现代龋病防治的基础。采集、分析风险信息,预测风险人群,特别是高风险人群,针对性实施无创、微创、有创的递进式龋防治技术已成为临床治疗的趋势
[19]。同时,通过个体风险识别形成个性化干预,可达成医疗资源与经济效益的合理分配
[20]。
研究借助机器学习构建苏州地区9岁儿童第一恒磨牙龋齿预测模型,筛选出极端梯度提升模型成为最优模型。该模型显示零食频率、甜点心和糖果、甜饮料、刷牙后睡前零食、家长籍贯和母亲含糖饮食频率是该地区儿童第一恒磨牙龋病的前6位影响因素,与严鑫淼等
[21]研究基本一致。研究
[22-23]表明,频繁食用易酵解含糖食物与饮料的儿童更易患龋;马婷等
[24]研究也表明,刷牙后睡前进食是儿童患龋的独立因素。与以往研究不同的是,苏州籍家庭的儿童龋齿发生率高于迁入籍家庭,成为重要的影响因素,符合其他研究
[25-26]基于不同文化背景下饮食的差异,导致微生物结构影响龋病差异化的报道。其次,母亲实际含糖饮食行为的负向影响超越母亲受教育水平的正向影响
[27-28]。表明在高等教育普及的经济发达地区,母亲受教育水平差距不断缩小,在口腔健康认知水平基本持平的情况下,母亲实际含糖饮食行为则成为影响儿童龋病更为突出的因素。究其原因,可能是在糖文化饮食的大环境下,家长对致龋性饮食高度包容并接受。此外,睡前进食、频繁食用高糖食物、口腔健康教育及氟化物暴露不足等也都是致龋的关键因素
[29]。
机器学习是一种利用数据训练模型进行高维数据拟合,强调准确性的技术。相较传统的统计分析方法,机器学习擅长对非结构化复杂数据降维、提取特征及模式识别,能够适应动态变化并持续自我优化,挖掘人为设定规则以外的隐藏规律,让预测更具精准性。本研究通过对多种模型开展数据训练,发现极端梯度提升模型在准确性、精准度、灵敏度、特异度、AUC均表现最优,该模型不仅具备可解释性,还能学习复杂模式与关系,降低预测误差,成为表现最为突出的预测模型。引入SHAP分析对预测模型验证,以明确模型的合理性,揭示龋病发生的关键风险因素及其交互作用,清晰地解释模型在不同数据点的决策依据,为临床决策与预防策略制定提供支撑,推动理论研究向临床应用转化。
本研究基于极端梯度提升构建苏州地区9岁儿童第一恒磨牙龋病预测模型,用于龋病风险预测。创新点在于:构建融合特殊地区饮食文化背景、人口学特征、饮食偏好、口腔护理行为等因素的机器学习预测模型,实现对大数据样本精准且稳健地预测。通过寻找高危风险因素,识别高危风险儿童,实现个体化精准干预。然而,本研究属单中心研究,尽管样本虽然具备了风俗文化的典型代表性,但仍存在以偏概全的可能,需要更大范围内的数据样本及更具前瞻性的研究予以验证。本课题将持续采集儿童龋病风险相关数据,拓展研究视角,构建可与本地更大样本适配的龋病预测模型,推动早期识别与精准干预措施落地。