造口术是指通过手术在腹部形成一个通向外界的开口,以便于排泄粪便和尿液
[1],是结直肠癌、溃疡性结肠炎、膀胱癌、肠梗阻等患者的常用治疗方式之一,以延长患者生存期,提高生活质量
[2-3]。造口术后管理过程复杂,专科医护人员与患者在长期临床管理中常面临诸多挑战,如造口周围皮肤并发症和造口旁疝等问题
[4]。随着智慧医疗的不断发展,机器学习(machine learning,ML)技术为造口护理提供了新的支持路径
[5]。ML是一种用于数据处理的先进人工智能技术,与传统统计方法不同,ML擅长处理与复杂疾病机制相关的复杂数据集
[6]。其已在疾病诊断、个性化治疗推荐、疾病预测与预防、医疗质量评估等方面进行广泛应用
[7-10]。已有研究者将ML用于造口患者的管理与护理中,可以在收集造口相关数据的同时,提高数据的管理效率并且实现对数据进行自动分析,但其应用目标人群、形式、领域和临床结局等方面存在一定程度的异质性
[11-12]。因此,本研究以澳大利亚乔安娜布里格斯研究所发布的范围综述指南为框架
[13],通过全面检索文献,分析ML在造口术后患者评估、并发症预测、护理干预推荐等环节的应用范围,总结关键研究缺口,以期为后期开展相关研究提供参考。
1 资料与方法
1.1 确定研究问题
通过文献查阅与讨论确定研究问题:(1) ML在造口术后研究应用的主要形式和内容是什么?(2) 评价指标及应用效果如何?(3) 目前研究还存在哪些问题及未来的启示?
1.2 检索策略
系统检索PubMed、Web of Science、Embase、CINAHL、Cochrane Library、中国知网、万方数据库、维普数据库和中国生物医学文献数据库,检索时限为建库至2025年4月10日。采用主题词、自由词以及布尔逻辑运算。
1.3 纳入和排除标准
纳入标准:(1) 研究对象为造口患者,年龄≥18岁;(2) 研究内容为ML算法在造口患者中的应用,研究方法涉及ML相关的算法和模型,如神经网络、决策树、随机森林、支持向量机等典型的ML技术;(3) 文献类型为原始研究,包括量性研究、质性研究和混合研究。排除标准:(1) 无法获取中英文全文;(2) 重复发表;(3) 非公开发表的会议论文、学术论文等。
1.4 文献筛选与资料提取
将检索到的文献题录导入NoteExpress中,去除重复文献,由2名接受过循证医学培训的护理研究生通过阅读文题和摘要独立初筛,阅读全文后进行再次筛选。筛选过程中如遇分歧,与第3名研究者进行讨论,最终确定符合纳排标准的文献。资料提取内容包括作者、发表年份、国家、研究类型、样本量(建模组/验证组)、目标人群、应用场景、观察时间、研究领域、临床结局、诊断标准、ML类型、呈现形式。
1.5 方法学质量评价
使用2025年更新的预测模型偏倚风险评价工具(Prediction model Risk Of Bias Assessment Tool-Artificial Intelligence,PROBAST+AI)
[14],由2名经过培训的研究者对纳入模型独立进行偏倚风险及适用性评价,在模型评价过程中有任何争议,则寻求第3名研究者解决。
2 结 果
2.1 文献检索结果及基本特征
初始检索共获得9 190篇文献,经筛选,最终纳入15篇
[11, 15-28],文献筛选流程见
图1。纳入文献发表时间从2022—2025年,包括中文4篇
[15,18,23-24],英文11篇
[11, 16-17, 19-22, 26-28]。其中10篇为预测模型的构建与验证
[11, 15, 19, 21, 22, 24, 26-28],3篇为造口患者管理与健康教育
[16, 20, 23],1篇关于造口相关经济成本效果分析
[18],1篇使用AI算法对患者进行身体成分分析
[17]。10项研究
[11, 15, 19, 21-22, 24-28]构建了40个预测模型,样本量从43~2 240例不等。研究对象均为肠造口患者,其中1项研究对象为溃疡性结肠炎患者,其余均为结直肠癌患者。单中心研究包括6项
[11, 15, 19, 24, 27-28],多中心研究包括4项
[21-22, 25-26]。模型构建方法:监督学习:Logistic回归(Logistic regression,LR)4项
[11, 15, 22, 27]、支持向量分类(support vector classification,SVC)6项
[11, 19, 22, 24-26]、随机森林(random forest,RF)6项
[11, 22, 24-27]、决策树(decision tree,DT)2项
[24, 27]、K近邻算法(K-nearest neighbor,KNN)3项
[11, 22, 25]、贝叶斯分类器(包括贝叶斯1项
[19]、高斯朴素贝叶斯1项
[27]、朴素贝叶斯1项
[26])。集成学习:极端梯度提升(extreme gradient boosting,XGBoost)5项
[11, 19, 22, 25, 27]、梯度提升(gradient boosting,GB)
[27]、轻量级梯度提升机(light gradient boosting machine,LGBM)2项
[11, 27]。深度学习:卷积神经网络(convolutional neural network,CNN)1项
[28]。人工神经网络模型(artificial neural network,ANN)1项
[15]。此外,随机梯度下降1项
[26];混合模型
[21]是一种将多种不同模型或方法结合起来的方式,不是单一的特定算法;放射组学
[21]是一个多学科领域,利用医学图像中的特征进行分析和建模,它包含了多种ML和数据分析技术。预测模型临床结局包括两个方面:(1) 预测术后并发症发生:造口旁疝
[11, 24]、造口部位切口疝(stoma site incisional hernia,SSIH)
[21]、衰弱
[19]、营养不良
[15]、吻合口漏
[26],储袋炎
[28]的发生;(2) 疾病预后预测:临时性肠造口转化为永久性肠造口
[22, 27],临时回肠造口率
[26](
表1)。
2.2 模型偏倚风险评价结果
依据PROBAST+AI对模型构建进行偏倚风险评价
[14]。本研究纳入模型在研究对象及数据分析领域有较高的偏倚风险,可能存在研究设计不规范、未报告数据缺失情况及处理方法等(
表2)。
2.3 模型展示方式、预测因子以及验证与性能
10项构建预测模型研究中,5项研究
[11, 21-22, 25-26]报告了呈现形式,预测模型呈现形式主要为列线图、SHapley可加性解释(SHapley Additive exPlanations,SHAP)图、应用程序等预测模型的可视化展示。所纳入的40个造口预测模型中预测因子最多为21项,其中有两项研究
[24, 28]使用了图片进行分析。为了更直观地比较各个预测因素在造口患者中的作用,将包含在预测模型中的预测因子进行分类。本研究共归为6个类别,分别为人口学特征(性别、年龄、教育、婚姻状况、月收入)、生理与身体状况,包括基础疾病:慢性阻塞性肺疾病(COPD)、糖尿病、急性和慢性疾病;身体测量指标:体质量指数(BMI)、腹直肌厚度(TRAM)、造口直径;血液指标:前白蛋白、C-反应蛋白(CRP)、纤维蛋白原、血清总蛋白、癌胚抗原(CEA)、白蛋白/球蛋白比;其他生理指标:电解质紊乱情况、病变距肛缘的距离、手术相关因素(手术持续时间、造口部位、肿瘤位置、术前影像组学特征)、疾病分期与治疗(肿瘤淋巴结转移分期、临床分期、新辅助治疗、接受化疗放疗)、造口相关情况(造口并发症(如粪便皮肤皮炎、造口出血、损伤、过敏性皮炎、坏死和黏膜分离)、造口接受度、回肠造口闭合前的内镜pouch图像特征)、心理与社会因素(自我感知健康状况、社会支持、焦虑、心理社会适应、睡眠质量、术前衰弱)。10项研究
[11, 15, 19, 21-22, 24-28]均进行了内部验证,4项研究
[21-22, 25-26]进行外部验证;预测效能评价指标是用于评估预测模型性能的一系列量化指标,包括(1) 分类模型评价指标:曲线下面积(AUC)
[11, 15, 19, 21-22, 24-28]、准确率
[11, 15, 22, 24-28]、敏感度
[11, 15, 19, 21, 22, 24-27]、特异度
[11, 15, 21, 22, 24-27]、阳性预测值(positive predictive value,PPV)
[11, 22, 26]、阴性预测值(negative predictive value,NPV)
[11, 22, 26]、F1评分
[11, 19, 25]、马修斯相关系数(MCC
[19])、精确性
[21];(2) 校准度评估指标:Brier
[19];(3) 区分度评估指标:KS值
[21]。通过模型预测效能评价指标值,可以看出模型总体预测性能表现较好(
表3)。
2.4 ML用于造口患者术后健康教育及知识库构建领域
Lim等
[16]用四种常见大语言模型(large language model,LLM)(ChatGPT 3.5和ChatGPT 4.0、Gemini和CoPilot)为造口患者全面的教育和支持,补足现存健康教育的局限,以减轻患者心理及生活负担,在临床环境中使用LLM在提高患者教育和造口管理水平方面具有潜力。Yüceler Kaçmaz等
[20]使用ChatGPT 4.0来确定造口患者信息需求并创建患者教育材料内容,并使用在线软件(Publuu Online Flipbook Maker)将教育内容转换为教材,为患者提供了准确的信息,同时能够提高医疗系统中患者在操作便利性方面的信息获取率,但阅读难度较高。周茂林
[23]使用python网络爬虫获得肠造口患者问诊信息并构成语料库,使用隐含狄利克雷分布模型对语料库进行数据挖掘并分析,判断患者的情绪状态,以了解肠造口患者延续性护理需求并构建肠造口周围刺激性皮炎护理决策支持知识库。
2.5 ML用于造口患者经济学领域
周璐等
[18]用Changhai-AL-Prediction预测模型模拟决策预防性造口方案并与实际的术者决策的预防性造口方案进行比较,根据不同决策结果及治疗过程中发生不同临床结局的概率和成本分别构建DT模型进行成本效果分析。结果显示在直肠癌患者的预防性造口方案决策中,Changhai-AL-Prediction预测模型决策方案相较于术者决策方案不仅可以作出更为精准的预防性造口决策而且更具有经济学优势。可以减少医疗费用、提高社会经济效益,让有限的医疗卫生资源得到最大利用。
2.6 ML用于身体成分评估
Suthakaran等
[17]使用由墨尔本大学开发的AI算法来测量接受Hartmann逆转手术的患者的身体成分,以预测短期术后并发症。结果表明肌肉减少症和肌肉减少性肥胖与Hartmann逆转后的术后并发症有关。通过经过验证的AI算法测量的身体成分可能是预测这些患者短期手术结果的有益工具。
3 讨 论
3.1 ML构建预测模型的优势与不足
3.1.1 ML构建预测模型的深度与广度超越传统预测模型
本研究系统性地描绘了ML在造口领域的研究范围。结果显示,ML的应用已从单一的预测模型,拓展至健康教育、知识库构建及卫生经济学评估等多个环节,表明ML具有贯穿造口患者“风险评估-教育支持-决策辅助-经济评估”的全周期健康管理链条的潜力,正逐步渗透至造口患者管理的多个环节
[29]。首先,ML在医疗领域预测模型构建中展现出独特优势,其技术特性与医疗数据的复杂性、临床需求的多样性高度契合
[30]。本研究表明ML模型(如XGBoost、RF)在预测造口旁疝、衰弱、永久性造口等关键结局上,普遍优于传统LR
[11, 15, 19, 22, 26-27]。本研究还系统归纳了涵盖人口学、生理、手术、疾病、造口、心理社会等六大类别,共21项的预测因子,揭示了造口结局影响因素的复杂性,为未来构建更全面的评估模型提供了理论基础。
3.1.2 ML预测模型的不足与临床转化挑战
本研究结果表明,尽管35个预测模型均展现出良好的预测性能(AUC>0.8),但PROBAST+AI工具评价结果表明构建还存在方法学缺陷,大部分预测模型研究存在高偏倚风险,主要表现为回顾性设计带来的选择偏倚、数据缺失处理不规范,以及外部验证的普遍缺乏。在纳入的10项预测模型研究中,仅4项进行了外部验证
[21-22, 25-26]。Collins等
[31]、Lv等
[32]强调模型外部验证重要性,缺乏严格外部验证的“高性能”指标的模型可能在新的患者群体或不同医疗中心中表现不佳,其临床推广的泛化能力存疑。本研究发现,当前研究数据源多局限于单中心、小样本的结直肠癌肠造口人群,对泌尿造口等其他类型造口关注极少,这限制了模型的普适性
[33]。因此,ML在造口预测模型中虽展现出巨大潜力,但现有证据基础尚不牢固。预测模型的构建不能仅展示模型高性能而忽略其方法学局限性
[26, 28],还需从方法学质量角度进行批判性评估
[34]。未来研究应致力于构建多中心、前瞻性、纳入多样化造口类型的大型数据库,并参考PROBAST+AI工具规范研究设计。同时,增加模型的可解释性(如使用SHAP图
[11, 22, 25])和实用性(如开发应用程序
[22, 26])以实现临床落地。护理研究者应积极参与到多学科团队中,将临床经验融入特征工程和模型设计,开发如“造口并发症风险智能预警系统”等嵌入式工具,直接助力临床决策
[35-36]。
3.2 ML在造口领域的创新应用与优化方向
在预测模型之外,ML还展现出强大的创新能力,如利用LLM(ChatGPT等)生成健康教育材料
[16, 20],基于LDA模型挖掘患者需求以构建护理知识库
[23],以及进行成本效果分析
[18]。在健康教育领域,针对肠造口患者,现有Meta分析证据支持电子健康干预是一种可行且有效的健康管理策略,能够显著提升其关键健康结局
[37]。本研究发现LLM生成的资料虽内容准确,但对阅读水平要求较高(需高中至大学水平),且缺乏真正的个性化定制
[16, 20],这与现有的大多数在线造口护理材料情况一致
[38]。这提示未来的开发不能仅停留于内容生成,需结合患者画像进行个性化定制,并评估其在不同文化背景、健康素养人群中的适用性。如Duckworth等
[39]通过ML分析连续血糖监测的数据轨迹,借此实现血糖风险预警,并进而转化为对长期控制趋势的深度洞察,为真正实现个性化健康管理提供了关键路径。此外,ML在心理社会适应、长期生活质量干预、造口产品智能推荐、临时造口永久化等方面的应用尚属空白
[40-42]。肠造口患者的康复历程漫长复杂,涵盖手术早期至出院后的多个阶段,利用ML赋能造口患者的全旅程健康管理,实现照护支持的精准化与前瞻性,是未来极具价值的研究方向
[41]。这不仅是健康管理的模式创新,更是对患者生活质量的实质性提升,以实现对患者个性化、精准化护理
[43]。
3.3 研究缺陷与展望
本研究作为范围综述,虽系统描绘了领域全景,但也存在一定局限,如未对模型性能进行Meta分析、仅关注已发表文献等。基于本综述的发现,对未来研究提出以下展望:(1) 强化方法学严谨性:优先开展前瞻性、大样本、多中心研究,并严格进行外部验证,提升模型证据等级
[44]。(2) 拓展应用广度:将研究范围从结直肠癌肠造口推广延伸至泌尿造口、小儿造口等群体,并探索心理支持、康复指导等新场景
[45]。(3) 推动临床落地:着力开发用户友好、与医院信息系统深度融合的临床决策支持工具,并开展实施性研究,评估其在实际临床环境中的有效性、成本效益和可持续性;并通过增加个性化健康支持的公平性与有效性
[46]。(4) 保障数据安全与伦理
[47]:在数据采集、模型训练与应用全过程中,必须重视患者隐私保护,可探索联邦学习等隐私计算技术的应用
[48-49]。此外,在LLM等技术的应用中,必须始终坚持其辅助性角色定位,任何输出内容都需经过临床专家的严格审核,而非直接替代专业判断
[35],以负责任和合乎道德的方式加以实践,从而为患者护理和公共卫生创造最大价值
[50]。
ML已在造口术后并发症预测、护理、经济学评估等领域进行应用,最主要的应用方式为预测模型,还可扩大ML在造口领域的研究,如泌尿造口及其他造口并发症的预防及管理。未来还需大样本、多中心研究,关注个性化推荐、数据保护等问题,以提高应用范围及效果。