肥胖已成为全球性的健康挑战,减重代谢外科(metabolic bariatric surgery,MBS)作为治疗病态肥胖的有效手段,其临床应用日益广泛
[1]。然而,患者个体差异、手术复杂性及术后管理等因素导致治疗效果存在显著异质性,传统预测模型基于体质量指数(body mass index,BMI)和人口统计学变量,难以全面捕捉这种复杂性
[2]。人工智能(artificial intelligence,AI)技术的迅猛发展为解决这些挑战提供了新的机遇
[3]。AI通过机器学习(machine learning,ML)和深度学习算法,能够从多维度数据中提取有价值的信息,为MBS的决策支持、风险预测、手术优化及长期管理带来革命性变革
[4]。近年来,AI在医疗领域的应用不断深入,从辅助诊断到个性化治疗建议,展现出巨大潜力
[5]。在MBS中,AI技术的整合不仅有助于提高手术安全性和效果,还能优化资源配置,提升患者满意度
[6-7]。本综述旨在系统阐述AI在MBS中的应用现状,分析其面临的挑战,并展望未来发展方向。
1 AI在MBS决策支持中的应用与挑战
AI在MBS决策支持中的应用主要体现在手术方案推荐、患者选择及临床问答辅助等方面。大型语言模型(large language models,LLM)如ChatGPT、Google Gemini和Microsoft Copilot已展现出处理临床问题的能力
[8]。研究
[9]表明,ChatGPT在回答减重手术相关问题时,其答案的适当性可达85.7%,显著高于其他模型。然而,这些模型在复杂临床决策中的可靠性仍需进一步验证。例如,一项研究
[10]显示,ChatGPT在推荐手术技术时与实际临床决策的一致性仅为34.16%,表明其无法替代专家咨询。在手术方案推荐方面,AI模型能够基于患者临床特征、既往病史和BMI等因素提供个性化建议
[11]。然而,不同AI模型之间的性能存在显著差异。ChatGPT 4.0在回答美国代谢与减重外科学会(American Society for Metabolic and Bariatric Surgery,ASMBS)教科书问题时准确率达到83%,而Bing和Bard的准确率分别为65%和76%
[12]。这种差异可能源于训练数据的质量和范围以及模型设计的差异
[8]。此外,AI模型在识别和生成减重手术示意图方面表现不佳,如ChatGPT 4.0仅能正确识别可调节胃束带术的示意图,而DALL-E3(OpenAI推出的一款图像生成系统)未能生成任何准确的手术示意图
[13]。尽管AI在决策支持中展现出潜力,但其应用仍面临多项挑战。首先,AI生成的建议可能缺乏个性化和全面性,无法像医生那样综合考虑患者的整体情况
[5]。其次,AI模型可能存在偏见,例如对某些指南的偏好可能影响其推荐的客观性
[8]。此外,伦理问题如数据隐私、错误信息的责任归属等也需要重点关注
[14]。专家共识
[4]强调,AI教育应成为未来外科培训的重要组成部分,同时需要制定伦理指南来规范AI的使用。
2 ML在围手术期风险预测与并发症管理中的实践
ML在MBS围手术期风险预测和并发症管理中发挥着越来越重要的作用。传统风险模型如POSSUM和OS-MS在预测减重手术后并发症发生风险方面准确率有限,而ML模型通过整合多维度数据,提供了更精确的风险评估工具
[15]。AI通过整合多种生理和代谢参数,帮助医生筛选手术候选人并制定个性化护理策略,从而降低风险
[16-18]。研究
[19-23]表明,ML模型能够预测多种术后并发症发生风险,包括恶心呕吐、胃肠道出血、主要不良心脏事件以及呼吸抑制等。在预测恶心呕吐方面,XGBoost模型表现出色,其受试者工作特征曲线下面积(area under the curve,AUC)达到0.828
[19]。该模型识别出的风险因素包括女性、手术时间超过60 min、术中瑞芬太尼使用和术后阿片类药物使用,而术中预防性使用止吐药则被确定为保护因素
[19]。对于胃肠道出血,随机森林模型预测性能最佳(AUC=0.764),重要预测特征包括手术类型、术前血细胞比容、年龄、手术持续时间和术前肌酐水平
[22]。ML模型在预测呼吸抑制方面也显示出良好性能。一项研究
[20]开发了整合生物电阻抗分析、3D身体扫描和手动测量特征的XGBoost模型,其AUC达到0.856,主要预测因子包括上腹部体积、BMI和年龄。对于MACE的预测,神经网络模型(AUC=0.798)略优于逻辑回归(AUC=0.790)和XGBoost(AUC=0.787)
[21]。
ML模型还通过整合动态数字随访数据来提升预测性能。一项前瞻性研究
[15]开发了两种ML模型:一种使用术前临床数据,另一种整合术后移动应用数据,术后模型表现出更好的性能,准确率达到77.4%,AUC为71.5%。这表明实时移动健康监测可以增强早期并发症检测,提供超越传统静态风险模型的个性化、适应性方法
[15]。尽管ML模型在风险预测方面表现出色,但其在实际临床中的应用仍面临挑战。不同ML算法的性能存在差异,集成算法在大型数据库中表现优异,而人工神经网络(artificial neural network,ANN)在单中心数据库中表现更好
[24]。此外,模型的公平性也需要关注,研究表明逻辑回归模型在种族公平性方面表现最佳
[25]。
3 AI与机器人技术—成本效益、技术评估与手术效能优化
AI与机器人技术在MBS中的整合正在改变手术实践方式,但在成本效益和技术评估方面仍需深入分析。机器人减重手术的采用率不断增加
[26-27],但与机器人袖状胃切除术(robotic sleeve gastrectomy,rSG)相关的高成本是一个值得关注的问题
[28]。研究表明,机器人吻合器(robotic staplers,RS)和其他未指定的床旁吻合器是rSG患者的关键成本驱动因素,而在机器人手术中使用腹腔镜床旁吻合器(laparoscopic bedside staplers,LBS)可显著降低总住院成本
[28]。在机器人辅助Roux-en-Y胃旁路术(rRYGB)中,成本驱动因素包括吻合器类型、患者年龄(55~64岁)、男性、非白人种族、非医疗保险、较高合并症和疾病严重程度
[29]。使用LBS与其他未指定床旁吻合器(other unspecified bedside staplers,OBS)和RS相比,可显著降低总住院成本,分别达2 220美元和2 119美元,并缩短手术室时间43.3 min和41.4 min
[29]。机器人技术对手术效果的影响存在争议。一项研究
[30]发现,在超级肥胖患者(BMI≥50 kg/m²)中,机器人辅助方法虽然成本较高,但在超级超级肥胖(BMI≥60 kg/m²)患者中可能代表附加价值。另一项研究
[31]表明,机器人辅助并未显著降低术后严重并发症(Clavien-Dindo并发症分级≥Ⅲ级)发生率,但缩短了住院时间。AI技术在手术技能评估和优化方面也显示出潜力。一项研究
[32]开发了基于AI的平台来评估单吻合胃旁路术(one anastomosis gastric bypas,OAGB)中最佳实践的依从性,该模型在评估安全性最佳实践依从性方面表现出高准确率、敏感度和阳性预测值。对于内镜袖状胃成形术(endoscopic sleeve gastroplasty,ESG),AI技术可用于对胃部位置和任务进行分类,从而实现性能评估的自动化
[22]。尽管机器人技术和AI应用增加了初期成本,但技术进步可能逐渐改善成本效益比。研究表明,与早期(2015—2016年)相比,近期(2019—2020年)机器人减重手术的结果显示肺部并发症、再入院、再手术、干预和住院时间均显著减少
[33]。这种改善可能归因于手术经验的增加和机器人平台的进步。
4 LLM在患者教育、沟通与专业培训中的角色
LLM在MBS领域的患者教育、医患沟通和专业培训方面展现出显著潜力。研究表明,LLM生成的回答在清晰度(4.8
vs. 4.6)、完整性(4.5
vs. 3.4)和同理心(4.1
vs. 3.2)方面均获得比人类专家回答更高的评分,且64.9%的患者更喜欢LLM生成的回答,这种偏好在教育程度较低的患者中更为明显
[6]。在专业培训方面,LLM表现出在MBS聚焦实践考试式问题上的出色能力。ChatGPT 4.0在未经预先训练的情况下,在255道问题中正确回答了189道(74.1%),在不同问题类别之间的准确率没有差异
[24]。另一项研究
[12]显示,ChatGPT 4.0在回答ASMBS教科书中的问题时准确率达到83%,在治疗和手术程序相关问题(83.1%)和并发症相关问题(91.7%)方面表现尤为突出。然而,LLM在医学教育中的应用仍存在局限性。研究发现ChatGPT 4.0和DALL-E3在识别和生成减重手术示意图方面准确率有限
[13]。此外,LLM生成的建议与临床实践的一致性较低,在手术技术选择方面仅为34.16%
[10]。这表明尽管LLM具有处理和分析大型数据集的能力,但其建议与专家手术团队使用高成功率算法确定的建议并不密切一致。LLM在提供体质量管理建议方面也显示出潜力但存在差异。一项研究评估了Google Gemini和Microsoft Copilot对肥胖药理和手术管理问题的回答适当性,一共10道题,Microsoft Copilot的所有回答都是适当的(100%),而Google Gemini的适当回答率为80%
[8]。两种LLM在回答其中2个问题时都坚持咨询医生。专家共识
[4]认为,AI有潜力通过提供客观、详细的评估来增强MBS中的手术技能评估,实现个性化反馈,并加速学习曲线。然而,也需要关注对AI生成建议的过度依赖的担忧。共识
[4]强调需要管理AI使用的伦理指南,并在患者同意过程中包含AI在决策中的作用。
5 AI在减重手术预后预测与长期结局管理中的前沿探索
AI在预测减重手术长期结局和管理方面展现出显著潜力。ML模型能够预测术后体质量减轻、维生素缺乏症、心理问题以及妊娠等长期结局
[34-36]。支持向量机(support vector machine,SVM)模型在预测袖状胃切除术后1年成功减重(定义为体质量减轻>30%)方面表现出色,准确率达到88%,AUC为0.76。关键预测变量包括钾、叶酸、碱性磷酸酶、身高、转铁蛋白、体质量、BMI、甘油三酯、贝克抑郁测试评分和胰岛素水平
[37]。对于维生素缺乏症的预测,ML模型也显示出价值。一项研究
[38]发现,维生素B1缺乏症的预测与微量营养素缺乏、异常血液指标、营养不良和波动电解质水平等相关。ML模型预测约20%的患者存在维生素C缺乏症,其中33%达到坏血病水平(维生素C<11 μmol/L)
[39]。这表明有很大比例的患者可能未诊断出维生素C缺乏症,因而面临术后发病和死亡的风险。在预测术后12个月内妊娠方面,C 5.0决策树模型表现出最佳性能(AUC=0.920),考虑了月经不规律、婚姻状况、胎儿发育异常史、年龄、不孕类型、产次、孕次、生育治疗、术前BMI、不孕症、不孕持续时间、多囊卵巢综合征和2型糖尿病等重要因素
[35]。ML模型还能预测术后暴食症(binge eating disorder,BED)的发展。研究发现,生活方式风险因素与袖状胃切除术后2年BED的发生相关
[40]。随机森林、逻辑回归、SVM和ANN模型的预测准确率约为75%,其中运动不足、蔬菜摄入量较低、BMI较高和多余体质量减轻百分比(excess weight loss percentage,%EWL)较低是BED的独立相关因素。国际多中心研究开发了可解释的ML基于计算器,用于预测减肥手术后5年体质量轨迹
[30]。该模型使用七个变量:身高、体质量、干预类型、年龄、糖尿病状况、糖尿病持续时间和吸烟状况,在外部测试队列中总体平均中平均绝对偏差BMI为2.8 kg/m²,均方根误差BMI为4.7 kg/m²
[36]。术后随访作为减重代谢手术患者长期健康管理的重要环节,AI技术不仅可通过连接患者远程数据收集设备实现远程随访以实时监控患者健康状况,避免患者频繁赴院检查
[41]。还能通过分析术后长期数据建立随访预测,进而预测患者代谢性疾病复发风险并提供个性化干预建议,同时可提高术后随访效率、提升早期预防与干预精确性,最终降低长期并发症发生率
[42]。
6 伦理考量、专家共识与未来发展方向
AI在MBS中的应用虽然前景广阔,但伴随而来的伦理问题不容忽视,亟需国际专家共识强调,需要制定伦理指南来管理AI的使用,并在患者同意过程中包含AI在决策中的作用
[43-44]。目前存在的疑虑包括AI生成决策的可靠性、数据隐私保护、错误信息的责任归属,以及AI可能证明错误决策的能力
[4,14]。68位来自35个国家的领先MBS医生通过改良德尔菲法达成共识
[4],同意AI有潜力通过提供客观、详细的评估来增强MBS中的手术技能评估,实现个性化反馈,并加速学习曲线。未来发展方向包括AI驱动机器人技术的进步和AI整合基因组应用的发展。多中心数据集对于AI模型泛化的重要性也得到强调,因为手术技术和工作流程的差异会显著影响模型性能。研究
[45]表明,使用多中心训练数据可以提高模型的泛化能力,使其超越独立单中心训练和验证的水平。另一个重要方向是开发更轻量级的ML模型,使用最少的临床和代谢组学变量来实现准确预测。这类模型在检测代谢功能障碍相关脂肪性肝炎伴肝纤维化F2~F3阶段方面表现出色(AUC=0.91),优于所有其他非侵入性测试
[46]。AI在优化手术室调度和管理方面也显示出潜力。研究
[47]开发了ML模型来预测减重代谢手术的手术时间,XGBoost模型表现最佳,手术类型和手术方法是最重要的预测特征。这些发现可用于管理手术室调度和开发软件工具来预测临床环境中的手术时间。
综上所述,AI在MBS中的成功整合需要跨学科合作,包括外科医生、数据科学家、伦理学家和患者代表的共同参与。只有通过全面合作才能确保AI技术的负责任和有效应用,最终改善患者护理和手术效果。
广东省广州市科技局市校(院)企联合基金资助项目(2024A03J1037)
福建省教育厅中青年教育基金资助项目(JAT210845)