肝硬化是一种慢性、进行性肝脏疾病,其主要特征是肝组织纤维化和肝功能下降
[1]。肝硬化常由慢性肝炎、长期酗酒和非酒精性脂肪性肝病等因素引起
[2]。在全球范围内,肝硬化对公共健康造成了严重威胁
[3]。随着病情的发展,肝硬化患者常会出现多种并发症,其中食管静脉曲张是一种常见且危险的并发症
[4]。肝硬化患者的食管静脉曲张终生患病率为60%~80%,急性食管静脉曲张破裂出血导致的死亡率为15%~55%
[5-6]。目前,对肝硬化患者相关风险因素的预防和治疗手段在近几年中降低了食管静脉曲张的发病率
[7-8]。因此,为了有效管理和治疗肝硬化的并发症,持续探索肝硬化患者早期并发食管静脉曲张的风险因素以及准确预测食管静脉曲张的发生具有重要意义。
随着大数据时代的到来,机器学习在肝病领域的应用前景广阔
[9-11]。通过对医疗数据的深度挖掘和分析,越来越多机器学习研究在肝硬化并发食管静脉曲张人群中开发和验证
[12-13]。然而大多数研究仅使用单一机器学习算法和传统的特征筛选方法
[14-15]。这些方法往往受限于样本量、数据收集的全面性以及模型的复杂度,导致预测模型的准确性和泛化能力有限。此外,机器学习算法在构建模型时往往被视为黑箱即模型的内部机制难以被理解和解释,使得直接从模型中提取可解释信息异常困难。Lundberg SM等
[16]提出基于博弈论的SHapley Additive exPlanations(SHAP)方法,提供了统一的度量方式来刻画每个特征对模型输出的贡献大小。通过揭示模型的决策机制,SHAP增强了对模型预测结果的可信度,使其在临床应用中更加可靠和易于解释。在既往肝硬化患者并发食管静脉曲张的研究中,往往缺乏对所构建模型的解释,导致其难以在临床上得到进一步实践
[17-19]。
因此,本研究的目的是开发和验证1个预测模型,用于评估肝硬化患者并发食管静脉曲张的风险因素。随着机器学习的发展,支持向量机(support vector machine,SVM)、随机森林、极端梯度提升(eXtreme Gradient Boosting,XGBoost)等模型在肝病相关疾病的预测上取得了较明显的性能提升
[20-22]。这些研究结果为本研究选择模型进行肝硬化并发症的预测提供了坚实的理论基础和实验依据。因此,本研究纳入了逻辑回归、决策树、随机森林、SVM、XGBoost 5种机器学习模型用于肝硬化患者并发食管静脉曲张的预测研究。通过递归特征消除结合机器学习的方法筛选特征变量,比较并使用5种机器学习算法,以克服以往研究的局限性。此外,使用SHAP方法对肝硬化患者并发食管静脉曲张的风险因素进一步解释,提升机器学习模型在临床应用中的可行性。研究发现将有助于采取及时且有针对性的干预措施,促进患者康复,为临床医生提供早期干预的指导,并为该领域未来的研究提供重要参考。
1 资料与方法
1.1 一般资料
回顾性收集2006年12月至2021年5月在重庆医渡云大数据平台上有电子健康记录的肝硬化患者,共计1 113例。纳入标准:①经国际公认的诊断标准(ICD-10编码)诊断为肝硬化;②有明确的胃镜检查记录。排除标准:①不符合上述纳入标准任意一条者;②肝硬化患者确诊食管静脉曲张的时间间隔<1周;③数据记录不完整或存在明显错误的患者。
收集电子平台上记录符合标准患者的综合数据,主要包括以下内容:①人口统计学变量(如年龄、性别、吸烟史、饮酒史、冠心病史等);②实验室检查变量(如丙氨酸氨基转移酶、胆碱酯酶、白蛋白、血红蛋白、门静脉内径等);③肝硬化评分等级(A、B、C 3个等级)。数据集中的特征变量缺失值未超过20%,其余的变量缺失通过随机森林填补法进行填补。
1.2 统计学方法
使用Python 3.9.12和R 4.3.3完成所有数据的统计分析。计量资料采用平均值±标准差或中位数描述,计数资料用频率描述。使用
t检验或非参数检验比较连续变量和卡方检验比较分类变量(检验水准
α=0.05)。本研究以8∶2的比例随机分为训练集和测试集。采用4种机器学习算法结合递归特征消除(recursive feature elimination,RFE)的方法筛选预测因子,以得到最优的特征子集用于预测。为了使模型达到最佳性能,研究使用逻辑回归、决策树、随机森林、SVM、XGBoost等5种机器学习算法对模型进行构建和训练,并通过随机搜索的方法寻找最佳超参数组合。模型的效果评价采用准确率、特异性、召回率、F1值和受试者工作特征(receiver operating characteristic,ROC)曲线下面积等指数。最后通过SHAP方法绘制各特征在XGBoost模型中的蜂群图和条形图,更直观地展示各特征对模型预测的贡献度,使模型的可解释性更强。具体技术路线见
图1。
2 结 果
2.1 患者基线资料
本研究共纳入1 113例肝硬化患者,将患者按是否患有食管静脉曲张分为食管静脉曲张组和非食管静脉曲张组。2组间患者的基本特征比较如
表1所示。食管静脉曲张患者与非食管静脉曲张患者的平均年龄分别为[(49.91±10.77)岁 vs.(48.76±10.06)岁,
t=-1.756,
P=0.079]。其中饮酒(
F=14.152,
P<0.001)、丙氨酸氨基转移酶(
F=3.476,
P<0.001)、天门冬氨酸氨基转移酶(
t=2.418,
P=0.016)、前白蛋白(
t=9.888,
P<0.001)、碱性磷酸酶(
t=-3.178,
P=0.002)、胆碱酯酶(
t=12.897,
P<0.001)、白蛋白(
t=10.549,
P<0.001)、总蛋白(
t=5.964,
P<0.001)、白细胞计数(
t=5.129,
P<0.001)、红细胞计数(
t=11.694,
P<0.001)、淋巴细胞计数(
t=8.794,
P<0.001)、血红蛋白(
t=12.694,
P<0.001)、血小板计数(
t=11.725,
P<0.001)、凝血酶原比值(
t=-8.550,
P<0.001)、凝血酶原时间(
t=1.474,
P<0.001)、纤维蛋白原(
t=6.600,
P<0.001)、活化部分凝血活酶时间(
t=-3.760,
P<0.001)、活化部分凝血活酶时间比值(
t=-3.165,
P<0.001)、肝纤维化指数(
t=-7,350,
P<0.001)、门静脉内径(
t=-12.749,
P<0.001)、乙型肝炎病毒核心抗体(HBcAb,
F=12.845,
P<0.001)、肝硬化评分(Child-Pugh分级,
F=35.137,
P<0.001)在食管静脉曲张组和非食管静脉曲张组之间的差异具有统计学意义。
2.2 特征变量筛选
对比2组患者的基线特征时,发现差异具有统计学意义的特征较多。为了从原始数据集得到对肝硬化患者并发食管静脉曲张影响最明显的特征,本研究进行了特征选择。为了避免基线变量中不同量纲之间的影响,本研究对连续型变量进行标准化处理,对离散型变量进行重编码。采用RFE结合4 种机器学习的方法进行特征选择,并进行五折交叉验证。随着纳入的特征数量增加,RFE结合4种机器学习模型的准确率变化如
图2所示。
图2A和
图2B表明当特征数量达到20时,RFE+SVM和RFE+随机森林模型的准确率达到最高;
图2C表明特征数量达到17时,RFE+逻辑回归模型的准确率最高;
图2D表明特征数量达到35时,RFE+XGBoost模型准确率最高。
图3A显示了4种方法筛选特征的最优子集,对应的特征集合数量为9个。最终选择的特征集合为血红蛋白、血小板计数、门静脉内径、胆碱酯酶、白蛋白、谷丙转氨酶、凝血酶原比值、凝血酶原时间和血清总蛋白。
2.3 预测模型建立与验证
将筛选出来的血红蛋白、血小板计数、门静脉内径、胆碱酯酶、白蛋白、谷丙转氨酶、凝血酶原比值、凝血酶原时间和血清总蛋白等9个特征变量纳入5种机器学习模型进行训练,并通过随机搜索的方式优化模型的超参数。使用5倍交叉验证评估模型的预测性能,以达到模型的最佳表现。如
图3B所示,XGBoost树模型的表现明显优于其他4个模型,ROC曲线下面积为0.872(95%CI=0.813~0.918),准确率为0.803,特异性为0.631,召回率为0.906,F1值为0.851。随机森林、逻辑回归和SVM模型的ROC曲线下面积(area under curve,AUC)均>0.8。5种机器学习模型在测试集上的具体表现见
表2。
2.4 SHAP的模型解释
为了使模型具有较强的可解释性,使用SHAP方法展示最优XGBoost模型中各特征的重要性程度。
图4A列出了根据平均绝对SHAP值排序的9个风险因素,依次是血小板计数、门静脉内径、胆碱酯酶、白蛋白、谷丙转氨酶、血红蛋白、凝血酶原比值、凝血酶原时间和血清总蛋白。
图4B说明了影响因素对肝硬化患者早期并发食管静脉曲张的影响大小。y轴表示风险因素的值,x轴表示风险因素对发生食管静脉曲张的影响。结果表明血小板计数水平较低、门静脉内径较大、胆碱酯酶水平较低、白蛋白和血红蛋白水平较低、谷丙转氨酶水平较低、凝血酶原比值、凝血酶原时间及血清总蛋白水平较高都会增加发生肝硬化患者早期并发食管静脉曲张的风险。
3 讨 论
本研究旨在探讨肝硬化患者早期并发食管静脉曲张的风险因素,通过RFE筛选特征变量,并构建机器学习预测模型。结合SHAP的方法来分析食管静脉曲张相关风险因素的相对重要性,进一步提高模型的可解释性。目前已有一些用于评估肝硬化患者并发食管静脉曲张的风险因素的研究。例如Dong TS等
[23]收集238例肝硬化病人的临床信息,利用随机森林算法开发了EVendo评分。EVendo评分用于识别肝硬化患者并发食管静脉曲张的AUC值为0.820。Yan YJ等
[24]和王伟等
[25]分别招募了218例和330例肝硬化患者,利用图像特征方法来识别肝硬化患者中轻度食管静脉曲张。基于图像特征的模型在内部验证数据集上AUC值分别为0.732和0.782。相对于之前的研究,本研究在样本量、特征选择的方法、模型的可解释性上具有一定的优势。本次研究一共纳入1 113例肝硬化患者,有利于更准确地反映患者的特征和提高研究结果的可靠性。在特征选择方面,RFE不需要对特征的分布做出提前假设,能够减少模型的复杂性和降低过拟合的风险。因此,研究中采用了RFE结合4种机器学习方法,利用最终取得的交集来建立预测模型。在建立的5种机器学习模型里,XGBoost模型的性能最佳,AUC为0.872。在模型解释性方面,采用的SHAP图有利于增强机器学习模型的可解释性。
SHAP值结果表明肝硬化患者并发食管静脉曲张的风险因素包括血小板计数、门静脉内径、胆碱酯酶、白蛋白、谷丙转氨酶、血红蛋白、凝血酶原比值、凝血酶原时间和血清总蛋白。在纳入的风险因素中,血小板计数对模型预测的贡献最大,可能表示血小板计数对肝硬化患者并发食管静脉曲张有明显的影响。目前已有的研究和共识都表明血小板计数减少会增加肝硬化患者并发食管静脉曲张的风险以及不良结局
[26-28]。肝硬化患者中的门静脉内径与门静脉高压症相关,而门静脉高压是导致食管静脉曲张的重要原因
[29]。本研究中表明门静脉内径增大对肝硬化患者并发食管静脉曲张有重要影响,与相关的研究结果一致
[30]。胆碱酯酶是一种出色的肝硬化生物标志物,低水平的胆碱酯酶可以作为晚期肝病的可靠预后标志
[31-32]。本研究结果SHAP图表明胆碱酯酶在肝硬化患者并发食管静脉曲张的风险因素重要性中排第3位,揭示了胆碱酯酶有望作为肝硬化患者并发食管静脉曲张的重要预测因子。此外,本研究指出血红蛋白、白蛋白、凝血酶原比值、凝血酶原时间与肝硬化患者并发食管静脉曲张的风险密切相关,与郑文凤等
[33]的研究结果一致。分析由于肝脏是合成白蛋白的主要器官,肝功能受损时会导致白蛋白合成量减少,造成低蛋白血症。凝血酶原比值和凝血酶原时间是反映肝脏的合成功能的指标,凝血酶原比值增大和凝血酶原时间延长都表明凝血因子的合成出现障碍。因此,血红蛋白和白蛋白水平较低、凝血酶原比值和时间会增加肝硬化患者发生食管静脉曲张的风险,早期应更密切地监测肝硬化患者的血液指标变化。
本研究围绕肝硬化患者早期并发食管静脉曲张的相关风险因素进行分析,构建了5种机器学习模型,对预测肝硬化患者并发食管静脉曲张的最佳模型进行了解释性分析。该模型可解释机器学习模型对于识别肝硬化人群中早期食管静脉曲张病例以及辅助临床医生做出适当的治疗决策具有重要意义。目前的研究还存在一些局限性。首先,本研究是1项回顾性研究,因此不可避免地存在一定的偏倚。此外,本研究尚未对所构建的预测模型进行外部验证,这使得模型的泛化能力仍然存在不确定性,亟需进一步的验证。未来,本研究计划收集足够的外部验证数据集,以进一步优化该模型。
综上所述,XGBoost模型预测肝硬化患者早期并发食管静脉曲张效能最优,揭示了其相关的风险因素,可为肝硬化患者早期食管静脉曲张的临床决策提供参考。