近年来,辅助生殖技术(assisted reproductive technology,ART)尤其是IVF/ICSI-ET被广泛应用于治疗不孕不育患者,新鲜胚胎移植是ART最常用的治疗方法之一
[1-2]。与冷冻胚胎移植相比,新鲜胚胎移植不需要解冻过程,可避免解冻后的胚胎质量下降,减少了对胚胎的潜在影响。对于薄子宫内膜目前尚无统一的定义,通常认为HCG日子宫内膜厚度(endometrial thickness,EMT)<8 mm或黄体酮日EMT<9 mm是薄子宫内膜
[3]。大部分子宫内膜偏薄的患者,在新鲜胚胎移植中通常取消周期或进行冷冻胚胎移植
[4],这会导致治疗过程延长,给患者造成心理负担,增加治疗成本
[5]。并且有一些研究表明EMT并不会在随后的冷冻胚胎移植周期中得到改善
[6-8],还有一些研究发现在冻融胚胎移植中,EMT对妊娠的预测能力较低
[9-10],部分研究也认为EMT与妊娠结局之间没有关联
[11- 12]。这些研究认为,因为子宫内膜偏薄而取消胚胎移植或改为冷冻胚胎移植是不合理的,薄子宫内膜患者仍然有很大概率在新鲜胚胎移植中实现活产
[13]。尽管已有一些文献对造成早期流产的原因进行探索
[14-15],但薄子宫内膜的患者在新鲜胚胎移植后发生早期流产的确切因素尚不清楚
[16]。
机器学习已被用于为诊断、预测预后和解释医学图像
[17]。与传统的预测方法相比,基于机器学习的方法有助于建立更精确和准确的预测模型
[18]。本研究采用机器学习方法,首次对薄子宫内膜患者在新鲜胚胎移植中发生早期流产的影响因素进行探究,构建预测模型,并通过SHAP图对影响因素进行解释,补充了机器学习模型在可解释性方面的不足,有助于指导临床医生对该类型患者的早期干预。
1 资料与方法
1.1 数据收集
回顾性收集了2018年1月至2022年9月在某医院生殖中心进行首次新鲜胚胎移植(IVF/ICSI)的薄子宫内膜患者共计1 153例。
纳入标准:①首次进行IVF/ICSI周期的患者;②HCG日EMT≤8 mm;排除标准:①染色体异常的夫妇;②患有子宫畸形、未经治疗的黏膜下子宫肌瘤或子宫内膜息肉的患者;③未获得成熟卵母细胞或可用胚胎而取消的周期;④由于社会或个人原因而取消的周期;⑤使用供体胚胎移植的患者;⑥植入前基因检测周期;⑦双胎妊娠、异位妊娠、死产的周期。
对于符合标准的患者,收集基本临床数据,包括以下内容:①人口统计学信息(如年龄、体质指数、不孕年限、不孕因素、孕次、产次等);②实验室检查结果[如基础卵泡刺激素(FSH)、黄体生成素(LH)和雌二醇(E2)等激素水平以及精子存活率、正常形态率等];③治疗过程(如GN用量、移植胚胎数量、移植胚胎类型等)。特征变量中缺失值大于20%的特征被过滤,其余变量通过多重插补和随机森林填补法进行填充。早期流产定义为在妊娠12周内发生的流产。
1.2 统计方法
使用Python3.9、R4.3.2和SPSS 26.0软件进行分析。使用
t检验或Mann-Whitney
U检验比较连续变量,使用卡方检验比较分类变量。连续数据用平均值±标准差或中位数描述,分类数据用频率或百分比描述。检验水准
α=0.05。本研究以7∶3的比例随机分为训练集和测试集。采用LASSO回归结合随机森林递归特征消除(RFE)筛选预测因子,以提高预测的准确度,使模型的可解释性更强。逻辑回归是最常见的用于分类的线性模型。决策树通过树形结构将数据集分割成多个子集,每个叶节点代表一个类别或者一个数值。随机森林通过构建多个决策树并且综合它们的预测结果来提高分类或者回归的准确性与泛化能力。XGBoost通过优化损失函数并引入正则化项来提高模型的泛化能力与效率。AdaBoost训练一系列弱分类器,并加权组合其预测结果以提高整体模型的性能。多层感知机是一种人工神经网络模型,由多个神经元层组成,每一层都与下一层全连接,通过反向传播算法进行训练,适用于复杂的非线性模式识别问题。为了获得最佳的预测性能,使用6种机器学习算法对模型进行构建和训练,包括逻辑回归、决策树、随机森林、XGBoost、AdaBoost和多层感知机,通过网格搜索、随机搜索和贝叶斯优化的方法寻找最佳超参数组合。通过准确率、特异性、召回率、F1值和ROC曲线下的面积量化模型对早期流产和持续妊娠事件的区分能力;校准曲线用于评估预测模型预测概率与样本概率之间的一致性。统计分析及模型建立具体流程图如
图1所示。
2 结果
2.1 患者基本情况
本研究共纳入1 153例患者。早期流产组的患者和持续妊娠组的患者特征的比较如
表1所示。其中年龄、BMI、基础E2、AST/SLT、HBSAB、HCG日P、禁欲天数、GV数量、移植胚胎个数的组间差异具有统计学意义(
P<0.05)。
2.2 预测因子的选择
在特征选择之前,对连续变量进行标准化,对离散变量进行独热编码。采用随机森林RFE方法,随着特征数量增加,模型的准确率的变化如
图2所示。在特征数量达到46时,模型的准确率达到最高。
图3显示了基于LASSO回归的交叉验证曲线。X轴表示正则化参数的范围,Y轴表示均方误差,模型达到最佳性能时对应的特征集合数量为49。最终选择的特征集合如
图4,左圆表示LASSO回归选择的特征,右圆表示随机森林RFE选择的特征,2者交集部分的特征数量为29,即最终考虑纳入模型的特征集合。
2.3 预测模型的建立与验证
筛选出来的预测因子被纳入6种机器学习模型,为确保每个模型达到最佳性能,本研究对其超参数进行了进一步优化,使用5倍交叉验证评估模型的预测性能,模型在测试集上的具体表现见
表2。如
图5所示,多层感知机模型的表现明显优于其他5个模型,ROC曲线下面积为0.803(95%CI=0.772~0.834),准确率为0.792,特异性为0.852,敏感性为0.701,F1值为0.727。随机森林、XGBoost和AdaBoost模型的AUC值均大于0.7。
此外,本研究通过校准曲线对预测模型的效果做出评价。
图6表明实际概率与机器学习模型预测概率之间具有良好的预测一致性。
2.4 SHAP模型的可解释性
多层感知机模型表现出最佳的预测能力,因此引入SHAP框架来解释该模型。
图7列出了通过平均绝对SHAP值评估的前5个影响因素,依次是胚胎移植个数、基础E2、启动日LH、精子正常形态率和年龄。
图8说明了影响因素对早期流产风险的影响。
y轴表示影响因素的值,
x轴表示影响因素对发生早期流产的影响。双胚胎移植、基础E2水平较低、启动日LH水平较高、精子正常形态率低以及年龄较高都会增加发生早期流产的风险。
3 讨论
本研究基于机器学习方法,首次对新鲜胚胎移植中薄子宫内膜患者发生早期流产的影响因素进行探究,建立了6种机器学习预测模型,在区分该人群患者发生早期流产方面显示出良好的预测性能,其中多层感知机模型性能最佳。该模型有助于临床医生对该人群患者的早期诊断,为未来改善早期流产高危患者的妊娠结局提供指导思路。
特征数量较多的情况下,机器学习方法在处理特征之间的复杂关系方面明显表现优于传统统计学方法
[19],能够识别到传统经验容易忽略的可能影响因素
[20]。在预测因子选择方面,采用了LASSO回归和随机森林RFE 2种方法,最终取得的交集来建立预测模型。在建立的6种机器学习模型里,多层感知机模型的性能最佳,AUC为0.803(95%CI=0.772~0.834),准确率、敏感性、召回率和F1值分别为0.79、0.85、0.70、0.73。此外,随机森林、XGBoost和AdaBoost模型的AUC都大于0.7。
为了进一步阐明本课题组的模型并确定预测变量的影响,对表现最佳的多层感知机模型应用了SHAP分析。每个SHAP值衡量每个特征对薄子宫内膜患者在新鲜胚胎移植中发生早期流产的正向或负向贡献程度。在纳入的预测因子中,胚胎移植数量对模型预测的贡献最大,这可能表示在薄子宫内膜患者在新鲜胚胎移植后发生早期流产的影响因素中,最应该关注的是胚胎移植的数量,SHAP分析结果显示移植2个胚胎会增加发生早期流产的风险。根据一些研究,尽管双胎移植比单胎移植的妊娠率更高
[21],但同时也增加了多胎妊娠及卵巢过度刺激综合征风险。目前已有的研究和共识都表明双胎移植会增加多胎妊娠和随后妊娠并发症的风险以及不良的围产期结局
[21-23]。已有大量研究表明雌激素水平和卵巢反应性及不良妊娠结局有关
[24- 25]。在本研究中,基础E2较低和启动日LH较高都是薄子宫内膜患者在新鲜胚胎移植中发生早期流产的重要危险因素。基础E2较低和启动日LH较高都可能提示与卵巢早衰有关
[26-27]。卵巢储备功能下降,导致卵子质量下降,从而增加早期流产的风险。精子形态正常通常表示精子遗传物质是完整的,且精子中段的中心体在原核形成的过程中与星体形成、雄原核形成及原核融合有关
[28],因此精子正常形态率高对提高临床妊娠率有正向的影响。但目前很少有研究直接说明精子正常形态率和早期流产之间的关系,本研究表明精子正常形态率偏低可能会增加早期流产的风险。由于精子形态异常与精子头部核蛋白组型转换异常、染色质结构异常、DNA碎片增多有关,且染色质异常精子多表现为头部形态异常,导致精子受精能力下降而发生早期流产的风险增加
[29-31]。与先前的大部分研究一致,本研究表明年龄是早期流产的重要影响因素之一,高龄会增加早期流产的风险。主要原因可能与卵母细胞的质量随年龄的增长而下降有关,卵母细胞中线粒体的显著减少,可能导致胚胎非整倍体的风险增加
[27]。移植前对胚胎进行植入前遗传学筛查可能会降低非整倍体的可能性,从而降低该人群发生早期流产的风险,但目前该技术的安全性和风险尚有争议
[32]。
目前的研究还存在一些局限性。首先,本研究使用的数据来自单一中心,这使得模型可能不能很好地应用于其他机构的患者。其次,电子病历中缺乏在治疗过程中子宫内膜厚度的监测数据,无法确定扳机日开始后的药物作用是否改变了子宫内膜的厚度。此外,我们没有对构建的预测模型进行外部验证,因此模型的泛化性仍然不确定,需要进一步验证。未来将收集足够的外部验证数据集,以进一步改进该模型。
本研究开发了6种机器学习模型来预测薄子宫内膜患者在新鲜胚胎移植后的早期流产,并取得了良好的评估准确性。该模型对于识别该人群中早期流产高风险病例、做出适当的治疗决策以及监测进展可能是有用且有益的。