基于机器学习算法构建甲状腺乳头状癌淋巴结转移的多分子预测模型

中南大学学报(医学版) ›› 2025, Vol. 50 ›› Issue (10) : 1687 -1702.

PDF
中南大学学报(医学版) ›› 2025, Vol. 50 ›› Issue (10) : 1687 -1702.

基于机器学习算法构建甲状腺乳头状癌淋巴结转移的多分子预测模型

作者信息 +

Author information +
文章历史 +
PDF

摘要

目的:甲状腺乳头状癌(papillary thyroid carcinoma,PTC)患者术前淋巴结转移状态的准确评估对个体化诊疗方案的制订至关重要,但现有的临床方法的预测效能仍较为局限。本研究旨在筛选PTC患者发生淋巴结转移的关键分子标志物,构建基于机器学习(machine learning,ML)算法的淋巴结转移风险预测模型,并评估其在辅助临床决策中的应用价值。方法:从癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库中获取507例PTC患者的转录组数据,经严格质量控制筛查后,排除50例淋巴结状态(N分期)不明的病例,最终纳入符合纳入与排除标准的病例457例[无淋巴结转移(N0期,N0组)229例,有淋巴结转移(N1期,N1组)228例],并按7꞉3的比例随机分层划分为训练集(n=321)和验证集(n=136)。采用4种独立的算法[基于负二项分布的差异表达分析(differential expression analysis based on the negative binomial distribution,DESeq2)、数字基因表达的经验贝叶斯分析(empirical analysis of digital gene expression in R,edgeR)、线性模型微阵列分析(linear models for microarray analysis,Limma)及加权基因共表达网络分析(weighted gene co-expression network analysis,WGCNA)],分别筛选淋巴结转移相关的候选基因集。针对每个基因集,采用最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)回归筛选核心基因,并在训练集中构建多因素Logistic回归预测模型。采用受试者操作特征(receiver operating characteristic,ROC)曲线、混淆矩阵评估预测模型在训练集、验证集、性别亚组及6种ML算法[广义线性模型(generalized linear model,GLM)、随机森林(random forest,RF)、极限梯度提升(extreme gradient boosting,XGBoost)、人工神经网络(artificial neural network,ANN)、支持向量机(support vector machine,SVM)、朴素贝叶斯模型(naive Bayes model,NBM)]中的稳定性和泛化能力。采用校准曲线(calibration curve,CC)分析、决策曲线分析(decision curve analysis,DCA)及TCGA队列验证基因表达差异,综合评价模型效能。结果:经edgeR与LASSO回归分析鉴定出11个淋巴结转移相关的特征基因(PI15、IL11、PLA2G5、LY6G6C、FAM178B、MUC21、FN1、PDZK1IP1、STAC2、TMPRSS4、WARS1P1),基于这些基因构建的多因素Logistic回归预测模型(Model 2)预测效能最优。训练集中,Model 2的ROC曲线的曲线下面积(area under the curve,AUC)为0.802,灵敏度为0.771,特异度为0.797;验证集中,Model 2的ROC曲线的AUC为0.793,灵敏度为0.773,特异度为0.634。跨性别验证结果显示:Model 2在整体人群(AUC=0.780)、女性群体(AUC=0.775)及男性群体(AUC=0.807)中效能稳定。6种ML算法的交叉验证结果显示:Model 2在各种ML算法中的预测效能最为突出,并在不同ML算法下的预测效能呈现出良好的均衡性。CC分析显示:在训练集和验证集中,Model 2均显示出良好的校准效能(Hosmer-Lemeshow拟合优度检验:P训练集=0.851,P验证集=0.842),其预测的淋巴结转移概率与实际观察值具有良好的一致性。DCA结果显示:在训练集中,Model 2在0.10~0.75的风险阈值内表现出显著的临床净获益;在验证集中,Model 2在较低风险阈值(<0.30)下具有一定的临床净获益,但随着阈值增加,其临床获益水平逐渐降低,整体表现不及训练集。Model 2涉及的11个基因(PI15、IL11、PLA2G5、LY6G6C、FAM178B、MUC21、FN1、PDZK1IP1、STAC2、TMPRSS4、WARS1P1)的表达量在N1组中均高于N0组,差异均有统计学意义(均P<0.001)。结论:本研究基于11个特征基因(PI15、IL11、PLA2G5、LY6G6C、FAM178B、MUC21、FN1、PDZK1IP1、STAC2、TMPRSS4、WARS1P1)构建的Model 2可有效预测PTC淋巴结转移风险,并具有较强的跨队列稳定性、ML兼容性和临床实用性,可作为术前淋巴结状态评估的潜在辅助工具,为个体化诊疗决策提供分子依据。

关键词

甲状腺乳头状癌 / 淋巴结转移 / 机器学习 / 最小绝对收缩和选择算子回归分析 / 预测模型

Key words

引用本文

引用格式 ▾
. 基于机器学习算法构建甲状腺乳头状癌淋巴结转移的多分子预测模型[J]. 中南大学学报(医学版), 2025, 50(10): 1687-1702 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/