基于机器学习算法的胃腺癌关键基因筛选与预后模型构建

张子坚, 韩开山, 杨明

基因组学与应用生物学 ›› 2025, Vol. 44 ›› Issue (08) : 826 -835.

PDF
基因组学与应用生物学 ›› 2025, Vol. 44 ›› Issue (08) : 826 -835. DOI: 10.13417/j.gab.044.000826

基于机器学习算法的胃腺癌关键基因筛选与预后模型构建

    张子坚, 韩开山, 杨明
作者信息 +

Author information +
文章历史 +
PDF

摘要

本文基于生物信息学和机器学习算法确定与胃腺癌(stomach adenocarcinoma, STAD)预后密切相关的关键基因,并构建高效预后风险模型。从TCGA-STAD数据集中获取胃腺癌患者的胃腺癌组织及癌旁组织的RNA测序数据,并结合临床病理信息进行分析。首先对纳入的RNA测序数据进行了差异表达基因(differential expressed genes, DEGs)筛选、蛋白质-蛋白质相互作用(protein-protein interaction, PPI)网络分析和功能富集分析。其次,结合RNA测序数据和临床病理数据,采用单因素Cox分析和4种机器学习算法(LASSO、 SVM-RFE、 ORSF、 XGBoost)进一步进行特征选择,得到核心基因,并在GEO数据集中验证核心基因表达的差异。最后基于LASSO-Cox回归构建预后风险模型,并采用列线图进一步对患者进行个性化预测。通过Kaplan-Meier生存分析、 ROC曲线评估模型的预测能力,并在验证组中进行独立验证。基于DEGs筛选及PPI网络分析得到的197个关键基因,主要富集在细胞色素P450介导的异源物质代谢、化学致癌-DNA加合物等通路,并参与对异源物质刺激的反应、激素代谢等生物学过程。构建由COL10A1、CYP2D6、GPT、GPX3、PLN、TREM2等6个基因组成的风险预测模型,高风险组患者总生存期显著低于低风险组的,受试者时间依赖性工作特征(receiver operating characteristic, ROC)曲线下面积(area under curve, AUC)值为0.738, ROC曲线2年、 3年、 5年AUC值分别为0.708、 0.744、 0.834,表明该模型具有良好的生存预测能力。列线图模型显示出较高的预测准确性,校准曲线表明模型的预测结果与实际生存率高度一致。验证组分析进一步证实了该模型的稳定性。

关键词

胃腺癌 / 机器学习 / 生物标志物 / 风险预测模型 / 列线图

Key words

引用本文

引用格式 ▾
基于机器学习算法的胃腺癌关键基因筛选与预后模型构建[J]. 基因组学与应用生物学, 2025, 44(08): 826-835 DOI:10.13417/j.gab.044.000826

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

97

访问

0

被引

详细

导航
相关文章

AI思维导图

/