原发性肝癌(PLC)是全球常见的消化系统恶性肿瘤,其发病率和死亡率居高不下。根据世界卫生组织国际癌症研究机构(IARC)发布的2024年全球癌症负担数据显示
[1],2022年全球肝癌新发病例达86.5万例,死亡病例75.8万例,分别位居全球恶性肿瘤发病谱第六位和死因谱第3位。值得注意的是,中国肝癌的疾病负担尤为沉重,其新发病例和死亡病例均居全球首位,已成为严重威胁我国居民健康的重大公共卫生问题。因此,建立有效的肝癌患者预后模型可以为临床治疗提供新的指导。
失巢凋亡是一种特殊类型的凋亡,由细胞与细胞外基质(ECM)的粘附不当或粘附丧失引起
[2]。ECM调节细胞生长和分化,并在许多细胞类型中作为存活因子发挥重要作用。正常上皮细胞通过细胞-细胞间连接和细胞-ECM相互作用维持其组织架构
[3],而失巢凋亡则通过清除异常黏附的细胞来阻止其异常增殖。此外,失巢凋亡还参与组织稳态、发育和致癌过程等。许多激酶/磷酸酶信号分子作为中枢调控因子参与失巢凋亡
[4],包括磷酸肌醇-3激酶相关信号、Raf-ERK相关信号、Jun N末端激酶等。肿瘤细胞通过获得失巢凋亡抵抗能力促进其转移扩散。研究发现,一些肿瘤病毒,包括EBV、HBV
[5]、代谢中间体(特别是氨基酸和核苷酸)
[6]以及自噬等
[7],对于抗失巢凋亡至关重要。
肿瘤微环境的免疫特征在肝癌进展中扮演着关键角色。肿瘤微环境包含丰富的免疫细胞浸润,包括先天免疫细胞(巨噬细胞、中性粒细胞、肥大细胞等)和适应性免疫细胞(T/B淋巴细胞)
[8]。其中,免疫抑制细胞通过抑制抗肿瘤免疫反应促进肿瘤免疫逃逸和转移。随着免疫检查点抑制剂(如抗CTLA-4和抗PD-1/PD-L1抗体)在临床的应用,免疫治疗已成为晚期肝癌系统治疗的重要突破,显著改善了部分患者的生存预后
[9]。然而,由于肝脏特有的免疫耐受特性及慢性炎症微环境,肝癌对免疫治疗的反应率仍不理想,需要更深入地解析肝癌免疫微环境的调控机制
[10]。
失巢凋亡相关基因(ARGs)的预后价值已在胃癌、肾癌、子宫内膜癌、胶质母细胞瘤等多种恶性肿瘤中得到验证
[11-14],但失巢相关基因与免疫调控网络的交互作用在肝癌中尚未阐明。其次,目前尚缺乏整合失巢相关基因和免疫相关基因(IRGs)的预后预测模型。基于此,本研究拟系统分析DAIs在PLC中的预后价值,并重点探讨其与临床特征、免疫微环境、体细胞突变、信号通路和药物敏感性的相关性,以期为肝癌的精准治疗提供新的生物标志物和潜在治疗靶点。
1 资料和方法
1.1 基因表达和临床数据的获取
所用PLC患者的 RNA 测序数据、体细胞突变和相关临床信息数据均从 Cancer Genome Atlas (TCGA) 数据库(
https://portal.gdc. cancer.gov/)下载作为训练集。从Gene Expression Omnibus(GEO)数据库(
https://www.ncbi.nlm.nih.gov/geo/)获取了GSE14520微阵列数据集和相关临床数据作为验证集。使用网站提供的注释文件来匹配基因符号。当多个探针与一个基因匹配时,取最高值。去重后,从GeneCards数据库(
https://www.genecards.org/)、Harmonizome数据库(
https://maayanlab.cloud/Harmonizome/)和美国国家生物技术信息中心(NCBI)数据库(
https://www. ncbi.nlm.nih.gov/)整合了740个ARGs。从ImmPort数据库(
https://immport.niaid.nih.gov)检索了1811个IRGs数据。通过STRING在线数据库绘制功能蛋白相关网络。
1.2 差异表达基因分析
为了获得PLC中的差异表达基因(DEG),我们使用R软件中的 DESeq2分析正常和肿瘤样本中所有基因的表达情况,以获得 DEG(|log2FC|>1且
P<0.05)。最终获得了4182个DEGs。将 ARGs、DEGs 和 IRGs 取交集,通过网站 (
https://bioinformatics.psb.ugent.be/webtools/Venn/) 制作维恩图显示交叉基因(DAIs)。使用R包“pheatmap”展示PLC组织和癌旁正常肝组织中DAIs表达的差异。使用 “ggplot”R 包可视化DAIs 的 CNV频率。
1.3 预后模型的构建
通过基于DAIs的单变量Cox回归分析获得TCGA中的候选预后基因。使用“glmnet”R包对预后基因采用LASSO-Cox比例风险模型(迭代次数=1000)来开发Anoikis-Immune相关特征。风险评分等于每个基因表达的总和乘以相应的系数。根据TCGA和GSE14520队列中的中位风险评分将PLC患者分为高风险组和低风险组。使用多变量Cox回归分析评估风险特征的独立性。
1.4 预后特征的验证
使用“Survival”和“ROC”R 包进行时间依赖性受试者工作特征 (ROC) 曲线分析。使用“survival”和“survminer”R 包应用 Kaplan-Meier 生存曲线。
1.5 基于DAI的列线图的建立
使用“rms”R 包根据风险评分和其他临床特征创建了基于 DAIs 的列线图,以预测病例的临床结果。通过将列线图的预测能力与观察到的生存结果进行比较,绘制了校准曲线以估计 DAIs 的可靠性。
1.6 基因集富集分析(GSEA)
使用R软件包“DESeq2”识别高风险与低风险组之间的DEGs(|log2FC|>1且
P<0.05),然后应用GSEA对基于Hallmark基因集的生物学通路进行检测。经过1000次替换后,收集
P<0.05、FDR
P<0.25的富集基因集。使用Omicshare网站(
www.omicshare.com)对通过上述方法获得的TCGA数据库中的PLC差异基因进行GO和KEGG分析。
1.7 免疫特征分析
为探讨高风险组与低风险组患者的免疫浸润状态差异,我们使用CIBERSORT工具量化了22种免疫细胞比例,阈值为
P<0.05。此外,我们还使用肿瘤免疫功能障碍和排斥(TIDE)网站(
http://tide.dfci.harvard.edu)来预测免疫治疗反应。
1.8 风险特征中的体细胞突变和 TMB
使用R包“mafools”中的函数tmb从突变数据中计算TMB值,根据TMB中位数将患者分为高低TMB组,使用Wilcoxon检验比较高、低风险组的TMB评分。
1.9 药物敏感性分析
基于TCGA数据库,利用“pRRophetic”R包计算PLC药物的半数抑制浓度(IC50),采用Wilcoxon符号秩检验分析高低风险组、TP53突变组与非突变组之间的差异。
1.10 免疫组化和人类蛋白质图谱分析
获取PLC患者的肿瘤及癌旁组织样本,按照标准免疫组化染色程序检测肿瘤及癌旁组织中SEMA7A的蛋白表达。将PLC组织及癌旁正常肝组织经10%甲醛固定、石蜡包埋、切片,选取最佳组织切片进行脱脂及标准免疫组化染色,最后脱水封片、镜检、图像采集及分析。抗体信息如Immunoway所述:SEMA7A(CD108;稀释度1∶100)。随机选取5个肿瘤组织显微镜视野,采用考虑染色强度和比例的半定量系统对所有标本进行分级。未染色、淡黄色、棕色和棕褐色细胞的阳性染色记为0、1、2、3分。阳性细胞比例以<10%、10%~25%、26%~75%、>75%分别记为0、1、2、3分。将上述两个分数相乘计算最终染色分数。两位研究者独立对选定区域的显微镜视野进行评分。然后将两组分数取平均值得到最终分数。0~3.5分代表“阴性或低表达”,4~9分代表“高表达”。
利用人类蛋白质图谱(HPA:
https://www.proteinatlas.org/)数据库探讨PLC与正常样本中DAIs的表达情况。
1.11 统计学分析
单因素及多因素分析使用Cox比例风险回归模型。对于两组间连续变量的比较采用独立样本t检验,数据不满足正态性、样本量小时,采用Wilcoxon检验;分类变量的组间差异通过卡方检验评估。多个组别采用单因素方差分析(ANOVA)进行组间差异检验。生存分析采用Kaplan-Meier法绘制生存曲线,并通过log-rank检验比较组间差异。所有统计分析均在SPSS 24.0和R 4.2.2软件平台上完成,统计显著性阈值设定为P<0.05。
2 结果
2.1 PLC和癌旁正常肝组织中DAI的获得和表达
从TCGA数据库下载PLC患者RNA表达及临床信息,通过将表达信息与临床信息进行匹配,选取至少50%样本表达的基因,获得404例PLC患者的临床信息及20 420个基因(
图1)。
对TCGA临床资料进行整理,排除无生存信息、生存时间小于30 d、无病理分期的病例,获得351例样本。利用R软件包GESeq2在TCGA队列中鉴定DEGs。共鉴定出4182个DEGs,其中上调基因3135个,下调基因1047个(图2A)。然后,将这些DEGs与下载的失巢凋亡相关基因ARGs和IRGs进行交集,得到43个共同基因,即DAIs(图2B)。
蛋白质相互作用网络显示DAIs之间有很强的相关性(图2C)。同时,从GSE14520数据库中获取225例PLC患者的测序和临床信息进行验证。从TCGA和GEO数据库下载的PLC患者临床数据,包括年龄、性别、肿瘤分期等(
表1)。
热图显示了TCGA数据库中PLC组织与癌旁组织中DAIs的表达情况(图2D),可以看出PLC组织与癌旁组织中DAIs的表达水平存在一定的差异。柱状图显示了DAIs的增益和丢失改变的频率(图2E),增益改变频率前5位的基因为S100A8、PTGS2、IL10、S100A11、TGFB2,而丢失改变频率最高的基因为AR、PAK3、TUBB3、EGF、SPP1。
2.2 基于7个DAIs的预后风险模型构建
排除TCGA数据中的正常样本,对323例PLC样本进行单因素Cox分析,探讨DAIs在PLC预后中的价值。森林图显示,20个DAIs与预后相关(
图3A)。基于20种DAIs (NR4A3、NDRG1、NR4A1、PTHLH、EDNRB、SEMA7A、CXCL12、TDGF1、IL11、AR、BIRC5、GDF2、NGFR、EGF、SPP1、NTF3、CAT、S100A11、MDK、MMP9)(
图3B、C)进行LASSO-Cox回归分析构建预后模型,其中7个基因呈显著相关(
P<0.05)。以下公式量化了风险评分(
图3D):风险评分=[-0.205773061×mRNA NR4A3表达水平]+[-0.022891938×mRNA SEMA7A表达水平]+[0.021222834×mRNA IL11表达水平]+[0.143759252×mRNA AR表达水平]+[0.618601244×mRNA BIRC5表达水平]+[0.006599213×mRNA EGF表达水平]+[0.256184618×mRNA SPP1表达水平]。
2.3 DAIs的预后价值评价及列线图的构建
根据公式计算所有患者的风险评分,以DAIs风险评分中位数作为截止值,将诊断为PLC的患者分为高风险和低风险两组,使用了时间相关的ROC曲线分析。TCGA组预测1年、3年和5年生存率的ROC曲线下面积(AUC)分别为0.766、0.739和0.713(
图4A)。使用相同的公式计算GSE14520中PLC患者的DAIs评分,以验证DAIs预测预后的能力。GSE14520得到的结果与TCGA数据相同,GEO数据的ROC曲线分析结果分别为0.622、0.652和0.674(
图4B)。kaplan-Meier生存曲线显示,两组患者高风险组总生存期(OS)均低于低风险组(
P<0.01,
图4C、D)。
图4E及
图4F为DAIs评分和生存状态在TCGA和GEO数据集中的分布。
本研究应用多变量Cox回归分析来研究TCGA和GEO队列中风险特征的独立预后价值。风险评分和分期是两组患者重要的独立预后指标(
图4G、H)。在TCGA队列中建立了一个基于DAIs、TNM分期、年龄和性别的列线图(
图4I)。如校准曲线所示,估计的生存概率和实际的生存概率非常匹配(
图4J)。C-index结果显示该列线图预后能力强且可靠(TCGA队列C-index为0.707)。
2.4 不同风险人群间富集通路的综合分析
GSEA富集分析显示,高风险组标记基因在20条通路中显著富集,如CHECKPOINT pathway、E2F_TARGETS、MITOTIC_SPINDLE、BILE_ACID_METABOLISM、XENOBIOTIC_METABOLISM、faty_ acid_metabolism(图5A)。GO分析结果显示,这些DEGs通过以下方式富集:单生物过程、质膜固有组分、单生物细胞过程、质膜整体组分和细胞外空间(图5B)。
2.5 PLC中DAIs与免疫细胞浸润的相关性探讨
TCGA数据中PLC高风险组的Treg细胞、中性粒细胞、M0细胞的浸润明显高于低风险组(
图6A、B),T细胞CD4记忆性静息细胞、单核细胞、巨噬细胞M1、幼稚B细胞明显低于低危组。GEO中中性粒细胞、M0细胞、T细胞CD4记忆性静息细胞、单核细胞的浸润结果与TCGA相同(
图6C、D)。免疫检查点阻断(ICB)的癌症免疫治疗旨在帮助免疫系统识别和攻击癌细胞。免疫检查点阻断治疗的主要靶点为程序性死亡配体1(PD-L1)、程序性死亡1(PD1)和细胞毒性T淋巴细胞相关蛋白4(CTLA4)。TIDE分析(肿瘤免疫功能障碍与排斥)能有效预测患者对ICB的疗效,反映肿瘤免疫逃逸的潜在能力。TIDE评分越高,ICB疗效越差。我们在TCGA高风险组和低风险组进行了TIDE分析以比较其对ICB的疗效差异。高风险组的TIDE评分和Exclusion评分明显升高,而Dysfunction评分和MSI评分较低(
图6E~H)。这一结果在GEO数据中得到验证(
图6I~L)。
2.6 体细胞突变和肿瘤突变负荷特征的比较
对比高风险组和低风险组的体细胞突变数据,结果显示高风险组的TP53突变频率高于低风险组(38%
vs18%;
图7A、B)。致癌信号通路分析结果显示,高风险组中,突变最多的基因来自RTK-RAS通路,占样本比例最大,而低风险组中,突变最多的基因来自PI3K通路,且WNT通路基因在样本中占比最大(
图7C、D)。Wilcoxon 检验结果显示,高风险组和低风险组之间的肿瘤突变负荷(TMB)评分没有显著差异(
P=0.46;
图 7E)。根据TMB评分将样本分为高TMB组和低TMB组。随后将样本分为高风险高TMB、高风险低TMB、低风险高TMB、低风险低TMB 4组,4组生存分析显示差异有统计学意义(
P<0.05,
图7F),低风险低TMB组生存率较高,高风险高TMB和高风险低TMB组生存率较差。
2.7 不同风险人群化疗药物敏感性的差异
Wilcoxon符号秩检验结果显示,低风险组患者对多西他赛的敏感性高于高风险组患者(
P=0.0047,
图8A),对阿霉素的敏感性低于高风险组患者(
P<0.05,8B),但顺铂、博来霉素和吉西他滨在两组之间差异无统计学意义(
P>0.05,
图8C~E)。体细胞突变数据显示,TP53在高风险组中突变频率最高,因此我们根据TP53是否发生突变将PLC患者分组比较。结果显示,与TP53突变组相比,TP53非突变组对多西他赛、顺铂、吉西他滨的敏感性更高(
P<0.05,
图8F、H、J),而对阿霉素和博来霉素的敏感性差异无统计学意义(
P>0.05,
图8G、I)。
2.8 PLC及癌旁组织中DAIs基因的表达
SEMA7A蛋白在PLC组织中的表达量高于癌旁组织(
图9A)。正常组织中NR4A3和AR的表达量高于PLC组织,而SPP1、BIRC5和SEMA7A则相反(
图9B)。采用卡方检验比较PLC组织和癌旁组织中SEMA7A的表达水平(
表2)。结果显示,SEMA7A在28例PLC组织中呈阳性表达,在9例癌旁正常组织中呈弱阳性或阴性表达。PLC和邻近癌旁组织中SEMA7A的表达差异有统计学意义(
P<0.05),此结果在HPA网站上得到了确认(
图9B)。
3 讨论
PLC是发生在肝脏的恶性肿瘤,是人类最常见的恶性肿瘤之一,死亡率很高。大部分PLC患者确诊时已属晚期,且由于静脉侵犯和肝内、肝外多发转移而无法进行根治性手术。因此,仍需寻找生物标志物来预测预后和评估治疗反应,以优化PLC患者的临床决策。
细胞死亡是维持组织功能和形态所必需的过程
[15]。细胞死亡途径包括细胞凋亡、坏死性凋亡、自噬、铁死亡、细胞焦亡、坏死等。它们具有不同的形态学和生化特征。失巢凋亡是一种新的特殊细胞死亡形式,在机体发育、组织平衡、疾病发生以及肿瘤转移中起着重要作用。它通过整合素感知和向细胞外基质发出信号,参与控制细胞粘附和存活。研究表明,在A431表皮癌细胞中,表皮生长因子刺激可诱导细胞周期进程或细胞圆化,从而引发失巢凋亡。Chen等
[16]构建了5个与细胞凋亡相关的基因(BAK1、SPP1、BSG、PBK和DAP3)标记来预测HCC患者的生存率。Chi 等
[17]确定了包含7个基因(IKZF3、BAK1、MTDH、FN1、PRDX4、ERBB2和 LTF)的稳健风险评分特征,以建立头颈部鳞状细胞癌的风险预测模型。有研究整合了5个凋亡相关基因(CHEK2、PDK4、ZNF304、SNAI2和SRC)标签,建立了风险预测模型,作为透明细胞肾细胞癌患者的分层因素
[18]。肿瘤细胞表面具有可被免疫系统识别的肿瘤抗原,这是癌症免疫的基础。免疫系统在对抗癌症方面起着至关重要的作用。然而,很少有研究分析PLC中凋亡基因与免疫相关基因之间的关系。本研究系统研究了失巢凋亡及免疫基因在PLC中的预后和免疫学价值,为今后的研究提供了一定基础。
本研究评估了基于DAIs的风险模型在PLC患者中的预后价值。通过单变量和LASSO-Cox回归分析,构建了基于7个DAIs的预后模型,并建立了风险评分计算公式。然后在训练数据集(TCGA)和验证数据集(GSE14520)中测试DAIs的预后价值。将风险特征与临床特征相结合,构建了列线图以促进临床实践。这些结果表明,基于DAIs的风险模型可以作为预测PLC患者预后的有力工具。
用于建立模型的7种DAIs被报道与PLC的肿瘤发生和增殖有关。先前的研究表明SEMA7A可以降低小管膜胆汁酸转运体的表达,导致小鼠肝内胆汁淤积
[18]。SEMA7A通过将整合素β1与NF-κB p105连接起来,激活NF-κB p105加工和下游信号传导,从而促进肝脏炎症
[19]。但其与PLC相关性的研究较少。因此,我们对采集的PLC组织和癌旁正常组织进行了免疫组化染色分析,结果显示PLC组织中SEMA7A的表达水平高于癌旁组织,这与HPA网站上的结果一致。这为进一步研究SEMA7A与PLC发生、发展和转移的关系提供了基础。NR4A3能够调控细胞增殖、凋亡和迁移,在胃癌、乳腺癌、肺癌、白血病等细胞中常具有抑癌作用
[20, 21]。此外,无论是在细胞水平研究还是在动物研究中,都表明NR4A3对PLC的侵袭性特征有不利影响
[22]。研究还发现,NR4A3的表达水平与肝癌患者的无复发生存期相关
[23]。IL-11已被证实在胃癌和肾癌的进展中起重要作用,并促进肝癌的血液转移。IL-11升高通过STAT3信号转导在诱导肝癌术后复发中起关键作用
[24],阻断IL-11-STAT3信号转导可预防术后复发
[25]。AR可以在早期促进肝癌的发生和发展,并在晚期抑制其侵袭。AR 的过度表达增加了恶性程度较低的肝癌细胞系的糖酵解
[26],表明 AR 过度表达的癌细胞对代谢变化的依赖性。据报道,在几种癌症进展过程中,BIRC5 通过调节细胞凋亡来影响肿瘤细胞的增殖和分裂。BIRC5高表达与肝癌预后不良相关
[27, 28]。EGF能刺激细胞生长、增殖、存活和分化。EGF对hepG-2细胞有明显的增殖作用,可促进转移潜能较低的肝癌细胞增殖。同时,EGF能在转录水平上诱导肝癌中PD-L1的表达
[29]。分泌性磷蛋白1(SPP1)是肝癌中最重要的过表达基因之一
[30],与肝癌进展密切相关
[31]。此外,SPP1水平与肝癌患者预后不良相关
[32]。
由于模型预后的预测评估有限,本研究基于DAIs的风险模型进一步研究了相关的信号通路和生物学功能。本研究的分析表明,G2M、E2F、MITOTIC和MYC等6个标记基因集在高风险组中富集。这些通路参与肿瘤进展和转移。
随后研究了风险评分与癌症免疫状态之间的关联。其中,高风险组的抑制细胞显著增加,免疫活性大大降低。TIDE 是一种预测免疫反应的方法,已用于评估近200个肿瘤队列样本中的T细胞功能障碍和排除
[33],推断基因在调节肿瘤免疫中的功能,并评估生物标志物以预测对ICB的临床反应。我们的研究结果表明,高风险组的TIDE评分和排除评分显著增加,表明免疫逃逸能力强。这些结果提示,DAIs的特征可能影响PLC患者免疫治疗的疗效,该模型可作为免疫治疗的指标。
化疗是PLC治疗的关键。DOX是使用历史最悠久的常规化疗药物,全身性阿霉素治疗一直是PLC治疗的标准。TACE已被2021年NCCN指南正式推荐用于ChildPugh B级肝病患者。目前用于TACE的化疗药物包括阿霉素、丝裂霉素C、顺铂等
[34]。此外,体细胞突变分析发现TP53突变在高危人群中频率最高,据此将PLC患者分为TP53突变组和非突变组。我们选取了博来霉素、顺铂、多西他赛、阿霉素、吉西他滨,分析其在PLC高风险组与低风险组之间以及TP53突变组与非突变组之间的敏感性,结果显示多西他赛在两组中均表现出显著差异。这表明风险分组和TP53突变分组对PLC化疗效果具有一定的预测作用。验证了DAIs模型可能有助于PLC患者个体化治疗的制定。
本研究存在一些局限性。使用公共数据库的回顾性数据来构建和验证模型,缺乏独立的临床队列数据来证实。因此,需要更多前瞻性真实世界数据来验证其临床价值。
综上所述,本研究构建并验证了基于 DAIs 的PLC患者预后模型,发现了基于 DAIs 模型的PLC患者分组与不同的免疫状态、体细胞突变、富集途径和药物敏感性相关,为了解 DAIs 的潜在作用和指导PLC患者的个性化管理提供了一种有价值的方法。
陕西省自然科学基金(2025JC-YBQN-1105)