结直肠癌(colorectal cancer,CRC)是一种常见的恶性肿瘤,与多种因素有关,如年龄、家族史、饮食习惯、肥胖、缺乏运动以及长期慢性肠炎等,都可以增加患CRC的风险
[1]。2020年全球新增CRC病例达到190万例,死亡病例达到94万,死亡率居各类癌症之首
[2]。高发病率和高死亡率使之成为肿瘤防治领域的一大挑战。代谢综合征(metabolic syndrome,MetS)是一种聚集性疾病,包含血糖异常、血脂异常、血压异常、腹部肥胖等多种病理特征,全球近1/3的人群受其影响
[3]。虽然MetS与CRC为2种不同体系的疾病,但研究表明MetS是CRC的潜在危险因素,MetS患者发生CRC的风险明显升高,而合并MetS的CRC患者更容易出现肿瘤远处转移、术后复发及不良预后等不利状况
[4-5]。
随着现代生活方式和饮食结构的改变,MetS和CRC的患病率不断攀升,针对二者关联的研究逐渐显示出迫切性。目前,越来越多的证据显示MetS与CRC之间存在紧密的关联,但现有研究往往偏重于临床研究,无法深入揭示分子机制的细节。挖掘多个疾病之间共享的基因、通路、甲基化位点等,有助于揭示疾病之间的关联性、综合评估风险、确定共同生物标志物并优化治疗策略
[6-7]。因此,通过生物信息学方法综合研究MetS和CRC的共同基因特征和分子机制变得尤为重要。
本研究旨在利用生物信息学方法,鉴定MetS与CRC之间共同的基因特征和生物学通路,为深入探索二者关联的分子机制实验研究提供依据和参考。此外,通过从MetS相关基因的角度筛选CRC预后生物标志物,为临床提供更加精准的疾病监测及治疗方案的选择,也为寻找CRC的治疗靶点提供新的思路。
1 资料与方法
1.1 数据收集
从GEO数据库(
https://www.ncbi.nlm.nih.gov/geo)下载与CRC(GSE44076)和MetS(GSE98895)相关的转录组数据。数据包括98个CRC样本及其对应的98个正常癌旁样本,以及20个MetS样本和20个相应的正常对照样本。从TCGA数据库(
https://xenabrowser.net)下载430个结肠癌样本(TCGA-COAD)和154个直肠癌样本(TCGA-READ)的转录组数据,同时还获得与这些样本相关的临床数据和预后随访信息。为进一步研究基因与表型之间的关联,本研究从eQTLGen联盟(
https://www.eqtlgen.org/phase1.html)获取血液表达数量性状位点(Expression quantitative trait loci,eQTL)的统计数据,从GWAS Catalog(
https://www.ebi.ac.uk/gwas/)收集与CRC总体生存率相关的GWAS数据(GCST90244553)。
1.2 差异表达分析
使用R语言limma包
[8]分别对GSE98895和GSE44076数据集中病例样本和对照样本基因表达值进行差异分析。由于MetS和CRC样本分别来源于血液组织和实体组织,设置
P<0.05且|log
2FC|>0和|log
2FC|>0.5分别筛选MetS和CRC的差异表达基因(differentially expressed genes,DEGs),并根据变化值的正负分为上调或下调。使用火山图进行可视化以展示病例样本中的差异表达情况和统计显著性。
1.3 通路富集分析
为了更好地理解组间基因表达差异对生物学机制的潜在影响,鉴定在MetS或CRC样本中显著富集的生物学通路和功能,使用MSigDB中包含的KEGG和GO基因集,通过clusterProfiler包
[9]对差异分析的结果进行基因集富集分析(gene set enrichment analysis,GSEA)分析。
1.4 共表达网络分析
在GSE98895和GSE44076数据集上,使用R包WGCNA
[10]进行加权基因共表达网络分析(weighted gene co-expression network analysis,WGCNA),以筛选共同表达的基因模块。首先,从基因表达数据中选择了具有较大中位绝对偏差的前5 000位基因作为研究对象,基于无标度拓扑准则(无标度
R2=0.9)构建邻接矩阵。随后,将邻接矩阵转化为拓扑重叠矩阵,使用平均连锁分层聚类方法对具有相似表达谱的基因模块进行聚类,将最小模块尺寸设定为30,切割高度设定为0.25识别关键模块。最后,采用Pearson相关分析计算MetS和CRC的共表达基因模块与性状的相关性。
1.5 预后分析
本研究采用单变量Cox分析筛选与CRC总生存预后的MetS相关基因。为了减少基因间的共线性影响,采用LASSO进行特征选择,并进行逐步多元Cox回归分析。通过建立预后模型,利用R包timeROC绘制受试者工作特征(receiver operating characteristic,ROC)曲线,评估这些基因对于患者预后风险的预测能力。
1.6 孟德尔随机化分析
为明确基因表达与CRC总体生存率之间的因果关系,本研究进行了基于汇总数据的孟德尔随机化分析(Summary-data-based Mendelian Randomization,SMR)
[11]。该分析方法利用单核苷酸多态性作为工具变量来评估基因表达水平与CRC总体预后之间的关联。在此分析中,基因表达(汇总水平的eQTL数据)被视为暴露量,而CRC总体生存率(汇总水平的GWAS数据)作为结果变量。使用依赖仪器的异质性(Heterogeneity in Dependent Instruments,HEIDI)测试,旨在检查观察到的关联是否可能归因于连锁不平衡。如果HEIDI测试的
P>0.05,则表明观察到的相关性不受连锁不平衡的影响。
1.7 统计学方法
使用Kaplan-Meier法和Log-rank检验比较不同风险组之间的生存曲线差异。检验水准
α=0.05。使用SMR软件的1.03版本(
https://cnsgenomics.com/software/smr/#Overview)进行SMR分析和异质性检验,其余所有分析均使用R4.2.2软件进行。
2 结果
2.1 MetS和CRC的共同差异表达基因鉴定
根据基因表达差异分析的结果显示,Mets中共有4 870个DEGs。其中,包括ZNF683、SNORD13等2 418个上调基因和CCL2、LOC641 750等2 452个下调基因(
图1A)。而CRC中共有5 524个DEGs,包括FOXQ1、CLDNI等2 778个上调基因和CA1、CLCA4等2 746个下调基因(
图1B)。在MetS和CRC中,共有325个基因同时上调,281个基因同时下调,即总共有606个基因被鉴定为MetS和CRC的共享基因(
图1C、D)。
2.2 MetS和CRC的通路、功能富集情况
根据对KEGG通路和GO基因集的GSEA富集分析,本研究发现MetS和CRC中有多个通路和功能同时被激活或抑制。具体而言,Apelin信号、胞吐、胰腺分泌、唾液分泌等通路在MetS和CRC中显示出明显的抑制(
图2A、B)。核受体活性、肌肉组织发育的正向调节、神经递质转运的调节、骨化的调节功能在MetS和CRC也显示出抑制趋势,而功能核苷酸切除修复在这2种疾病中呈现激活状态(
图2C、D)。
2.3 MetS和CRC的加权基因共表达网络
通过对MetS进行WGCNA,发现共生成11个基因模块(
图3A)。其中,有5个基因模块与MetS呈正相关,3个基因模块与MetS呈负相关(
图3C)。同时,对CRC进行WGCNA分析,得到7个基因模块(
图3B)。其中,有2个基因模块与CRC呈正相关,而3个基因模块与CRC呈负相关(
图3D)。正相关的模块基因和负相关的模块基因分别鉴定为正、负相关共表达基因,本研究发现共有68个基因同时与MetS和CRC呈正相关,有45个基因为MetS和CRC的共同负相关。
2.4 共享基因的预后价值
通过对TCGA数据进行单变量Cox回归分析,确定了与CRC总体生存预后相关的60个共享基因(
图4A)。进一步使用LASSO回归和多因素Cox分析鉴定了18个共享基因,用于构建CRC预后预测模型。该预测模型的计算公式为Risk score=
,其中
exp表示基因的表达量,
cofe为系数。该预测模型计算的风险评分在1~5年总体生存的曲线下面积(area under the curve,AUC)值均高于0.75(
图4B),生存曲线展示了高风险组与低风险组的总体生存率之间存在明显差异(
图4C)。
通过整合血液eQTL和CRC GWAS数据,发现606个共享基因中,有466个基因可纳入SMR分析。初步结果显示,其中33个基因的
p_SMR<0.05,进一步进行了HEIDI试验,发现其中24个基因的
p_HEIDI>0.05,即这24个基因通过了SMR和HEIDI试验的筛选。结合TCGA中单因素Cox分析结果,发现P4HA1和LARS2与CRC预后显著相关(
图5A)。在单因素Cox分析中,P4HA1表达与CRC死亡风险呈正相关(cofe=0.20,
P=0.049),在SMR分析中,它的表达与CRC风险呈正相关(b_SMR=1.22,
p_SMR=0.045,
p_HEIDI=0.815,
图5B),两分析的效应方向一致,均提示P4HA1为CRC预后的危险因素。在单因素Cox分析中,LARS2表达与CRC死亡风险呈负相关(cofe=-0.549,
P=0.000),在SMR分析中,它的表达与CRC风险呈负相关(b_SMR=-0.50,
p_SMR=0.022,
p_HEIDI=0.065,
图5D),两分析的效应方向一致,均提示LARS2为CRC预后的保护因素。
3 讨论
通过鉴定MetS与CRC之间共同的基因特征和生物学通路,本研究的发现可能为MetS和CRC之间相互作用机制进一步探索奠定基础,并影响着CRC患者的预后。
MetS和CRC共同抑制的通路,如Apelin信号和胞吐通路
[12-13],可能反映了代谢综合征与炎症之间的紧密联系。MetS通常伴随着慢性炎症状态
[14],而炎症在癌症的发展过程中被广泛认为是一个推动因素
[15]。这种共同抑制表明,MetS可能引起的慢性炎症状态为结直肠癌的发展创造了有利条件,通过改变这些通路的活性来影响癌症细胞的生存和增殖。其次,核酸修复通路的激活可能与MetS引起的DNA损伤有关
[16]。代谢综合征通过多种途径,如氧化应激和糖化终末产物的生成,可能导致细胞内DNA的损伤。激活核酸修复通路可能是细胞对这种损伤的生理性反应,试图维持基因组的稳定性。这一发现提供了一个新的视角,即MetS可能通过影响核酸修复过程,促进结直肠癌的发展。
MetS相关的基因进一步影响着CRC预后,P4HA1和LARS2的相反表现也需要深入思考其潜在生物学机制。P4HA1作为蛋白质羟化酶,在肿瘤中的过度表达可能与肿瘤微环境的酸化有关,进而促进肿瘤细胞的侵袭和转移
[17]。相反,LARS2可能通过维持线粒体功能,抑制了癌症细胞的代谢活性和增殖
[18]。这2个基因的相反表现可能是由于它们在代谢综合征与结直肠癌的不同生物学过程中扮演的角色不同。
总体而言,这些生物学机制可能是复杂而多样的,涉及多个层面的相互作用。MetS与CRC之间的交互作用可能通过影响炎症状态、DNA损伤和细胞代谢等多个生物学过程来实现。这一复杂性为未来更深入的实验研究提供了丰富的研究方法,以解开MetS与CRC关联性的生物学谜团。同时,本研究的发现,需要在以后的实验研究中进一步验证。