结直肠癌(colon adenocarcinoma,COAD)是全球第三大常见癌症,也是癌症相关死亡的第二大原因
[1]。目前,东欧、亚洲和南美洲,COAD的发病率和死亡率正在急剧上升
[2]。预计到2035年,全球将新增250万例COAD病例
[3-4]。在过去的十年中,尽管手术、化疗、靶向治疗和免疫治疗明显提高了COAD患者的生存率,但早期筛查和诊断的局限,致使这种疾病仍然是全球健康领域的一大挑战。患者的预后普遍较差,且复发率依然居高不下
[5]。因此,识别新的治疗靶点和预后标志物对于改善COAD患者的临床结局至关重要。
研究发现,COAD的发生与泛素化和去泛素化酶的异常表达和活性失常密切相关
[6-7]。泛素特异性蛋白酶53(ubiquitin-specific protease 53,USP53)是一种去泛素化酶,被发现参与胆汁淤积、听力损失以及促进人骨髓间充质干细胞向成骨细胞分化
[8-11]。近年来的研究发现USP53作为一种抑癌基因发挥作用
[12-13]。然而,其在COAD中的作用仍不明确。在本研究中,利用生物信息学方法分析了TCGA-COAD和GSE39582数据集,探讨了USP53在结直肠癌中的潜在作用,并通过细胞实验验证了其生物学功能。
1 材料与方法
1.1 数据获取与处理
从GEO(GSE39582)和TCGA(TCGA-COAD)数据库下载了转录组和临床数据。GSE39582数据集包括19个健康结肠组织样本和566个结直肠癌组织样本。TCGA-COAD数据集包含41个健康组织样本和480个结直肠癌组织样本。
1.2 Kaplan-Meier曲线分析
采用“survminer”包中的surv_cutpoint函数确定最佳cut-off值,将样本分为USP53高表达组和低表达组。随后,通过“survival”包对分组进行log-rank检验,检验水准α=0.05。最后,利用“survminer”包进行数据可视化。
1.3 差异分析和富集分析
采用
R语言中的“limma”包进行差异表达分析
[14],筛选标准为│Log2FC│>0.5且校准后的
P值<0.05,以识别显著差异表达的基因。使用“clusterProfiler”包进行基因本体(Gene Ontology,GO)注释和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)功能注释以及基因集富集分析(Gene Set Enrichment Analysis,GSEA)
[15]。GSEA结果通过“ggplot2”包进行可视化。从MSigDB数据库下载了“c2.all.v2023.1.Hs.symbols”和“c5.all.v2023.1.Hs.symbols”基因集,进一步用于执行GSEA富集分析。
1.4 免疫浸润分析
采用“estimate”包计算了TCGA-COAD和GSE39582数据集中每个样本的免疫评分和基质评分
[16]。随后,使用Wilcoxon检验分析不同集群之间免疫评分和基质评分的差异。使用“GSVA”包计算每个样本的免疫浸润情况
[17-18],并进行了肿瘤免疫功能障碍与排斥(Tumor Immune Dysfunction and Exclusion,TIDE)分析
[19],该分析可用于检查不同USP53表达组之间的免疫功能障碍和排斥差异。
1.5 scRNA-seq 分析
利用TISCH数据库对GSE166555和GSE146771数据集中不同细胞类型的USP53表达水平进行了评估,并对肿瘤样本、正常样本和外周血单核细胞(peripheral blood mononuclear cell,PBMC)中不同细胞亚型的USP53表达水平进行了比较。
1.6 药物敏感性及分子对接
采用“oncoPredict”包预测了半数抑制浓度(IC50)值,以便评估体外和体内环境中药物和生物标志物的潜在作用。基于基因表达谱,利用Clue平台将基因、靶向药物和疾病联系起来,并将USP53相关高表达组和低表达组的差异表达基因提交至Clue平台,帮助识别可能改善癌症进展的潜在治疗药物。为进一步获得识别的小分子的三维结构,查询了PubChem数据库。进一步通过Swiss Model数据库预测了USP53的蛋白质结构。接下来,采用AutoDock Vina软件进行了小分子与蛋白质的分子对接,并使用PyMOL对对接结果进行可视化分析。
1.7 机器学习
应用10种机器学习算法和101种集成组合,包括Elastic Net(Enet)、Lasso、随机生存森林(RSF)、Ridge、Cox Boost、监督主成分分析(SuperPC)、StepCox、Cox模型的偏最小二乘回归(plsRcox)、生存支持向量机(survival-SVM)和广义增强回归模型(GBM),以系统性评估USP53相关基因的预后价值
[20]。以TCGA数据集为训练集,排除了生存时间为0的数据样本,并在GSE39582数据集上验证了模型的稳健性。模型的准确性通过Kaplan-Meier(KM)生存分析曲线及时间依赖的ROC曲线进行了综合评估。
1.8 细胞培养与质粒
HCT116细胞购自中国科学院细胞库(上海,中国),在含有10%胎牛血清、100单位/mL青霉素和100 μg/mL链霉素的DMEM培养基中培养,培养条件为37 ℃、5% CO₂。从淼灵生物平台购得质粒pCMV-USP53-FLAG(P21845)和pCMV-Script(P58978)质粒,并使用Lipofectamine 3000试剂(Thermo Fisher Scientific,美国)进行细胞转染。
1.9 实时荧光定量PCR(quantitative teal-time polymerase chain reaction,qPCR)与Western blot
对于qPCR实验,在Trizol试剂(Invitrogen,美国)提取RNA后,使用RNA逆转录试剂盒(Takara,日本)合成cDNA。在Bio-Rad CFX96系统(Bio-Rad,美国)上进行了定量实时PCR实验,并使用β-actin作为内参基因,通过2-ΔΔCt方法计算mRNA水平。对于WB实验,在用磷酸盐缓冲液(phosphate buffered salin,PBS)清洗细胞2 次后,使用细胞裂解缓冲液和蛋白酶抑制剂的混合物提取总蛋白。这一过程产生了20 mg的蛋白样本,这些样本于10%的聚丙烯酰胺SDS凝胶在120 V恒压下分离,然后在200 mA恒流下转移到PVDF膜上。USP53一抗(Immunoway,美国)孵育过夜后,洗涤后,再用二抗(Abcam,英国)孵育,免疫反应条带通过增强型化学发光(ECL)系统(Bio-Rad,美国)显影。
1.10 细胞增殖与划痕试验
将HCT116细胞以每孔1 500个细胞的密度接种于96孔板,进行细胞增殖实验。连续5 d使用IncuCyte ZOOM活细胞成像系统(Essen BioScience,美国)进行细胞计数和分析。对于划痕实验,于96孔板中每孔接种40 000个细胞使得密度约为80%~90%。当细胞贴壁后,使用WoundMaker™在细胞表面造成划痕,并在36 h后由IncuCyte ZOOM活细胞成像系统记录划痕区域。
1.11 集落形成实验
以每孔1 200个细胞的密度接种于六孔板,并在37 °C下培养。培养8 d后,细胞用4%的多聚甲醛固定,随后用0.1%的结晶紫染色。使用ImageJ软件拍摄照片并进行分析。
1.12 临床样本采集与免疫组化试验
从重庆医科大学病理教研室收集了8例结直肠癌及其癌旁组织的石蜡包埋切片。切片在4 ℃下与USP53一抗孵育过夜,随后用ZSGB-BIO的抗兔IgG二抗孵育,并采用3,3′-二氨基联苯胺(DAB)染色。染色后的切片通过Pannoramic Scan 250 Flash扫描仪扫描,图像由Pannoramic Viewer 1.15.2软件(3DHistech,匈牙利布达佩斯)采集并进行分析。这项研究遵循赫尔辛基宣言的相关规定,专门为人类参与者设计,并获得了重庆医科大学第一附属医院医学研究伦理委员会的批准。
1.13 统计学分析
数据分析使用R软件(版本4.1.1)进行。对于符合正态分布的连续变量,2组之间的比较采用t检验。差异基因表达分析中,使用Benjamini-Hochberg(BH)方法调整P值,检验水准α=0.05。计量资料以均数±标准差(x±s)的形式呈现。
2 结 果
2.1 USP53在结直肠癌中低表达并与不良预后相关
TCGA-COAD数据库(癌旁组织:4.204 30±0.440 92,肿瘤组织:3.692 80±0.814 04,
P<0.001)和GSE39582数据集(癌旁组织:6.520 90±0.495 78,肿瘤组织:5.651 20±0.590 94,
P<0.001)分析结果显示,USP53在结直肠癌的mRNA水平明显降低(
图1A、B)。通过对TCGA数据库中样本进行配对
t检验,发现COAD组织中的USP53 mRNA水平明显低于正常组织(癌旁组织:4.204 30±0.440 92,肿瘤组织:3.569 10±0.918 87,
P<0.001,
图1C)。临床数据样本的KM生存曲线分析表明,USP53表达水平低与总生存率降低相关(TCGA数据集:
P<0.001,GSE39582数据集:
P=0.036,
图1D)。
2.2 USP53调控结直肠癌的生物信息学通路分析
使用2 组数据集的KM曲线分组数据进行了差异基因表达分析。基于筛选出的差异表达基因及其logFC值,进一步进行了KEGG和GO富集分析。KEGG富集分析结果显示,这些差异表达基因明显富集于细胞周期、FOXO信号通路、p53信号通路和趋化因子信号通路等关键途径(
图2A、B)。GO富集分析则表明,USP53的过表达在钙黏蛋白结合、DNA复制、细胞周期正向调控及免疫细胞趋化等生物过程中具有明显作用(
图2A、B)。此外,基于所有基因的logFC值进行了KEGG基因集的GSEA富集分析。结果显示,在2个数据库中,USP53高表达组的T细胞信号通路和细胞凋亡通路明显上调(
图2C)。上述结果表明,USP53的过表达可能通过调控以上信号通路,从而导致2组之间在预后结果出现明显差异。
2.3 USP53在结直肠癌中的免疫浸润分析
通过Estimate方法分析结果显示,TCGA数据集USP53高表达组的免疫分数(低表达组:778.42±710.76,高表达组:530.24±650.65,
P=0.005)以及总分低于低表达组(低表达组:778.42±710.76,高表达组:530.24±650.65,
P=0.020),GSE39582数据集USP53高表达组的基质分数(低表达组:139.63±704.96,高表达组:-216.53±733.60,
P<0.001)、免疫分数(低表达组:1 299.50±667.98,高表达组:983.05±644.44,
P<0.001)以及总分(低表达组:1 439.10±1 267.60,高表达组:766.52±1 278.40,
P<0.001)均低于低表达组(
图3A)。此外,ssGSEA结果显示,高USP53表达组的免疫细胞浸润和功能水平均有所降低(
图3B、C)。而在TIDE分析中,TCGA数据集和GSE39582数据集USP53低表达组的TIDE评分和功能失调评分均高于高表达组(
图3D)。以上结果表明,虽然低表达组免疫浸润情况较好,但低USP53表达组的免疫活性相对较低,同时具备更强的免疫逃逸能力。
2.4 USP53的单细胞RNA测序(scRNA-seq)分析
采用TISCH数据库中的GSE166555数据集分析了USP53基因在不同细胞类型中的表达情况,并结合GSE146771数据集进一步探讨了USP53在多种免疫细胞中的表达特征。图
4A和
4D展示了各细胞簇群的分布,图
4B和
4E则显示了细胞群中USP53基因的具体表达模式。结果显示,USP53在基质细胞和肿瘤细胞中的表达较高,在免疫细胞中主要存在于CD8 T细胞、CD8 Tex、CD4 T细胞及其他类型中。小提琴图(
图4C)表明,USP53在基质细胞中的表达相对较低,而在肿瘤细胞中明显升高,且差异具有统计学意义。此外,
图4F进一步分层分析免疫细胞后显示,尽管USP53在肿瘤细胞中的表达水平相对较低,但与免疫细胞的差异仍具有统计学意义。以上结果提示,USP53在多种细胞类型中均有表达,其表达水平与肿瘤的恶性程度及免疫细胞密切相关。
2.5 药物敏感性与分子对接
通过“oncoPredict”包比较了高、低USP53表达患者对常用化疗药物的敏感性。结果显示,低USP53表达组患者对奥沙利铂(低表达组:6.206 9±2.450 2,高表达组:7.453 4±2.145 4,
P<0.01)、5-氟尿嘧啶(低表达组:6.089 5±3.286 8,高表达组:7.178 2±3.442 0,
P<0.01)和伊利替康(低表达组:3.649 1±2.877 9,高表达组:4.524 5±3.296 0,
P<0.01)的敏感性明显更高,这些药物在该组患者中展现出更优的临床疗效(
图5A)。进一步地,将2组间的差异表达基因上传至Clue平台,预测了对结直肠癌细胞系(HT29)具有效果的小分子化合物,包括积雪草酸(Asiatic Acid)、非索非那定(fexofenadine)、拓扑替康(topotecan)和牡荆素(vitexin)(
图5B)。
基于结构的分子对接方法是一种用于药物设计和筛选的关键技术,因而对这4种候选小分子化合物与USP53进行了分子对接分析,并展示了最低结合能量的结果。分子对接结果(
图5C)显示,积雪草酸通过氢键在LEU-291和THR-268位点与USP53结合;非索非那定在TYR-1053位点形成氢键;拓扑替康则在ARG-222和ARG-236位点与USP53结合;牡荆素在PRO-176、ARG-1056和HIS-1054位点形成氢键。这些化合物的结合能分别为-8.1、-9.7、-8.8和-8.5,表明这些小分子与USP53之间的相互作用具有潜在的稳定性和可行性。
2.6 通过机器学习方法建立USP53相关基因的预后模型
本研究以TCGA-COAD为训练集,GSE39582为验证集,利用10种机器学习算法和101种集成组合构建了预测模型。通过C-index对模型表现进行评估,最终选定StepCox [forward] + Ridge组合算法作为构建预后模型的最佳方案(
图6A)。基于该模型,对测试集和验证集进行了风险分层分析。KM曲线结果显示,高风险组的死亡率明显高于低风险组(TCGA:
P<0.001,GSE39582:
P=0.002,
图6B)。为进一步验证模型的预测能力,绘制了ROC曲线。在TCGA-COAD数据集中,模型的1年、2年和3年ROC曲线下面积(area under curve,AUC)分别为0.835、0.802和0.782;在GSE39582验证集中,1年、2年和3年的AUC分别为0.646、0.612和0.641(
图6C)。这些结果表明,所建立的模型在训练集中具有较高的预测准确性。
2.7 USP53过表达抑制结直肠癌细胞的增殖和迁移能力
通过在HCT116细胞中转染pCMV-USP53-FLAG质粒以诱导USP53过表达,评估其对细胞生物学行为的影响(图
7A和
7B)。细胞增殖实验结果显示,USP53过表达组在5 d培养期间的增殖速率明显低于对照组(过表达组:5 624.80±477.76,对照组:7 399.00±215.16,
P=0.042,
图7C),且这一结果在克隆形成实验中得到进一步验证(过表达组:280.33±7.571 9,对照组:482.330±36.665,
P=0.000 7,
图7D)。此外,划痕实验表明,相较于对照组(59.128 0±1.855 5),USP53过表达组(43.833 0±4.637 3)的细胞迁移能力明显降低(
P=0.004,
图7E)。
进一步分析揭示,USP53的过表达不仅明显抑制了结直肠癌细胞的迁移能力,还与上皮-间质转化(epithelial-mesenchymal transition,EMT)过程相关。在USP53过表达的结直肠癌细胞中,检测到EMT相关蛋白的表达变化。Western blot结果显示,USP53过表达明显降低了N-cadherin的表达,并明显提高了E-cadherin的表达水平(
图7F),提示USP53的过表达能够有效抑制EMT过程,从而削弱结直肠癌细胞的侵袭性。
2.8 USP53在临床结直肠癌组织中的表达
为研究USP53在临床结直肠癌组织中的表达水平,收集了8例结直肠癌患者癌组织和癌旁组织切片,并进行了免疫组化染色(
图8)。结果显示,结直肠癌病变组织中的USP53表达明显低于相邻的正常组织。提示USP53可能在结直肠癌的发生和发展中扮演了重要的抑癌角色。
3 讨 论
研究发现USP53在恶性肿瘤的发生发展中起着抑癌基因的重要作用。USP53通过抑制NF-κB信号通路,有效抑制透明细胞肾癌的增殖与迁移
[21]。同时,异位表达的USP53能够抑制肝细胞癌细胞的增殖、迁移和侵袭,并诱导其凋亡
[13]。研究还发现,H3K27乙酰化能够激活USP53,进而通过调节细胞生长和代谢抑制食管癌(esophageal carcinoma,ESCA)的进展
[22]。
在本研究中,通过分析TCGA-COAD和GSE39582数据集,发现结直肠癌组织中USP53的表达明显降低,且与高表达相比,低USP53表达的患者预后更差,总体生存率明显降低。临床组织样本的免疫组化实验进一步证实,结直肠癌组织中的USP53表达明显低于正常组织。KEGG富集分析提示了USP53抑制肿瘤进展的潜在机制,表明USP53过表达可能明显影响细胞周期、凋亡及JAK-STAT信号通路。以往研究表明,JAK-STAT信号通路的激活与不良预后密切相关
[23-24]。USP22也是泛素特异性蛋白酶家族成员之一,并且通过组蛋白去泛素化影响染色质结构和基因转录,促进STAT信号通路的激活
[25],与USP53的作用相反,有必要继续深入研究。
GO富集分析显示,各类免疫细胞的趋化活性明显增加。研究表明,记忆性CD4
+ T细胞和CD8
+ T细胞在肿瘤微环境中的浸润与迁移调控着肿瘤免疫,包括肿瘤清除、机体平衡和免疫逃逸3个阶段
[26]。免疫细胞的趋化活性差异可能是两组生存率差异的原因之一。因此,本研究分析了两组数据集的免疫浸润状态。结果显示,与高表达组相比,USP53低表达组的免疫浸润程度较高,但其预后较差。进一步的TIDE分析表明,USP53低表达组的TIDE评分和功能障碍评分更高,显示出免疫活性降低和免疫逃逸增强,即虽然USP53低表达组免疫浸润程度高,免疫细胞的功能可能较差,导致预后较差
[27]。
化疗是结直肠癌的主要治疗手段。通过对TCGA-COAD数据库的分析,发现USP53低表达(高风险组)对多种化疗药物更为敏感。此外,利用CLUE平台筛选出可能通过激活USP53途径来抑制结直肠癌的小分子化合物,并通过分子对接预测其作用机制,为结直肠癌患者提供了潜在的治疗策略。
在HCT116结直肠癌细胞中过表达USP53后,细胞增殖曲线、克隆形成和划痕实验提示USP53抑制结直肠癌细胞增殖和迁移能力。EMT是肿瘤细胞在发生、进展和转移过程中的重要机制
[28],使上皮细胞转变为具有更高侵袭性和迁移能力的间质细胞
[29-30]。USP53通过调控EMT过程发挥抗肿瘤作用
[31]。基于以上结果,USP53有望成为肿瘤预后重要标志物。另外,本研究表明,肿瘤中USP53的表达水平可能与免疫疗法的成功率密切相关。USP53可能成为预测免疫疗法疗效的生物标志物,有助于开发个性化治疗策略。
接下来,将通过体外实验分析USP53与结直肠癌相关通路的调控,并在体内实验验证;此外,USP53作为去泛素化酶在EMT过程中的调控作用尚未进行实验验证,将进行相关的探索。