口腔鳞状细胞癌(oral squamous cell carcinoma,OSCC)因侵袭性强、易发生转移而导致晚期患者预后不佳
[1-3]。目前OSCC常用的预后评价体系TNM分期系统主要关注疾病的解剖学范围,而未充分考虑与预后相关的其他因素,如遗传学特征、患者年龄、性别、种族或合并症等因素。因此,构建可靠的预后分层方法对于改善OSCC患者预后具有重要意义。中性粒细胞作为先天免疫系统的重要组成部分,在活化后可通过释放颗粒内的组蛋白与抗菌蛋白形成中性粒细胞胞外诱捕网(neutrophil extracellular traps, NETs)
[4-5]。该过程被称为中性粒细胞胞外诱捕网形成(neutrophil extracellular trap formation,NETosis),是一种独特的调节性细胞死亡形式,与其他程序性细胞死亡(如坏死性凋亡、自噬和细胞凋亡)不同
[6]。NETs的形成是导致肿瘤进展的一个潜在机制。临床上,NETs相关生物标志物(如游离DNA、组蛋白等)已被证实与疾病严重程度和预后相关
[7-8]。例如,在系统性红斑狼疮(systemic lupus erythematosus,SLE)中,NETs相关抗体(anti-neutrophil extracellular trap antibody,ANETA)水平与疾病活动性呈正相关,提示其临床管理价值
[9]。NETs不仅参与感染炎症,还可通过促进肿瘤细胞存活、迁移及血管生成能力来加速肿瘤进展
[10-11]。在OSCC中,NETs高表达与患者不良预后相关,提示其可作为潜在预后标志
[12]。尽管NETs在肿瘤预后研究领域备受关注,目前仍缺乏基于NETs相关基因构建的OSCC预后模型,限制了其在个体化治疗决策中的应用。基于此,本研究拟系统筛选NETs相关基因,构建OSCC预后风险模型,并进一步探索其生物学功能,以期为OSCC的预后评估及靶向治疗提供新的策略。
1 材料和方法
1.1 NETs相关基因预后模型的构建
本研究RNA测序数据来自癌症基因组图谱数据库(The Cancer Genome Atlas,TCGA)头颈鳞状细胞癌(head and neck squamous cell carcinoma, HNSCC)队列。数据经log2(FPKM+1)标准化处理后,共纳入333例OSCC肿瘤组织与32例正常组织样本。参考既往文献
[13-14],纳入69个NETs相关基因。将OSCC数据集随机分为训练集(70%)和测试集(30%)。在训练集中,采用单因素Cox回归分析筛选与OSCC患者预后显著相关的基因(
P<0.05),随后利用Lasso回归进行变量降维,通过10折交叉验证确定最佳惩罚参数
λ,最终筛选出6个关键基因构建预后模型。根据Lasso-Cox回归系数构建风险评分模型:风险评分 = Σ(基因表达量×对应回归系数)。以训练集风险评分的中位数为截断值,将患者划分为高风险组与低风险组,通过Kaplan⁃Meier生存曲线及log-rank检验来比较两组患者的生存差异。
1.2 NETs相关基因预后模型的评估与分析
采用受试者工作特征曲线(receiver operating characteristic curve,ROC)评估预后模型的预测效能,并通过计算曲线下面积(area under the curve,AUC)量化判别效能。分别在训练集、测试集及全数据集中依据相同风险评分中位数进行分组验证。
1.3 列线图的构建与验证
通过单因素及多因素Cox回归评估NETs风险评分与临床病理特征(年龄、性别、分期、分级)的关联,筛选独立预后因素(P<0.05)。因TCGA中的OSCC样本无M期信息(均M0),该变量未纳入回归模型。基于多因素分析结果构建列线图,预测OSCC患者1、3、5年生存率,并通过校准曲线、ROC曲线及决策分析曲线(decision curve analysis,DCA)验证其准确性。
1.4 NETs风险评分与肿瘤生物学过程的相关性分析
与血管生成、上皮间质转化(epithelial to mesenchymal transition,EMT)和细胞周期相关的基因集,均采用单样本基因集富集分析(single sample gene set enrichment analysis,ssGSEA)算法计算评分。随后采用Pearson相关性分析评估NETs风险评分与血管生成、EMT及细胞周期评分的相关性,以探究NETs相关基因在OSCC进展中潜在的生物学功能。
1.5 差异表达基因筛选、富集分析及生存分析
以|log2FC|≥0.5、错误发现率(false discovery rate, FDR)<0.05为阈值,筛选高、低风险组间的差异表达基因(differentially expressed genes,DEGs),并绘制热图和火山图进行可视化。采用基因本体论(Gene Oontology,GO)、京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)及基因集富集分析(gene set enrichment analysis,GSEA)对DEGs进行功能富集分析,以探究其参与的生物学过程、信号通路及潜在功能模块,以校正后P<0.05为显著富集阈值。随后对前期构建预后模型所纳入的6个NETs相关基因进行Kaplan-Meier生存分析,筛选与OSCC患者预后关联最显著的基因。
1.6 NETs预后相关基因编码蛋白的药物靶点预测及分子对接验证
通过药物特征数据库(Drug Signatures Database,DSigDB)评估6个NETs预后相关基因编码蛋白的药理活性及药物靶点潜力。采用分子对接预测药物-靶点相互作用。蛋白质结构来自蛋白质数据库(Protein Data Bank,PDB),药物结构来自化合物数据库(Public Chemical Database,PubChem),预处理后使用Autodock1.5.6对接排名前五位的药物与靶蛋白,最后应用Discovery Studio 2019进行可视化分析。
1.7 基于单细胞RNA测序的CTSG表达特征分析
本研究基于肿瘤免疫单细胞枢纽数据库(Tumor Immune Single-cell Hub,TISCH)与基因表达谱数据库(Gene Expression Omnibus,GEO)的GSE172577单细胞数据集(6例原发OSCC患者,57 503个细胞)。对OSCC中NETs预后关键基因组织蛋白酶G (cathepsin G, CTSG)进行单细胞表达分析。流程涵盖数据预处理、质量控制、批次效应校正、细胞聚类和注释以及CTSG基因的表达分布和可视化。
1.8 泛癌与OSCC组织中CTSG表达差异分析
基于TCGA数据库的泛癌基因表达数据,采用Z-score标准化处理,筛选正常样本数≥3的肿瘤类型进行后续分析。使用非参数Wilcoxon秩和检验,比较各种癌中肿瘤组与正常组的CTSG表达差异。同时,基于TCGA数据库验证OSCC组织与正常组织的CTSG表达差异。
1.9 免疫组织化学染色
本研究采用OSCC组织芯片(tissue microarray,TMA)(HOraS100PG01,上海芯超生物科技有限公司,中国),包含86例OSCC组织及14例癌旁组织,通过免疫组织化学染色(immunohistochemistry,IHC)检测CTSG蛋白表达水平。本研究遵循《赫尔辛基宣言》的伦理原则,已获得机构伦理委员会批准(审批编号:SHYJS-CP-240703),所有患者均签署知情同意书。免疫组化染色主要步骤如下:切片经柠檬酸修复液(pH 6.0)高压抗原修复3 min,3% H₂O₂孵育20 min,10%山羊血清封闭30 min;随后加入一抗兔抗人CTSG抗体(AB282105,Abcam,英国),4 °C孵育过夜;次日加入二抗山羊抗兔(PN0046,皮诺飞生物,中国)室温孵育;DAB显色后行苏木精复染,封片扫描。每张切片选取至少3个视野进行图像采集,采用ImageJ软件统一设定阳性判定标准(黄色染色),定量计算DAB阳性面积百分比。
1.10 统计学分析
采用R软件(版本4.4.2)进行统计分析。计量资料若符合正态分布,两组间比较采用Student’s t检验;若不符合正态分布,则采用Wilcoxon秩和检验。生存分析采用Kaplan-Meier法绘制生存曲线,并通过对数秩检验(log-rank test)比较高风险组与低风险组之间生存分布的差异。单因素及多因素Cox回归用于评估风险评分及各临床因素的预后价值,结果以风险比及95%置信区间表示。相关性分析采用Pearson或Spearman相关分析。所有统计检验均为双侧检验,P<0.05为差异具有统计学意义。多重比较采用FDR校正。
2 结 果
2.1 NETs相关预后基因的筛选与鉴定
为构建基于NETs相关基因的OSCC预后模型,首先将69个NETs相关基因与OSCC患者的表达谱及临床数据进行匹配。将333例OSCC患者按7∶3的比例随机分为训练集(
n=233)和测试集(
n=100)。在训练集中,通过单因素Cox回归筛选与预后相关的候选基因(
图1a)。然后采用Lasso-Cox回归防止过拟合并行10折交叉验证。最终筛选出6个回归系数非零的NETs相关关键基因:凝血因子3(coagulation factor 3, F3)、AKT丝氨酸/苏氨酸激酶1 (AKT serine/threonine kinase 1, AKT1)、CTSG、血管非炎性分子3 (vascular non-inflammatory molecule 3, VNN3)、髓过氧化物酶 (myeloperoxidase, MPO)、白细胞介素17A (interleukin 17A, IL17A)(
图1b&1c),以此构建多变量风险预后模型。基因相关性热图显示VNN3与 IL17A呈正相关(
P<0.05,
图1d),提示两者可能在表达调控中存在协同作用。
2.2 基于NETs预后基因的OSCC预后风险模型构建与验证
基于筛选出的6个NETs相关基因构建风险预后模型,风险评分=(0.000 2)×F3的表达水平+(0.012 3)×AKT1的表达水平+(-0.057 7)×CTSG的表达水平+(-0.041 8)×VNN3的表达水平+(0.473 6)×MPO的表达水平+(-0.579 1)×IL17A的表达水平。随后根据风险评分中位数将OSCC患者分为高风险组(
n=126)与低风险组(
n=107)。Kaplan-Meier分析显示高风险组生存率显著低于低风险组(
P<0.000 1,
图2a)。生存状态分布图表明随着评分升高,死亡事件增加(
图2b)。训练集中1、3、5年ROC曲线的AUC值分别为0.718、0.820和0.805(
图2c),表明该模型具有优异的预测效能。为了进一步评估模型在训练集、测试集和整个数据集中的预测能力,进行了内部验证。根据训练集中的风险评分中位数,在测试集中将OSCC患者分为高风险组(
n=40)和低风险组(
n=60)。Kaplan-Meier分析再次证实高风险组预后较差(
P=0.002 5)(
图2d)。1、3、5年的AUC值分别为0.692、0.693和0.560(
图2e&2f)。在整个数据集中,同样将OSCC患者分为高风险组(
n=166)和低风险组(
n=167),高风险组生存率显著较低(
P<0.000 1)(
图2g)。此外,1、3、5年的AUC值分别为0.712、0.777和0.725(
图2h&2i)。
2.3 预测OSCC患者总体生存率的列线图的建立
单因素Cox回归分析显示,NETs风险评分与OSCC患者不良预后显著相关(
HR=2.513,
P<0.001),其风险比高于临床分期(
图3a)。通过多因素Cox分析校正年龄因素后,其关联依然显著(
HR= 2.281,
P<0.001),表明其可作为OSCC的独立预后因素(
图3b)。随后整合NETs风险评分与临床病理特征构建了临床适用的列线图(
图3c),用于预测OSCC患者1、3、5年生存率。校准图显示其预测与观测结果高度一致(
图3d)。DCA曲线表明其在1、3、5年均提供更优的临床净效益(图
3e~
3g)。ROC曲线分析进一步证实,列线图在预测1年(
AUC=0.668)、3年(
AUC=0.721)和5年(
AUC=0.739)的预测准确性优于单独的年龄、性别、分期、分级及风险评分(图
3h~
3j),提示该列线图可作为OSCC患者预后评估的有效工具。
2.4 列线图的验证
为评估所构建列线图的泛化能力,利用测试集和全数据集进行了内部验证。在测试集(
图4a)和全数据集(
图4b)中,校准曲线均显示预测的1、3、5年生存率与实际观测值具有良好的一致性。在测试队列中,1、3、5年的
AUC值分别为0.750、0.746和0.763(图
4c~
4h)。在整个数据集中,1、3、5年的
AUC值分别为0.672、0.700和0.701(图
4i~
4n)。上述结果共同验证了该列线图在不同数据子集中均保持了良好的预测效能。
2.5 NETs风险评分与肿瘤恶性特征的相关性分析
为探究NETs相关基因特征与肿瘤恶性特征间关联,通过ssGSEA计算血管生成、EMT和细胞周期的能力。结果表明,NETs风险评分与血管生成评分呈负相关(
r=-0.20,
P<0.001),而与EMT评分(
r=0.17,
P<0.01)、细胞周期G1/S期评分(
r=0.11,
P<0.05)及G2/M期评分(
r=0.17,
P<0.01)均呈正相关(图
5a~
5d)。提示NETs风险评分与上述生物学过程存在一定关联,但相关性较弱,其生物学意义需进一步验证。
2.6 高、低风险组OSCC患者差异表达基因的功能注释
基于NETs风险评分中位数将OSCC患者分为高风险组与低风险组,通过
|log2FC|≥0.5和
FDR<0.05筛选出1 056个DEGs(844个上调、212个下调),并通过热图(
图6a)和火山图(
图6b)进行可视化。GO富集分析表明,DEGs主要涉及表皮发育、细胞外基质组织以及核分裂等生物学过程(
图6c)。随后KEGG分析表明DEGs富集于PI3K-Akt信号通路、人乳头瘤病毒感染以及细胞因子-细胞因子受体相互作用等通路(
图6d)。后续GSEA分析揭示了高低风险组之间通路模式存在显著差异。高风险组富集于肿瘤进展及代谢重编程通路,如基底细胞癌、甘油脂代谢及hedgehog信号通路(
图6e);而低风险组富集于免疫调节及脂质代谢通路,如α-亚麻酸代谢、哮喘及乙醇脂质代谢(
图6f)。这些发现提示,基于NETs基因构建的风险评分能够有效地区分出具有不同生物学行为特征的OSCC亚群。
2.7 关键预后基因CTSG的鉴定及其生物学功能富集分析
通过Kaplan-Meier分析评估6个NETs预后相关基因与OSCC患者预后的关联。结果显示,CTSG的预后判别能力最为显著(
P=0.000 39),且CTSG低表达患者总生存期(overall survival,OS)较短(图
7a~
7f),故被选为后续研究的关键基因。GSEA分析显示,CTSG表达与细胞黏附分子(cell adhesion molecules,CAMs)、细胞因子-细胞因子受体相互作用以及造血细胞谱系等通路正相关(
图7g),与核糖体及剪接体等通路负相关(
图7h)。按CTSG表达中位数将患者分为高、低表达组后进一步分析发现,高表达组富集于致心律失常性右心室心肌病(arrhythmogenic right ventricular cardiomyopathy,ARVC)、扩张型心肌病等通路(
图7i)。与之相反,低表达组中DNA复制、同源重组等DNA损伤修复通路被显著抑制(
图7j),提示CTSG低表达可能削弱基因组稳定性。
2.8 NETs预后相关基因编码蛋白的药物靶点及分子对接
为探索6个NETs预后相关基因作为潜在药物干预靶点的可行性,应用DSigDB数据库进行药物预测,共筛选出靶向上述基因的792种候选药物。
表1列出
P<0.05的前10种药物。其中,MPO和F3关联的药物最多。为从结合稳定性角度评估靶向性,使用AutoDock对排名前5的预测药物与关键靶蛋白进行分子对接。关键基因CTSG与谷胱甘肽之间存在较强的结合作用(
图8a&8b),其结合能为-7.4 kcal/mol,该结合强度在所有测试体系中排名第二(
图8c),从而在结构层面证实CTSG是潜在可靶向分子。
2.9 基于单细胞RNA测序的CTSG表达特征分析
为在单细胞分辨率下解析CTSG在OSCC肿瘤微环境中的表达分布特征,本研究基于TISCH数据库OSCC_GSE172577数据集开展细胞层面研究。经均匀流形近似与投影(uniform manifold approximation and projection,UMAP)聚类将57 503个细胞分为35个簇,注释为11类细胞(
图9a&9b)。Kruskal-Wallis检验显示,CTSG在肥大细胞中高表达(
P<0.001;
图9c&9d),其表达与肥大细胞含量正相关(
r=0.6,
P<0.001;
图9e),且主要局限于免疫谱系,恶性细胞中几乎检测不到(
图9f)。
上述的结果提示,CTSG是OSCC相关肥大细胞的关键标志,并且可能在其中发挥重要的免疫调控功能。
2.10 CTSG在泛癌及OSCC组织中的表达验证
基于TCGA数据库的泛癌分析显示,CTSG在OSCC、胆管癌、膀胱癌、乳腺癌等多种肿瘤组织中的表达水平显著低于对应正常组织(
图10a&10b)。此外,利用TCGA数据库对OSCC组织与正常组织中CTSG基因的表达进行了分析,结果显示,OSCC组织中CTSG水平显著降低(
图10c)。同时,免疫组化分析显示,癌组织中CTSG的表达低于癌旁组织(
图10d&10e)。
上述结果表明,CTSG在OSCC组织中呈低表达,与前述生存分析中CTSG低表达预示不良预后的结果相一致。
3 讨 论
OSCC患者常于晚期确诊并伴随远处转移
[15],故精准的预后预测对优化治疗策略、提升患者生存率至关重要。研究表明,NETs通过调控肿瘤增殖、转移、化疗抵抗及TME免疫抑制参与肿瘤进展
[16-18]。其高表达与肿瘤患者不良预后相关,有望成为潜在预后标志物
[19-21]。然而,NETs在OSCC预后评估中的作用尚未得到充分阐明。
本研究经Cox回归分析筛选出6个NETs相关基因(F3、AKT1、CTSG、VNN3、MPO、IL17A),并以此构建OSCC预后风险模型。这6个基因中,F3的高表达与胰腺导管腺癌患者的生存期呈负相关
[22];AKT1在OSCC高表达并预示不良结局
[23];CTSG可调控非小细胞肺癌进展,并被证实为OSCC的独立预后标志物
[24-25];VNN3、MPO的高表达分别与透明细胞肾细胞癌和胃癌的不良预后呈正相关
[26-27];IL17A的高表达与OSCC患者的免疫特征及生存期呈正相关
[28-29]。此外,该模型风险评分能有效区分高低风险组,且被确认为独立预后因素。整合风险评分与临床特征的列线图进一步提升了预后预测准确性。进一步的研究发现OSCC高低风险组间的通路富集存在显著差异。高风险组显著富集于基底细胞癌、甘油脂代谢及Hedgehog等通路,其中Hedgehog通路已被证实与多种恶性肿瘤的生长转移密切相关
[30-31]。低风险组则在免疫调节及脂质代谢通路被激活
[32]。这些发现为NETs风险分层提供了生物学依据。
组织蛋白酶按活性位点分为3类
[33],多维度研究证实其在癌症进展中具有关键作用
[34]。CTSG作为丝氨酸蛋白酶,最初发现于中性粒细胞嗜天青颗粒
[35]及其他髓系细胞
[36]。本研究通过Kaplan⁃Meier分析显示CTSG低表达与OSCC患者的不良预后呈负相关。单细胞分析显示其在恶性细胞中表达极少,而在免疫细胞(尤其是肥大细胞)中特异性高表达。TCGA数据库及免疫组织化学染色结果均表明,OSCC组织中CTSG表达低于癌旁组织。GSEA分析提示,低CTSG表达会抑制DNA损伤修复通路,可能加剧肿瘤异质性并导致不良预后
[37],这些结果与现有文献中关于CTSG在恶性肿瘤中的作用相一致
[38-39]。分子对接结果提示CTSG与谷胱甘肽结合稳定。既往研究发现,谷胱甘肽可增强CTSG的酶活性
[40]。上述证据共同提示,谷胱甘肽具有辅助治疗潜力,而CTSG有望成为OSCC靶向治疗的潜在靶点。
综上所述,本研究基于NETs相关基因成功构建了OSCC预后风险模型。该模型预测效能良好,可精准反映患者的预后特征,为个体化治疗提供重要临床参考。然而,本研究也存在一定局限性。主要数据来源于回顾性公共数据库,缺乏前瞻性研究的验证。后续需借助更大规模的外部数据集进一步验证模型的稳健性,同时OSCC患者预后分层的实施方法仍需在更多临床环境中进行验证