肺癌在全球范围内发病率和病死率居高不下,其中非小细胞肺癌(NSCLC)占肺癌病例的85%,晚期患者的总体生存预后较差
[1]。尽管针对程序性细胞死亡蛋白1(PD-1)/程序性细胞死亡配体1(PD-L1)的免疫检查点抑制剂(ICIs)显著改善了部分患者的预后
[2-5],但现有生物标志物如PD-L1、肿瘤突变负荷(TMB)、微卫星不稳定性存在敏感度低、检测侵入性强等问题
[6, 7]。肿瘤微环境(TME)通过免疫细胞浸润、细胞因子网络等机制调控ICIs疗效,但其非侵入性评估手段尚未成熟
[8,9]。近年来,影像组学通过提取CT图像的定量特征,可间接反映TME状态,既往研究显示,肿瘤区域的影像组学特征结合CD8
+T细胞或TMB等指标进行建模可间接预测ICIs治疗疗效,模型的AUC值分别为0.74和0.75,提示影像组学能较好的反应TME以预测ICIs治疗疗效
[10, 11]。然而,目前未有研究评估影像组学标签与总体TME之间的联系以预测晚期非小细胞肺癌(aNSCLC)的ICIs治疗疗效。本研究着眼于关联肿瘤影像组学特征与TME,同时探索临床变量、肿瘤影像组学特征与aNSCLC的ICIs治疗疗效之间的关系,从肺部病灶评估影像组学特征在预测aNSCLC 患者的 ICIs治疗反应,旨在开发一个基于CT的TME特异性影像组学标签模型,并结合临床信息预测aNSCLC患者的ICIs治疗疗效。
1 资料和方法
1.1 一般资料
本研究整合了来自基因表达综合数据库(GEO)的2个mRNA测序数据集(GSE135222,
n=27、GSE126044,
n=16),这些数据样本是在抗PD-1/PD-L1治疗前收集的,且有完备的临床数据及ICI治疗的疗效反应数据,用于筛选ICIs治疗相关基因(IRGs)。从癌症基因组图谱(TCGA)获取TCGA-LUAD(
n=513)和TCGA-LUSC(
n=501)研究队列的mRNA测序数据和临床信息,合并后去除生存时间为0的样本,最终纳入996例患者用于预后建模和TME特征分析。从癌症影像档案库(TCIA)下载NSCLC-Radiomics-Genomic-lung_3队列的胸部增强CT影像及相对应的mRNA测序数据用于筛选与IRGs相关的影像特征
[12,13]。
回顾性纳入真实世界2016年1月~2020年12月在广东省人民医院接受首程ICIs治疗的210例III~IV期aNSCLC患者,按照7∶3的比例将其随机分为训练组(
n=147)和验证组(
n=63)。纳入标准:年龄>18岁;接受PD-1/PD-L1阻断治疗且经病理确诊为NSCLC(III、IV期);在首次ICIs治疗前30 d内有胸部薄层(≤5 mm)CT 图像。排除标准:因CT图像质量差或肺部病灶与其他病灶或邻近组织难以区分;随访期不足6个月。从电子病历中提取患者的临床基线数据,包括患者治疗前1月内完成的胸部增强CT图像和临床信息(包括患者年龄、性别、生存时间、无进展生存期、美国东部肿瘤协作组(ECOG)评分、患者吸烟史、肿瘤分期、肿瘤病理类型、ICIs治疗用药、治疗线数、治疗前后中性粒细胞与淋巴细胞比率(NLR)。实验设计的流程图(
图1)。本研究已通过广东省人民医院伦理委员会审批同意(伦理批号:GDREC2020198H),由于本研究为回顾性研究,该中心伦理委员会批准了本研究免除入组患者的相关知情同意。
1.2 方法
1.2.1 抗PD-1/PD-L1反应性的定义
主要预测指标是ICIs治疗的反应状态,即持久临床获益,根据实体瘤反应评估标准(RECIST V.1.1)标准定义为完全反应、部分反应或疾病稳定≥6个月,而无反应性定义为部分反应或疾病稳定<6个月
[14]。此外,根据第8版肿瘤-淋巴结-转移(TNM)系统评估了肺癌的临床分期,任何关于疾病诊断的分歧都通过讨论达成共识。
1.2.2 mRNA 测序数据的标准化与整合
所有mRNA 测序数据均被标准化为每百万转录本(TPM)。为整合2个数据集,使用R包sva(3.46.0)中的“ComBat”函数来校正批次效应,并通过主成分分析评估批次校正的成功情况
[15]。对于加权基因共表达网络分析(WGCNA),选取表达中位绝对偏差前75%的基因,最终保留9627个基因作为输入
[16]。
1.2.3 加权基因共表达网络构建
在WGCNA R包中,软阈值功能可优化共表达相似性,实现无标度拓扑。基于该配对关联分析方法,表达趋势近似的相关基因可被分到一个组或一个模块。具体步骤如下:使用WGCNA函数“goodSamplesGenes”对样本和基因进行质量控制。通过R包flashClust1.1.2的层次聚类来检查样本离群值。WGCNA函数“pickSoftThreshold”最佳软阈值功率(β)范围设置为1~30,以实现无标度拓扑结构(R²>0.85),网络类型设置为“signed”。使用WGCNA函数‘adjacency’计算加权邻接矩阵,参数设置power=β,networkType=“signed”,corType=“bicor”。随后使用在分析基因表达矩阵相似性时对离群值更具鲁棒性的双权重中值相关性分析。以WGCNA函数“moduleEigengenes”计算模块特征基因(ME)作为每个模块表达矩阵的第一主成分。运用WGCNA函数‘modulePreservation’进行模块保存分析
[17]。
1.2.4 与ICIs反应性相关模块及其枢纽基因的识别
计算模块特征基因与每个临床特征之间的Pearson相关性以量化模块与临床特征的相关性。进一步分析与抗PD-1/PD-L1反应性显著相关的模块。计算模块成员(MM)关系或基于特征基因的连通性(kME)作为每个基因与相应模块特征基因的相关性,基因显著性(GS)作为基因与ICIs反应性之间的Pearson相关性。使用WGCNA函数‘verboseScatterplot’展示模块基因的kME。|kME|>0.8的基因被定义为枢纽基因,这些基因在模块中相互连接最紧密且与ICIs反应性相关。使用R包ppcor(1.1)计算Pearson相关性。
1.2.5 基于ICIs治疗相关基因构建NSCLC预后模型 TCGA-LUAD及TCGA-LUSC两队列合并去除生存时间为0的样本,最终纳入996例患者,将这些患者以7∶3分为训练组(
n=698)及验证组(
n=298)。将上述84个mRNA纳入的基于机器学习的整合流程,开发出共识免疫相关mRNA标签。随后通过R包“Mine1”将已筛选的ICIs治疗相关基因构建NSCLC预后模型
[18]。对于每个模型,计算其在所有验证数据集上的Harrells一致性指数(C-index),平均C-index 最高的模型被视为最优模型。
1.2.6 基因通路与免疫微环境分析
基于与ICIs相关模块中的基因,使用R包 clusterProfiler4.2.2中的“enrichGO”和“enrichKEGG”函数分析基因本体(GO)和京都基因与基因组百科全书(KEGG)通路。使用clusterProfiler 函数“gseGO”和“gseKEGG”以对GO和 KEGG进行GSEA分析
[19]。使用R包“GSVA”中的单样本基因集富集分析(ssGSEA)量化TCGA队列中28种免疫细胞的相对浸润情况
[20]。采用包括ESTIMATE验证ssGSEA 结果的稳定性和稳健性
[21]。TCGA转录组基因矩阵通过肿瘤免疫功能障碍与免疫排除(TIDE)算法的线上工具计算研究样本ICIs治疗预测应答情况及TIDE评分,运用R语言进行高低风险组可视化及统计学分析
[22]。
1.2.7 图像分割
通过医学影像存储与传输系统从广东省人民医院获取在ICIs治疗开始前1月内完成的胸部增强CT图像,同时在公共数据库从TCIA下载胸部增强CT影像。在质量和时间验证后,由2位经验丰富的放射科医师使用3D Slicer4.10.2软件进行半手动分割,2位医师对患者的临床状态和最终转归不知情。通过应用“绘制”、“轮廓追踪”和“平滑”方法在3个正交方向上勾勒出原发肿瘤的轮廓,生成肿瘤的感兴趣区域(ROIs)。
1.2.8 特征提取与筛选
将主要的或最长径最大的肺部病变定义为目标病变,从肿瘤和肿瘤周围区域的ROIs中使用3D Slicer平台SlicerRadiomics软件包提取851个影像组学特征。为了保证标志物的稳定性,在训练集中使用组内相关系数(ICC)测试在参考图像数据库以评估治疗反应,数据集上过滤了不可重复或不稳定的影像组学特征。共提取了851个影像组学特征:包括一阶统计特征、绝对梯度、灰度共生矩阵(GLCM)、灰度游程长度矩阵(GLRLM)、灰度尺寸区域矩阵(GLSZM)、邻域灰度差矩阵(NGTDM)等;过滤器基于小波分析等。应用最小绝对收缩和选择算子(LASSO)和5倍交叉验证方法(使用最佳λ)进一步过滤掉冗余特征。
1.2.9 模型构建
基于ROIs的显著预测特征运用logistic回归方法构建了影像组学特征,据此计算每位患者的影像组学分数。在训练组中,基于从患者亚组中收集的临床信息,包括患者的年龄、性别、吸烟状况、ECOG评分、表皮生长因子受体(EGFR)状态、临床分期、治疗线数以及治疗前后NLR。采用logistic回归的向后逐步回归法对该因素逐一分析,筛选出能够有效预测ICIs治疗效果的特征,从而构建出临床信息模型。将影像组学评分与临床信息相结合,利用RStudio软件绘制诺莫图,将预测模型进行可视化形式呈现。采用受试者工作特征(ROC)曲线分析分别在训练集和验证集中对其区分能力进行评价,通过比较ROC曲线下面积(AUC)判断其相较于单独临床信息模型和影像组学模型的优劣。运用Bootstrap重抽样法,分别绘制了训练集和验证集的校准曲线以精准评估预测模型的校准度,即模型预测概率与实际观测概率之间的一致性。分别在训练集和验证集中对预测模型进行了决策曲线分析(DCA),以系统评估模型的临床实用性,并将其与临床指标模型和影像组学模型进行细致对比
[23]。
1.2.10 生存分析
基于模块基因或影像特征评分,使用R包survminer(0.4.9)进行 Kaplan-Meier分析。
1.3 统计学分析
采用R4.4.0、SPSS27.0进行生物信息学和统计学分析,计量资料均经过正态性检验和方差齐性检验,服从正态分布及方差齐性检验的资料以均数±标准差表示,组间比较采用独立样本t检验,无法同时满足两组检验条件的计量资料以中位数(上下四分位数)表示,组间比采用Mann-Whitney U检验。计数资料以n(%)表示,组间比较采用卡方检验。以P<0.05为差异有统计学意义。
2 结果
2.1 GEO患者的临床信息
研究队列共43人,中位年龄为64岁,人群的中位无进展生存期(PFS)为2.17月,主要ICIs治疗药物为纳武单抗(
表1)。
2.2 鉴别与NSCLC的ICIs反应性相关的共表达模块
将队列mRNA-seq原始数据经过TPM标准化、ComBat函数校正批次效应后(
图2),数据点的分布变得更加集中和均匀,之前可能存在的由批次因素导致的聚类现象明显减少。所有样本均在集群内,在数据处理过程中未发现明显的异常样本(图3A)。
选择9627个具有高变异性的基因,并保留了全部43例患者。将软阈值幂β设置为24,得到的无标度拓扑指数R2=0.86,平均连通性为5.6(图3B、C)。
最终识别到11个模块(图3D),其中灰色模块为非聚类基因。计算每个临床特征与模块特征基因之间的Pearson相关性,结果显示蓝色模块与抗PD-L1反应性呈正相关(图3E)。通过MM与GS相关性验证了模块中分配基因与ICIs反应性的关联(cor=0.68,图3F)。
2.3 IRGs富集分析
将该模块中|kME|≥0.8的基因定义为IRGs并进行KEGG和GO分析,KEGG通路分析表明,IRGs在中性粒细胞胞外陷阱、Toll样受体信号、B细胞受体、自然杀伤细胞介导的细胞毒性等信号通路中富集。GO分析显示,IRGs主要富集在免疫反应激活信号通路、免疫反应激活细胞表面受体、免疫反应调节细胞表面受体等(
图4)。
2.4 TCGA患者临床信息
训练组和测试组在年龄、生存、性别、生存状态、T分期、M分期、N分期、组织学类型的差异均无统计学意义(
P>0.05,
表2)。
2.5 免疫相关基因标签构建
将84个IRGs纳入的基于机器学习的整合流程。在TCGA队列中,通过单变量 Cox 回归识别预后拟合了101种预测模型,并进一步计算每个模型在所有验证数据集中的C-index(
图5)。最佳模型是逐步Cox回归和LASSO的组合,其平均C-index最高(0.785),并且该组合模型在所有验证数据集中均具有最高的C-index。
根据survminer包确定最佳截断值,将所有患者分为高风险组和低风险组。Kaplan-Meier生存分析可见高风险组患者的总生存期低于低风险组,该趋势在训练集(P<0.001,图6A)及验证集(P<0.001,图6B)中均得到体现。
2.6 免疫相关基因标签相关肿瘤免疫微环境评估
ssGSEA提示训练组(
图7A)及验证组(
图7B)的低风险组含更多的效应CD8
+T细胞、DC细胞、NK细胞、中性粒细胞、DC细胞。同时ESTIMATE算法提示训练组(
图7C)及验证组(
图7D)中的低风险组均具有较高的ESTIMATE分数、基质评分、免疫评分和较低的肿瘤纯度。在对比训练组(
图7E)及验证组(
图7F)高低风险组的TIDE评分时可见低风险组TIDE评分较低,预测该组患者的ICIs治疗获益的可能性较高。
2.7 特征筛选与模型的建立
基于从lung_3及广东省人民医院真实世界队列(
表3)中ROIs提取到共851个影像组学特征,经稳定性测试,ICC>0.75的726个特征被保留下来(
图8)。在lung_3队列中通过Pearson相关性分析筛选出与ICIs治疗相关基因中等或强相关的影像特征94个(相关性>0.4,
P<0.05)。
将真实世界队列中训练组中的94个影像特征进行LASSO算法处理,以筛选冗余和非预测性特征,确定了7个影像特征(包括小波转换下的一阶统计量及纹理特征)并基于此构建ICIs影像组学治疗疗效模型(
表4、
图9)。
临床危险因素经过单因素和多因素logistic回归分析最终筛选出1个与免疫疗效显著相关的临床信息(治疗后NLR,OR=0.85,95%
CI: 0.77~0.95,
P=0.003,
表5)。联合筛选得到的临床信息及影像组学特征,分别建立临床模型、影像组学模型及临床-影像组学模型。
2.8 模型对比与验证
比较以上3组模型的AUC,结果显示临床-影像组学模型的预测效能(训练组AUC=0.725、验证组AUC=0.706)优于单一临床模型(训练组AUC=0.674、验证组AUC=0.663)和影像模型(训练组AUC=0.708、验证组AUC=0.686,
图10A、B)。构建基于临床-影像组学模型的诺莫图(
图10C)。诺莫图的校准曲线显示,预测aNSCLC的ICIs治疗疗效的概率与真实概率之间吻合度较好(
图10D、E)。DCA曲线表明,与其他两组模型对比,联合模型在广泛阈值概率范围内具有更高的临床净获益(
图10F、G),影像组学模型在真实世界队列中较好区分ICIs治疗后的PFS(训练组:
P<0.001,验证组:
P=0.017,
图11)。
3 讨论
NSCLC是全球最常见的肺癌类型,约占所有肺癌的85%,aNSCLC患者的5年生存率低
[1]。ICIs的出现为aNSCLC患者带来了新的希望。然而目前ICIs的临床应用存在如耐药、预后不良等局限性
[2-5]。因此,在ICIs治疗之前需要对患者进行个体化预后预测。常见的预测治疗效果的生物标记物还存在一些局限性
[24]。
TME在各种成分之间的相互作用共同调节区域免疫效应,影响ICIs治疗的效果
[24, 25]。CT、MRI等医学影像中中隐含的大量生物信息,为肿瘤的诊断、预后、治疗反应预测及异质性无创定量评估提供了新途径
[26-28]。以往研究尝试利用影像组学特征预测免疫治疗疗效,有研究利用支持向量机、随机森林等构建影像组学模型,整合临床信息构建诺莫图,对aNSCLC患者接受免疫治疗的个体化风险分层和治疗起到辅助作用
[29, 30]。同时提取自肿瘤区域的深度学习影像组学特征结合CD8
+T细胞和TMB等TME成分可以间接预测免疫治疗疗效
[10, 11],指导aNSCLC患者的个体化治疗。这类研究虽揭示了影像特征与免疫表型的相关性,但多以影像直连免疫状态,忽略其背后的分子生物学基础,模型可解释性和稳定性仍存在提升空间。关于影像组学特征与总体微环境之间的联系阐述较少,因此本研究在此方面展开深入探索。本研究构建了一个基于多组学整合的预测框架,创新性地提出TME特异性的影像组学标签,并结合治疗后NLR构建联合模型,有效预测aNSCLC患者接受ICIs治疗后的疗效。本研究从机制来源、模型构建路径及临床适用性等多个维度展现出明显优势。
本研究以GEO免疫治疗为出发点,采用WGCNA筛选出与ICIs反应性相关的核心模块,从中筛选出84个免疫治疗相关基因(IRGs),并在TCGA中验证其预后价值和免疫浸润相关性。这一策略实现了基因-影像特征之间的生物机制映射,使筛选出的影像特征不仅具备预测能力,更承载TME功能信息,从而增强了模型的生物解释力。
结合与IRGs显著相关的94个影像特征构建的影像模型性能(训练组AUC=0.708,验证组AUC=0.686)优于临床模型(训练组AUC=0.674,验证组AUC=0.663)。同时,影像评分亦显著关联患者的PFS,优于大多数依赖黑箱算法构建的模型。但根据既往研究
[31],本文部分小波纹理特征与T细胞趋化和抗原递呈路径呈强相关,提示其或可作为TME免疫激活的间接影像标志。
外周血NLR可作为实体瘤预后及ICIs治疗疗效的重要生物标志物
[32-35]。而与既往研究结论不同,治疗前基线NLR值在本队列中未显示出统计学相关性,而治疗后1月内动态监测的治疗后NLR经多因素分析证实为独立预后因素。这一现象提示,治疗后外周血成分的动态变化可能更直接反映机体免疫激活状态,而非单纯依赖基线免疫状态评估。联合该指标构建的临床-影像组学联合模型(训练组AUC=0.725,验证组AUC=0.706)性能优于单一模型,且DCA提示具有更高的临床净获益;同时,本研究以诺莫图的形式展示预测工具,使其便于临床医生快速应用。相比传统PD-L1表达或TMB评分等生物标志物,需侵入性检测且受样本空间异质性影响大,本研究提出的“基因驱动的非侵入性影像标签”具备更强的可获得性与推广潜力。
本研究存在一定的局限性:影像组学特征的选择可能存在优化空间,在筛选与IRGs相关的影像组学特征时可能因方法局限排除掉一些本身对ICIs治疗疗效可能有影响的特征,同时本文的影像特征提取基于CT增强图像,未涉及其他模态(如PET/CT)或原始结构参数,后续可根据多个模态拓展更多的特征维度;本研究中使用的数据库数据样本量相对较小、数据来源相对单一,这可能会影响研究结果的普遍性和可靠性,未来的研究需要纳入更大规模、多中心的数据集,以进一步验证模型的有效性;尽管已建立影像与IRGs之间的关联,但尚未实现空间转录组与单细胞层面的直接标注匹配,未来结合空间多组学技术将有望进一步提升模型解释力。
综上所述,本研究开发的基于胸部CT的TME特异性影像组学标签模型在预测aNSCLC的ICIs治疗疗效方面有一定的潜力。未来可进一步改进研究方法,扩大样本量,深入探讨其他影响ICIs治疗疗效的因素,以提高模型的预测准确性和临床实用性,为aNSCLC患者的ICIs治疗提供更有效的指导。
国家自然科学基金(82472064)
广东省国际科技合作计划(2022A0505050048)
广东省自然科学基金(2024A1515012369)
北京希思科临床肿瘤学研究基金(Y-HS202102-0038)