近年来,低剂量计算机断层扫描(low-dose computed tomography,LDCT)在肺癌筛查中得到广泛应用,这使得表现为亚实性结节的IA期肺癌检出率显著上升
[1]。亚实性结节,包括纯磨玻璃结节(pure ground-glass nodule,pGGO)和混合磨玻璃结节(mixed ground-glass nodule,mGGO),常与早期肺腺癌相关。与完全实性结节相比,其在影像学上的表现和生物学行为更为复杂和异质
[2]。这类病变生长较为惰性,但仍存在侵袭性与转移的风险
[3]。气道播散(spread through air spaces,STAS)由Kadota等
[4]在2015年首次提出,作为肺癌中一种新的侵袭模式,其特征是肿瘤细胞通过空气扩散至主肿瘤边缘以外的肺组织。研究表明STAS与肿瘤的侵袭性、生存预后差以及术后复发风险显著相关
[5-7]。STAS的存在直接影响手术方式的选择及术后辅助治疗策略,因此,术前准确预测STAS能帮助外科医师为高风险患者选择更彻底的根治性术式(如肺叶切除术),以降低局部复发风险;同时,也能为低风险患者选择更微创的亚肺叶切除术提供依据,在保障肿瘤疗效的前提下更好地保留肺功能。然而,当前STAS的预测主要依赖术后病理检查,属于有创且回顾性的方法,无法用于术前评估。尽管影像学技术如高分辨率CT(high-resolution CT,HRCT)在结节特征分析中发挥重要作用,但其预测STAS的准确性有限
[8],而术中快速冷冻病理对STAS的检测灵敏度较低,也难以为术中手术决策提供可靠依据
[9]。因此,开发术前非侵入性预测STAS的技术成为临床待解决的难题。
机器学习算法能够从高维度、多来源的医疗数据中自动学习,高效挖掘其中隐含的复杂模式,从而发现人脑难以发现的预测规律
[10]。然而,现有研究多为单中心、小样本分析,模型普遍缺乏外部验证,限制了其临床推广,并且专门针对表现为亚实性结节这一特定类型IA期肺癌的STAS预测模型尚待开发与验证
[11-13]。本研究旨在开展一项多中心回顾性研究,以系统性地开发和验证一个基于机器学习的临床预测模型。该模型能够在术前无创且精准地预测表现为亚实性结节的IA期肺癌患者发生STAS的风险,从而为个体化手术方案的制定提供关键决策支持,最终改善患者预后。
1 对象与方法
1.1 研究对象
回顾性分析2021年5月至2025年9月在解放军总医院第一医学中心和解放军总医院第四医学中心就诊的CT影像表现为亚实性结节的IA期肺癌患者的临床资料。纳入标准:(1)术前14 d内行胸部CT增强扫描,且亚实性结节在CT影像上的最大径≤3.0 cm;(2)患者成像质量满意(无运动伪影);(3)术前1周内进行血常规、动脉血气分析、肿瘤标志物评估;(4)保存完好的病理标本,适合STAS评价,并有明确的病理预测。排除标准:(1)术前接受有创手术(活检或射频消融)可能影响影像学特征;(2)临床资料不完整,如缺少CT图像或病历;(3)肺部病变表现为非结节性(如斑片状、索条状)或纯实性结节。本研究经解放军总医院医学伦理委员会批准(编号S2025-322-01)。
1.2 临床指标及CT图像资料收集
解放军总医院第一医学中心的1 600例患者按照7∶3的比例分为训练集(n=1 120)和内部验证集(n=480)。解放军总医院第四医学中心的447例为外部验证集。本研究依据TRIPOD报告规范,根据既往研究文献
[14-15]和改进经验法则
[16]评估本队列的样本量远远大于理论所需样本160例(20EPV),这确保了所开发模型的稳定性和可靠性。本研究收集了入组患者的具体临床特征,包括:性别、年龄、呼吸道症状、吸烟史、肺癌家族史、手术方式、淋巴结清扫方式、实验室检查结果、CT图像的常规语义特征、病理类型。
实验室检查数据包括血常规指标计算得出的综合炎症标志物[中性粒细胞/淋巴细胞比值(neutrophil-to-lymphocyte ratio,NLR)、淋巴细胞/单核细胞比值(lymphocyte-to-monocyte ratio,LMR)、血小板/淋巴细胞比值(platelet-to-lymphocyte ratio,PLR)、全身免疫炎症指数(systemic lmmune-inflammation index,SII)、血气分析以及相关的肿瘤标志物[癌胚抗原(carcinoembryonic antigen,CEA)、甲胎蛋白(alpha-fetoprotein,AFP)、癌抗原125(cancer antigen 125,CA125)、癌抗原19-9(cancer antigen 19-9,CA199)、癌抗原15-3(cancer antigen 15-3,CA153)、癌抗原72-4(cancer antigen 72-4,CA724)、细胞角蛋白19片段抗原(cytokeratin 19 fragment,CYFRA21-1)、神经元特异性烯醇化酶(neuron-specific enolase,NSE)和鳞状细胞癌抗原(squamous cell carcinoma antigen,SCC)]。
CT图像语义特征包括病灶位置(左、右、上、中、下肺叶)、肿瘤最大直径、实性成分占比(consolidation tumor ratio,CTR)、密度类型(纯磨玻璃结节和混合密度结节)、形状(不规则、圆形/近圆形)、边缘(分叶征、毛刺征)、肿瘤-肺界面(边界清楚或模糊)、内部结构(空泡征、囊腔/空洞)、邻近结构(血管集束征、胸膜凹陷征、支气管改变、晕征、卫星灶)、肺气肿背景、远端带状征等。所有患者的CT及病理切片均为历史存档。所有患者的术前薄层CT图像均由两名高年资胸部放射科医师独立盲法评估。评估前,医师对患者的所有临床及病理信息均不知情。
1.3 主要结局的定义、评估与质控
本研究主要结局为明确的二分类病理学结局:是否存在STAS。STAS的判定标准为:肿瘤边缘以外的肺泡腔内,发现以下至少一种结构的肿瘤细胞:微乳头簇、实性细胞巢、散在的。且肿瘤细胞必须存在于肿瘤主体边缘之外的肺泡腔内。该结局在患者接受肺癌根治性手术后,通过标准病理学评估确定。所有术后标本均依照标准病理学流程进行处理,并对肿瘤主体及所有疑似气道播散区域进行重点取材与制片。最终的H&E染色切片由两名具有10年以上胸部肿瘤病理预测经验且具备副主任医师或以上职称的病理科医师,在完全不知晓患者临床、影像学及实验室检查信息的情况下进行独立评估。初始评估若出现不一致(Kappa值<0.8),则由两名对应领域的评估者进行复审,直至达成一致。
1.4 特征选择与模型构建
使用单因素逻辑回归初步筛选出与结局变量显著相关的特征(P<0.05),然后采用LASSO回归结合10折交叉验证法进一步选择重要特征,最后采用多因素逻辑回归筛选出具有高预测能力的特征。在特征选择确定的最终预测变量基础上,对建模数据集进行预处理。将所有分类变量(如毛刺征、瘤肺界面等)转换为因子类型,并进行独热编码,以确保机器学习算法能够正确处理。将主要结局“存在STAS”定义为阳性事件,并在所有数据集中将其设置为因子的第二水平,确保模型评价指标计算的一致性。采用朴素贝叶斯(naive bayes,NB)、逻辑回归(logistic regression,LR)、K近邻(k-nearest neighbors,KNN)、随机森林(random forest,RF)、单层神经网络(single-layer neural network,SLNN)、极端梯度增强(extreme gradient boosting,XGBoost)和轻梯度增强机(light gradient boosting machine,LightGBM)等7种方法进行建模。本研究采用系统化的机器学习工作流进行模型开发,并依据结局变量进行分层抽样以保持类别比例;采用5折分层交叉验证在训练集上评估模型性能并进行超参数调优,以更稳健地估计模型的泛化能力,避免过拟合;通过网格搜索对关键超参数进行系统寻优。随机森林的调优参数包括每次分裂时的候选变量数(mtry:2-10)、决策树数量(trees:200-500)和叶节点最小样本数(min_n:20-50)。在交叉验证的每一折上,评估不同参数组合的性能[采用受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under the curve,AUC)为主要评价指标)],最终选择在交叉验证集上平均AUC最高且标准差较小的最优参数组合用于训练最终模型。采用选定的最优超参数,在全部训练集数据上重新训练最终的随机森林模型。建模的所有步骤,包括特征选择和任何参数调优,都只在训练集中进行。
1.5 可解释性分析和临床转化
本研究采用沙普利加性解释(SHapley Additive exPlanations,SHAP)方法对所构建模型的预测结果进行分析和解释。同时对输入特征的重要性进行排序,增强模型预测过程的透明度和可解释性。根据SHAP的特征重要性排序构建了预测列线图并部署网页进行临床转化。
1.6 统计学方法与模型评价
采用SPSS 27.0和Python 3.9进行数据处理和统计学分析。特征提取、选择、模型开发和测试均在Python 3.9环境下进行,采用SPSS 27.0软件对变量集进行对比分析。正态分布的计量资料以x±s表示,非正态分布的计量资料以M(IQR)表示。分类资料以百分比表示。在统计评估过程中,采用严格的设计进行训练集和验证集之间的比较分析。对于具有语义意义的定量变量,采用t检验或Wilcoxon检验进行比较;分类变量采用皮尔逊χ2检验或Fisher’s精确概率检验。所有统计学检验均为双侧,显著性水平设置为P<0.05。
在独立的内部验证集和外部验证集上,采用ROC曲线进行综合评价评估模型的性能,采用校准曲线评估模型预测和实际观察之间的一致性。采用决策曲线分析(decision curve analysis,DCA)量化模型验证其临床适用性,采用DeLong检验比较预测模型的性能。
2 结果
2.1 基线比较
解放军总医院第一医学中心收治的1 120例CT影像表现为亚实性结节的IA期肺癌患者组成训练集,其中STAS阳性患者556例。内部验证集包括解放军总医院第一医学中心收治的480例CT影像表现为亚实性结节的IA期肺癌患者,其中STAS阳性患者234例。外部验证集包括于解放军总医院第四医学中心就诊的447例CT影像表现为亚实性结节的IA期肺癌患者,其中STAS阳性患者217例。所有连续变量均不符合正态分布。训练集和内部验证集所有临床特征差异均无统计学意义,训练集和外部验证集中实验室指标除了CEA、NSE、SCC外均存在统计学差异,考虑可能与不同医院选择的检测试剂和检测系统不同有关。见
表1、
表2。
2.2 特征筛选与模型构建
单因素逻辑回归分析(
表3)表明多个因素与表现为亚实性结节的IA期肺癌的STAS显著相关。将单因素分析初步筛选出的特征纳入LASSO回归模型,采用10折交叉验证,通过逐渐增大λ值绘制系数路径图,计算不同λ值下模型的平均交叉验证误差以确定最优的正则化参数λ(-7.814)。保留在该λ值下系数不为零的特征,作为后续多因素逻辑回归分析的输入变量(
图1)。最后使用多因素逻辑回归分析(
表4)筛选出肿瘤最大径、实性成分占比、毛刺征、瘤肺界面、卫星灶、肺气肿背景、CA125和NSE等8个因素与表现为亚实性结节的IA期肺癌患者发生STAS有关。基于上述8个因素,本研究在训练集(n=1 120)上分别构建了7个机器学习模型,包括:NB、LR、KNN、RF、SLNN、XGBoost和LightGBM。所有模型均使用嵌套交叉验证与网格搜索进行超参数优化。如
图2所示,RF和LightGBM在训练集中表现出色,其AUC值分别达到0.934(95%
CI:0.902 ~ 0.966)和0.935(95%
CI:0.915 ~ 0.955)。并且在训练集中,RF的校准度和临床净效益高于其他模型(
图3、
图4)。基于其在训练集中的卓越表现,RF模型被选定为最终模型用于后续验证与解释。
2.3 模型评估
2.3.1 诊断效能评估
如
图2所示,RF在内部验证集及外部验证集中均表现出色,其AUC值分别为0.929(95%
CI:0.900 ~ 0.958)和0.873(95%
CI:0.837 ~ 0.909),显著高于其他对比模型(
P<0.05)。如
表5所示,本研究全面呈现了所有模型在训练集、内部验证集及外部验证集中的评价指标,包括准确率、精确率、召回率、F1分数。对这些指标的综合分析表明,RF模型是其中综合表现最佳的模型。
2.3.2 校准度及临床效用分析
在内部验证集和外部验证集中,RF与“完美校准”对角线在其预测概率范围内具有良好的一致性,并好于其他模型,表明其对IA期肺癌患者发生STAS的预测可靠(
图3)。进一步DCA分析(
图4),RF相较于其他模型在广泛的阈值概率范围内均显示出显著的临床净获益,表明其具有较高的临床相关性。这些结果强调了该模型不仅具有较高的区分能力,而且提供了校准良好的风险预测,进一步支持其临床适用性。
2.4 模型解释与临床转化
本研究采用SHAP方法分析性能最优的RF预测模型并量化每个特征的贡献。基于SHAP值生成了SHAP条形图(
图5A),其中,对模型影响最大的4个特征为实性成分占比(0.189),肿瘤最大径(0.079),毛刺征(0.037)和瘤肺界面(0.035)。该排名强调了CT语义特征对预测表现为亚实性结节的IA期肺癌患者发生STAS的显著影响。
同时本研究构建了SHAP蜂群图(
图5B)来量化每个特征对模型预测表现为亚实性结节的IA期肺癌患者发生STAS的影响,强调在预测过程中每个特征的相对重要性和影响的方向。其中实性成分占比的点分布范围最大,表明其对模型的影响最显著,且高特征值(红点)对应SHAP正值说明对在一定范围内实性成分占比升高对模型输出有正向作用。
SHAP决策图(
图5C)展示了特征如何在具体样本中以累计方式影响模型决策过程。SHAP瀑布图(
图5D),用于解释单个样本的预测结果,显示了每个特征对预测值的贡献如何通过SHAP值逐步变化。当实性成分占比=0即纯磨玻璃结节,存在肺气肿背景,肿瘤最大径=25 cm,存在毛刺征和卫星灶,CA125=9.06 ng/mL,瘤肺界面表现为边界模糊和NSE=12.7 ng/mL时如何影响模型的输出值。
本研究根据SHAP的特征重要性排序构建并绘制了预测列线图,同时部署网页进行临床转化以期辅助临床工作(
图6)。该工具旨在辅助术前临床决策,通过填写8项常规临床与影像指标,包括肿瘤最大径、实性成分占比、毛刺征、瘤肺界面、卫星灶、肺气肿背景、血清CA125及NSE水平,工具将自动计算并直观展示患者个体发生STAS的预测概率,并提供基于列线图评分的风险可视化结果。
3 讨论
随着对肺癌侵袭模式的深入研究,STAS作为一种新型的肿瘤扩散方式逐渐被广泛认知。STAS的存在通常意味着肿瘤更具侵袭性,复发风险更高。对于亚实性结节患者,STAS的存在常提示局部切除可能不足,尤其是STAS阳性患者在接受亚肺叶切除术后复发率显著升高
[17-18]。因此,术前精准预测STAS对于手术方式的选择至关重要,可能影响肺叶切除与亚肺叶的决策,以及术后是否需要化疗等辅助治疗措施。本研究通过多中心回顾性数据,成功开发并验证了针对表现为亚实性结节的ⅠA期肺癌患者STAS的机器学习预测模型。最终构建的随机森林模型展现出最优的预测性能,其在训练集、内部验证集及外部验证集中的AUC值分别达到0.934(95%
CI:0.902 ~ 0.966),0.929(95%
CI:0.900 ~ 0.958)和0.873(95%
CI:0.837 ~ 0.909),表明该模型具有良好的判别能力。SHAP分析进一步揭示,CTR、肿瘤最大径、毛刺征和瘤肺界面是模型预测最重要的4个特征。
RF在此任务中的优异表现可能缘于其处理复杂非线性关系的能力。表现为亚实性结节IA期肺癌的STAS预测涉及多个影像学特征与病理结果的交互作用,传统逻辑回归模型难以充分捕捉这些复杂模式。本研究系统比较了7种预测模型的性能。在训练集与内部验证集中,复杂机器学习模型(如RF、LightGBM)的区分度(AUC)显著优于逻辑回归模型,验证了其在捕捉预测因子与STAS之间复杂非线性关系及交互作用方面的理论优势。然而,在外部验证中,所有模型的性能均出现预期内的衰减,其中逻辑回归模型的AUC衰减幅度最小(衰减0.053),表现出最佳的稳健性;而性能最优的随机森林模型衰减相对明显(0.061)。这一现象可能由于逻辑回归作为参数模型,其结构简单、假设明确,在面对不同中心间检验标准等未被模型捕获的变异时,具有天然的抗过拟合特性与稳定性。这提示在追求最优预测性能与确保模型跨机构稳健性之间需要权衡。对于STAS的术前预测,其临床价值需结合决策结果进行衡量。若目标是在不遗漏高危患者即避免因低估STAS风险而导致手术范围不足的前提下进行筛查,则敏感度可能成为更关键的指标。本研究RF模型在外部验证中保持了较高的敏感度(84.31%),而逻辑回归模型为78.82%。若目标是避免过度治疗即避免因高估风险而对本可接受亚肺叶切除的患者进行肺叶切除,则特异度更为重要。客观比较模型的实际价值,需超越单一的AUC指标,综合考察其在临床决策曲线分析中的净获益。尽管RF模型的AUC在外部验证中有所衰减,但在具有临床意义的阈值概率范围内,其提供的临床净获益仍高于逻辑回归模型及其他对比模型。因此,结合本研究的核心目标即术前筛查STAS高危人群以指导手术决策,兼顾了较高敏感度与临床净获益的随机森林模型或能提供更贴合临床需求的平衡。SHAP分析进一步揭示了实性成分占比、肿瘤最大径、毛刺征和瘤肺界面是影响模型决策最重要的4个影像学特征。这一发现与当前关于肺癌侵袭性生物学行为的研究高度吻合。实性成分占比常被用作评估肺腺癌侵袭性的关键指标,较高的实性成分占比往往预示着更活跃的肿瘤细胞增殖和更强的侵袭能力
[19-21]。肿瘤最大径作为T分期的重要组成部分,其与STAS的正相关关系已被多项研究证实,较大的肿瘤体积通常意味着更长的生长时间,从而增加了发生侵袭和播散的机会
[22-24]。毛刺征和瘤肺界面不清则反映了肿瘤细胞向周围肺组织的浸润性生长方式,这种生长模式破坏了正常的肺组织结构,为肿瘤细胞脱落并沿STAS创造了条件
[25-27]。
本研究构建的预测模型具有重要的临床意义。术前准确预测STAS状态,对于制定个体化手术方案具有关键的指导作用。对于预测为STAS阳性的IA期肺癌患者,尤其是拟行亚肺叶切除术者,考虑到STAS阳性与术后复发风险显著相关,外科医师可更倾向于选择解剖性肺叶切除术,以获取足够安全的切缘,从而有望降低局部复发风险
[28]。反之,对于预测为STAS阴性的患者,则为实施更能保留肺功能的亚肺叶切除术提供了更充分的依据,契合肺癌微创与精准治疗的发展趋势。
本研究领域现有的临床预测模型主要存在以下3个方面的局限。首先,模型的泛化能力普遍不足。这些模型大多基于单中心、回顾性数据构建,样本规模有限,容易导致过拟合,进而在外部验证中出现性能显著下降。例如,Wang等
[29]利用单中心241例患者构建的肺癌STAS预测模型,在外部验证中表现出较差的泛化性能。其次,部分研究为了追求临床可解释性而采用简单的线性模型,尽管模型结构清晰透明,却往往难以捕捉变量间复杂的非线性关系,导致预测性能遇到瓶颈,判别能力有限。如Chen等
[30]开发并验证了一种基于术前 CT 的简易列线图,其在测试集中的预测准确率仅为0.706。第三,一些采用复杂机器学习方法的研究虽然报告了更高的AUC,却未提供如SHAP等可解释性分析,其“黑箱”决策机制严重阻碍了临床的实际应用。例如,Li等
[31]构建了基于CT特征的逻辑回归模型用于预测肺腺癌的STAS,尽管预测性能较好,但未阐明各特征如何影响模型决策。综上所述,当前研究中的这些不足,共同凸显了开发兼具高预测精度、强泛化能力及良好可解释性的新型模型的迫切需求。
本研究的优势在于采用多中心设计,有效增强了模型的泛化能力与稳健性,克服了单中心、小样本研究的局限性。此外,模型在保持高预测性能的同时,具备良好的可解释性。通过SHAP分析,能够清晰展示各特征对预测结果的贡献度,有效弥合了机器学习算法与临床决策之间的理解鸿沟,增强了医师对模型的信任。为进一步推动临床转化,本研究还开发了用户友好的交互界面,以期将预测结果高效整合至临床工作流程中。通过整合易于获取的CT影像特征,采用稳健的多中心数据,并注重模型的可解释性与临床可用性,不仅在预测准确性上实现提升,更切实回应了以往模型在实际应用中的挑战。所构建的模型具备成本效益高、临床适用性强及解释性好的特点,有望在改善亚实性结节型IA期肺癌患者的STAS管理、优化治疗策略及提升预后方面发挥重要作用。
尽管本研究模型表现出良好的区分度和校准度,但仍存在若干局限性。(1)回顾性研究设计不可避免地带入了选择偏倚。尽管采用了多中心数据以增强模型的泛化能力,但所有数据均来自回顾性收集。(2)缺乏长期随访数据限制了评估对患者预后影响的能力。(3)模型旨在解决肺癌诊疗中“定性后”阶段的关键问题。它默认输入结节已具有手术干预指征,核心贡献在于无创区分是否发生STAS。但是一个真正贯穿从初诊到治疗的全流程辅助工具,需要整合良恶性预测与侵袭性评估。(4)为保障筛选结果的临床稳健性,本研究采用了较为繁琐的变量筛选策略;未来在样本量充足时,将探索更简化的筛选方式。
未来本课题组计划进行多中心前瞻性临床验证,通过已部署的网页评估模型的预测性能与术后病理金标准的一致性。此外,还将开展大规模前瞻性研究,以进一步确认其临床实用性与稳健性。同时,本课题组还将积极探索整合PET/CT代谢参数、血清生物标志物及分子分型等多维度信息,以期构建一个更全面、强大的预测系统。总之,通过持续优化和验证,基于机器学习的预测模型有望成为肺癌精准外科诊疗体系中不可或缺的一部分,最终助力改善患者预后。
数据共享声明 本论文相关数据可依据合理理由从作者处获取,Email:pla301lhh@163.com。