尽管早期结直肠癌(colorectal cancer,CRC)治疗效果较好,但仍有30%的患者在确诊时已发生结直肠癌肝转移(colorectal cancer liver metastasis,CRCLM),5年生存率不足12%
[1-3]。尽管无创性临床标志物预测对制定治疗方案和评估预后有帮助,但其特异性不足
[4],因此迫切需要一种非侵入性方法在术前准确预测CRCLM。MRI无辐射,能进行多序列、多参数成像,具有较高的软组织分辨率,有助于评估病灶大小和位置,是肿瘤患者术前关键的检查方法
[5]。影像组学以其非侵入性和高效性,为影像数据中高通量特征的定量提取开辟了新途径,被广泛结合机器学习算法用于肿瘤诊断和预后评估
[6-7]。本研究采用多种机器学习算法开发和验证影像组学模型,并构建基于MRI影像组学与临床特征的联合模型用于诊断CRCLM,评估其临床应用潜力。
1 资料与方法
1.1 研究对象
收集2022年5月—2024年5月在河南省南阳市第一人民医院术前1周内完成MRI检查的150例CRC患者,其中CRCLM 57例,无CRCLM 93例。纳入标准:(1) 符合CRC及CRCLM
[8]相关诊断标准,且经术后病理证实;(2) 初次诊断,入组前未接受过相关治疗;(3) 均进行MRI检查,且影像质量良好;(4) 临床资料完整。排除标准:(1) 合并其他恶性肿瘤;(2) 存在心肝肾等严重功能障碍;(3) 既往接受过放化疗或手术治疗;(4) MRI影像质量欠佳或临床资料缺失。按4∶1比例将150例患者随机分为训练集(
n=120)和验证集(
n=30)。训练集男68例,女52例;年龄55~73(65.25±8.86)岁;左半结直肠72例,右半结肠48例;原发灶TNM分期:Ⅲ期74例,Ⅳ期46例;同时性CRCLM 20例,异时性CRCLM 18例。验证集男19例,女11例;年龄54~75(66.03±9.12)岁;左半结直肠21例,右半结肠9例;原发灶TNM分期:Ⅲ期19例,Ⅳ期11例;同时性CRCLM 8例,异时性CRCLM 11例。训练集与验证集一般资料比较差异无统计学意义(均
P>0.05)。本研究通过南阳市第一人民医院伦理委员会批准(批号:[2024-yxlllz]1007-17)。
1.2 MRI检查方法
所有患者均由1名10年以上工作经验的放射科医师完成MRI检查。采用3.0T Philips Achieva MR配合腹部相控矩阵线圈完成扫描。检查前6 h患者禁食,在扫描前进行肠道准备。上机前5~10 min注射20 mg山莨宕碱以减缓肠蠕动和肌肉张力。扫描围绕直肠兴趣区,沿病变肠管长轴垂直进行,具体参数如下:轴位T2WI序列:TR、TE、矩阵、层厚、层间距、NEX、ETL分别为5 180 ms、90 ms,220×220,4 mm、0.5 mm、4、16;DWI序列:TR、TE、矩阵、层厚、层间距、b值、NEX分别为3 200 ms、55 ms,375×300、5 mm、2 mm、800 s/mm2、8;轴位T1WI增强序列:TR、TE、矩阵、层厚分别为650 ms、20 ms、280×340、3 mm。增强扫描静脉团注0.1 mL/kg GdDTPA顺磁性对比剂。
1.3 图像处理
在Radcloud平台(北京慧影医疗科技有限公司)上,由2名经验丰富的放射科医师对患者T2WI、DWI、T1WI增强图像进行逐层手动勾画,获取3D感兴趣区容积(volume of interest,VOI),并确保感兴趣区(region of interest,ROI)于病灶最大层面,避开周围干扰(图
1-
2)。审查过程中,若勾画轮廓差异超过5%,则由资深医师界定肿瘤边界。
1.4 影像组学特征筛选及模型构建
通过Radcloud平台从MRI图像中提取1 910个定量成像特征,分为三组:一阶统计特征(370个),形状和尺寸特征(40个)以及纹理特征(1 500个)。使用LASSO回归(cv=3,max_iter=1 000)筛选出预测性最强的特征,并基于所选特征采用Logistic回归(Logistic regression,LR)、支持向量机(support vector machine,SVM)、随机森林(random forest,RF)构建预测CRCLM的影像组学模型,采用五倍交叉验证对训练集进行模型评估,并在验证组中进行验证。
1.5 统计学处理
采用SPSS 26.0分析数据。计量数据以均数±标准差()或中位数(四分位间距)[M(IQR)]表示,行t检验或秩和检验;计数资料以例数(百分比)[n(%)]表示,行χ2检验。P<0.05为差异有统计学意义。绘制受试者操作特征(receiver operator characteristic,ROC)曲线,计算曲线下面积(area under curve,AUC),比较3种影像组学模型的诊断能力。采用单因素与多因素分析筛选CRCLM危险因素,据此建立临床诊断模型,并构建临床与影像组学的联合模型。通过ROC曲线评估模型性能。采用决策曲线(decision curve analysis,DCA)评估模型的临床应用价值。
2 结 果
2.1 CRCLM的影响因素分析
单因素分析结果显示,CRCLM组与无CRCLM组患者的性别、年龄、体质量指数(body mass index,BMI)、肿瘤部位、肿瘤最大径、淋巴细胞/单核细胞比值(lymphocyte to monocyte ratio,LMR)差异均无统计学意义(均
P>0.05);CRCLM组患者的癌胚抗原(carcinoembryonic antigen,CEA)、糖类抗原19-9(carbohydrate antigen 19-9,CA19-9)水平及中性粒细胞/淋巴细胞比值(neutrophil to lymphocyte ratio,NLR)均高于无CRCLM组患者(均
P<0.05)(
表1)。多因素分析结果显示,CEA、CA19-9水平及NLR高均是CRCLM独立危险因素(均
P<0.05)(
表2)。据此进行临床诊断模型的构建,ROC曲线显示,CEA、CA19-9及NLR联合的临床诊断模型AUC为0.793(
图3)。
2.2 影像组学特征筛选
从3个序列(轴位T2WI、DWI、轴位T1WI增强序列)的ROI中共提取1 910个特征,采用包括灰度共生矩阵(gray level co-occurrence matrix,GLCM)、灰度游程长度矩阵(grey level run length matrix,GLRLM)、灰度尺寸zone矩阵(gray level size zone matrix,GLSZM)、灰度差分矩阵(grey level difference matrix,GLDM)等纹理分析算法,对图像纹理信息进行提取。通过方差阈值法筛选出1 070个,运用Select K Best法进一步选出680个,经mRMR去除冗余特征,再经LASSO回归筛选共确定10个最优特征,包括2个GLRLM、2个GLSZM、3个GLDM和3个一阶统计特征(
图4)(
表3)。
2.3 机器学习模型构建和效能评价
基于筛选出的最优特征分别采用LR、SVM、RF构建预测CRCLM的影像组学模型,对各影像组学模型进行ROC曲线分析,结果显示在训练集和验证集中RF模型的AUC最大,分别为0.770、0.763,故选择最佳RF模型(
图5)(
表4)。
2.4 联合模型构建与验证
将临床预测因素(CEA、CA19-9及NLR)和筛选出的10个最优影像组学特征结合,建立联合模型,使用RF建立临床模型、影像组学模型及二者联合模型,对三种模型进行ROC曲线分析,结果显示在训练集和验证集中联合模型的AUC分别为0.913、0.947,准确度分别为0.858、0.939,敏感度分别为0.909、0.938,特异度分别为0.870、0.786,均高于临床诊断模型和影像组学模型(
图6)。DCA曲线显示,联合模型在训练集和验证集中具有显著净获益(
图7)。
3 讨 论
CRC的血行转移多见于肝脏,CRCLM成为患者的主要死亡原因
[9]。据统计,70%~90%的肝转移患者由于种种原因,如转移肿瘤的广泛性、患者的一般状况等,不适合接受根治性手术切除,即便手术成功,术后1年内的复发率也高达40%
[10]。因此术前利用MRI无创诊断CRCLM十分重要。
影像组学作为前沿技术,凭借高效信息提取与数据分析能力,显著提升诊断精度,并广泛应用于肿瘤疾病的诊断、治疗、监测及预后评估
[11-13]。Xu等
[14]研究显示,基于多参数MRI影像学特征构建的CRCLM影像组学预测模型(AUC=0.92)显示出比临床预测模型更好的(AUC=0.74)预测效能。Li等
[15]研究发现,多参数MRI影像组学模型可有效预测直肠癌异时性肝转移,该研究通过比较DWI、高分辨率T2WI及结合模型,选定最佳融合模型,结合临床特征后AUC达0.911,DCA与列线图均显示良好临床性能,支持该模型辅助制定个体化监测与治疗策略。但上述研究多采用1种机器学习建模,而本研究构建了3种机器学习模型,并选定预测效果最突出的模型来构建复合模型。
受肿瘤异质性影响,生物信息在不同区域存在差异,多数机器学习研究仅采用二维图像作为ROI,可能引入分析误差
[16-17],本研究通过三维ROI分析克服了传统二维方法的肿瘤异质性局限,使模型能够捕获更全面的生物学特征信息。经LASSO回归筛选的10个最优特征中,GLRLM特征可能反映肿瘤内部结构紊乱程度,与癌细胞增殖导致的组织密度不均相关;GLSZM特征可能对应肿瘤微环境中血管生成或坏死区域的空间分布;GLDM特征可能表征肿瘤细胞浸润导致的密度梯度变化;而一阶统计特征则可能体现整体肿瘤负荷和异质性程度
[18-19]。这些特征从不同角度刻画了肿瘤的生物学特性,其组合可全面反映肿瘤微环境特征。研究结果显示,RF模型在训练集和验证集中均表现出最优预测性能(AUC值最高),该结果与Zhang等
[20]基于SEER数据库的研究结论一致。RF模型的优势在于其集成学习机制:通过构建多个决策树并采用投票机制,显著提升了模型的预测准确性、泛化能力和抗过拟合性能
[21-23]。特别是在处理高维特征时,RF能够有效处理特征间的交互作用和多重共线性问题,这在本研究的多参数特征分析中尤为重要。此外,RF对噪声数据的鲁棒性使其更适合处理医学影像数据中常见的变异
[24-25]。然而,RF模型也存在可解释性相对较弱的局限。为优化模型性能,本研究采取了以下措施:(1) 严格控制影像数据质量,确保采集参数一致;(2) 通过LASSO回归进行特征选择,降低维度;(3) 采用网格搜索进行超参数调优。这些措施有效保障了模型的稳定性和可靠性,使其能够为临床决策提供有力支持。未来研究可结合病理学检查结果,进一步验证这些影像组学特征与肿瘤生物学特性之间的具体关联。
临床实践中,CEA、CA19-9、NLR等指标已被证实与CRC的预后密切相关,可作为预后评估的重要依据
[26-27]。但本研究发现单独采用这些指标进行预测时,其AUC数值偏低,诊断效能有限;而仅基于影像组学特征的模型虽也有一定诊断价值,但AUC值也在0.8以下,诊断效能有限。相比之下,将临床模型与影像组学模型整合构建的联合模型,在训练集(AUC=0.913)与验证集(AUC=0.947)中均展现出更优异的诊断性能,且DCA显示该模型在CRCLM诊断中具有较高的临床净获益,提示联合模型能充分融合临床指标的便捷性与影像组学特征的客观性,显著提升诊断效能。朱琦等
[28]采用多参数3D MRI技术,通过T2WI、DWI和e-THRIVE+序列的影像组学分析,构建了CRCLM预测模型,该研究采用VOI勾画方法,经特征筛选后建立的联合模型预测效能显著优于单一序列模型(训练集AUC=0.919,验证集AUC=0.896)。卞雪莲等
[29]对63例经病理证实的CRCLM患者进行回顾性分析,通过单因素和多因素分析筛选出T2WI信号不均、肝胆期瘤周低信号等MRI特征作为微血管侵犯(MVI)的独立预测指标,采用Gd-EOB-DTPA增强MRI肝胆期影像组学特征,分别构建了LR、线性判别分析和SVM三种预测模型,其中LR模型表现最优,最终建立的临床-影像组学联合列线图模型展现出卓越的预测能力(训练集AUC=0.970,测试集AUC=0.917),校准曲线和DCA分析均证实其良好的临床应用价值。与上述研究相比,本研究不仅延续了联合模型在预测效能上的优势,更在特征维度与模型构建逻辑上有所侧重:一方面,通过三维ROI勾画捕捉肿瘤全容积特征,减少了二维图像分析可能引入的异质性误差,使影像组学特征更贴合肿瘤生物学本质;另一方面,在临床指标与影像组学特征的融合过程中,通过LASSO回归进行特征精选与参数优化,进一步提升了联合模型的稳定性与泛化能力。此外,本研究明确对比了单独临床模型、单独影像组学模型与联合模型的效能差异,更直观地证实了多维度信息整合对突破单一模型局限性的关键作用,为CRCLM的无创诊断提供了更具实践意义的参考范式。但本研究亦存在一定局限性:其一,作为单中心回顾性研究,样本选择可能存在偏倚,结果的外推性需多中心前瞻性研究进一步验证;其二,未纳入更多潜在的临床预后指标(如肿瘤突变负荷、循环肿瘤DNA等),可能限制了联合模型的特征广度;其三,未对不同MRI序列(如肝胆特异期成像)的单独与联合预测价值进行分层分析,有待后续研究深入探讨;其四,本研究仅采用轴位T2WI、DWI及轴位T1WI增强序列获取多模态信息,虽能反映部分肿瘤特征,但在序列多样性上仍有拓展空间。鉴于CRCLM的高度复杂性,动态对比增强(DCE)MRI等序列的补充应用值得关注—DCE-MRI可提供肿瘤微血管灌注及通透性等关键信息,对于深入剖析肿瘤生物学行为、血管生成状态及提升鉴别诊断效能具有重要价值,将其与现有序列联合运用有望进一步增强诊断模型的准确性,这也是本研究后续需完善的方向。
综上所述,RF模型在影像组学模型中表现出较强的诊断性能,其与临床特征结合的联合模型对CRCLM有良好的诊断价值。