结直肠癌是目前世界上最常见的恶性肿瘤之一,其发病率在全球癌症中居第三位,是癌症相关死亡的第二大原因。预计到2040年结直肠癌新发病例将增至320万,死亡人数将增至160万
[1]。微卫星不稳定性(microsatellite instability,MSI)是一种因DNA错配修复(mismatch repair,MMR)功能缺失引发的基因组不稳定性突变表型,在所有结直肠癌中约有15%的检出率
[2]。研究表明,MSI阳性肿瘤虽然可能对传统5-氟尿嘧啶(5-fluorouracil,5-FU)为基础的化疗方案产生耐药性,但在特定临床分期(如局部进展期)可能表现出良好的预后
[3-4]。微卫星高度不稳定性(microsatellite instability-high,MSI-H)结直肠癌的临床病理学特征及生物学行为与微卫星低度不稳定性(microsatellite instability-low,MSI-L)、微卫星稳定性(microsatellite stable,MSS)结直肠癌存在明显差异
[5-6]。MSI-H表型作为重要分子标志物,与免疫检查点抑制剂(如抗PD-1单抗)的疗效显著相关
[7-8]。在结直肠癌的诊断和临床治疗中,MSI是评估患者预后及选择治疗方案的关键分子标志。目前,人工智能(artificial intelligence,AI)在医学领域中的应用正迅速扩大,已大量应用于疾病诊断、预后评估、患者管理等多个领域。随着数字病理学的发展和计算机视觉算法的不断进步,肿瘤病理学已成为AI的重要研究领域:在前列腺癌活检分级的研究中,接受AI辅助的病理学家的表现优于未受辅助的病理学家,也优于独立的AI系统
[9];在肝细胞癌研究中,AI通过分析组织学切片特征,在术前无创预测微血管浸润、组织学分级等关键病理学指标方面展现出优越性能,为临床决策提供了重要支持
[10];在宫颈癌细胞学筛查中,AI的运用有效精简了筛选流程,增强了对高风险病例的识别能力
[11];AI在结直肠癌病理诊断中的运用则更为广泛和成熟,例如它为提高腺瘤检出率、切除更多的癌前息肉提供了有效的帮助,再如其深度学习模型在MSI预测中的表现在某些情况下优于传统的病理检测方法
[12-13]。本综述旨在总结探讨AI在结直肠癌MSI检测中模型构建的研究进展,分析其优势与局限。
1 结直肠癌MSI概述、临床病理特点及其检测方法
1.1 结直肠癌MSI概述
微卫星是分布在人类基因组编码区和非编码区的1~4个碱基对的短串联重复DNA序列
[14]。由于特殊的重复结构,微卫星易出现复制错误,且通常由MMR系统修复。MMR是一个高度保守的细胞过程,其核心功能依赖于MutS和MutL蛋白复合物的协同作用。其中,MutS复合物由MSH2与MSH6(识别单碱基错配)或MSH3(识别插入/缺失错配)组成;而MutL复合物则以MLH1与PMS2的异源二聚体为主,负责招募下游修复蛋白(如EXO1)完成错配切除及DNA重新合成
[15-16]。MMR系统损伤会导致微卫星的复制错误无法有效修正,细胞在分裂期间不能调整微卫星序列长度,即MSI
[17]。在医学分型中,通常将微卫星状态分为MSI-H、MSI-L和MSS
[18]。
1.2 结直肠癌MSI的临床病理特点
大约12%~15%的结直肠癌具有以MSI为特征的DNA错配修复缺陷。在病理学上,肿瘤腺腔中无坏死细胞的局灶性黏液性肿瘤、出芽边缘和癌细胞中存在黏液分化等特征均与MSI相关
[19-20]。MSI的结直肠癌更为显著的病理特征是肿瘤伴随大量淋巴细胞浸润,部分肿瘤出现类Crohn反应
[21]。
早期MSI结直肠癌的临床发展较为缓慢,相较于MSS结直肠癌,其预后更为乐观。Roth等
[22]认为Ⅱ、Ⅲ期MSI结直肠癌患者在接受根治性手术治疗后的预后显著好于MSS结直肠癌患者。Guastadisegni等
[23]发现MSI结直肠癌患者的总生存期和无病生存期均优于MSS结直肠癌患者。该机制与以下因素有关:(1) MSI免疫微环境更活跃:MSI-H肿瘤因高频突变产生更多新抗原,促进免疫细胞浸润,可增强对免疫检查点抑制剂(如PD-1抗体)的敏感性;(2) 化疗敏感性差异:Ⅱ/Ⅲ期MSI-H患者对传统化疗(如5-FU)的响应率较低,但其自身预后较好,可能无需强化辅助化疗
[24]。
在治疗方面,MSI状态已经成为指导结直肠癌治疗策略选择的关键因素,MSI结直肠癌对以5-FU化疗为基础的化疗表现出耐药性,因此不建议对Ⅱ期MSI结直肠癌进行辅助化疗
[25]。在MSI环境下,突变产生的新肽序列(即新抗原)可以通过肿瘤细胞的人类白细胞抗原(human leukocyte antigen,HLA)分子呈递给细胞毒性T细胞,从而为肿瘤免疫反应创造更多机会
[26]。在MSI且T细胞频繁浸润的微环境中,细胞表面抑制性检查点分子的高表达会削弱免疫反应,这些分子包括程序性死亡受体1(programmed cell death protein 1,PD-1)及其配体PD-L1,以及细胞毒性T淋巴细胞相关抗原4(cytotoxic T-lymphocyte-associated antigen 4,CTLA-4);因此,通过阻断PD-1/PD-L1和CD 80/CTLA-4相互作用可增加T细胞的增殖和活化
[27]。帕博利珠单抗是一种抗PD-1单克隆抗体,在实验中被证明可以作为一线治疗药物并显著延长MSI-H型结直肠癌患者的无进展生存期,同时显著降低3级以上治疗相关不良事件发生率
[28]。因此,检测MSI状态可以预估免疫检查点抑制剂对临床患者的使用价值,为患者提供更合理的治疗方案
[29-30]。结直肠癌MSI的临床病理特点如
图1所示。MSI状态不仅是免疫治疗疗效的预测标志物,还直接影响治疗策略分层:MSI-H/dMMR型患者因其高肿瘤突变负荷(tumor mutation burden,TMB)和免疫原性微环境,被推荐优先接受PD-1抑制剂单药或联合方案,而MSS型患者则需探索联合靶向治疗或化疗的增效策略
[31]。
1.3 结直肠癌MSI检测的传统方法及其优缺点
目前检测MSI主要采用以下三种方法。第一种是免疫组织化学法(immunohistochemistry,IHC),通过IHC检测MLH1、PMS2、MSH2和MSH6的蛋白表达缺失情况,判断错配修复功能是否完整
[32]。IHC的优点是方便快捷,可以在常规石蜡切片上直接操作,且可以直接观察不同MMR蛋白的表达,判断是否缺失和缺失类型,但IHC不能检测出基因沉默导致的MMR功能缺失,且结果由于微卫星序列多态性可能导致假阳性或假阴性
[33]。第二种是PCR,通过扩增标准化微卫星位点并比较肿瘤与正常组织之间DNA扩增片段长度差异,判断微卫星的稳定性
[34]。与IHC相比,PCR的检验流程更复杂,对实验仪器和实验样本的要求也更高,但也具有较高的准确率
[35-36]。第三种是二代测序技术(next-generation sequencing,NGS),基于全外显子组或靶向Panel的测序技术,可同时分析数百至数千个微卫星位点,并通过生物信息学算法量化MSI状态。它基于高通量检测和标准化分析,可有效避免判读误差,尤其在组织样本不足和样本肿瘤纯度低的情况下表现优异
[37],但成本较高、数据分析复杂
[38-39]。临床上,仅使用单一方法检测可能会导致结果误差,而同时使用多种方法又会大大增加成本
[40]。此外,由于免疫治疗只对MSI-H结直肠癌患者有效,且是一种相对昂贵的治疗方案,因此精确识别相应患者对诊断和治疗非常重要
[41]。尽管传统MSI检测方法已经建立标准化流程,但其对组织样本和数据的依赖性、高昂成本和技术复杂性仍然限制了其在临床上的普及和动态检测能力。因此,寻找一种性价比更高、更可靠的结直肠癌MSI检测方法非常必要。
2 AI模型在结直肠癌MSI检测中的应用
AI作为一种新兴的计算机科学技术,通过分析大量数据来识别数据模式和趋势,构建模型进而可以完成复杂的任务。AI在结直肠癌MSI检测中的起步较晚,但近年来发展迅速,为评估结直肠癌的MSI状态提供了新的途径
[42]。机器学习和深度学习是AI在医疗领域广泛使用的两种方法
[43]。机器学习是AI的核心技术之一,通过开发算法使计算机可以从大量医学数据中进行学习,再训练数据集建立数据模型从而使计算机能够做出预测或决策,进而辅助医生完成诊断、治疗方案制定和药物研发等任务
[44],例如在有关研究中,研究人员通过使用机器学习对TCGA-COAD和GSE39582数据集进行筛选验证,确定了EIF5A基因为MSI-H的特征基因
[45]。
2.1 AI结合医学影像建模在结直肠MSI检测中的应用
计算机技术发掘医学成像信息并将其转化为定量数据,机器学习算法可根据这些数据构建预测模型,这种AI结合医学影像的技术模式被称为放射组学
[46]。近年来,已有不少学者使用放射组学方法研究结直肠癌MSI的状态。其原理是:CT、MRI或PET/CT等医学影像中的高通量定量特征(如纹理、形状、强度等)可能反映肿瘤的异质性、血管生成等生物学特性,与MSI相关的微环境变化存在潜在关联,因此可通过放射组学技术提取肿瘤的定量特征,并结合机器学习算法构建预测模型
[47]。在放射组学研究中,数据选用多聚焦于未经抗肿瘤治疗的结直肠癌患者;作为关键环节的影像采集则多选择门静脉期CT或T2加权MRI序列,肿瘤图像边界划定分割以手动为主,仅少数采用半自动方法
[48-51]。数据特征提取常使用Pyradiomics等标准化软件,提取特征包含形态学、纹理及小波变换等多维度信息,使用逻辑回归和随机森林作为分类器,在模型构建中将输入数据映射到相应类别的模型或算法中
[52-54]。在评估MSI神经网络模型的性能时,混淆矩阵和受试者工作特征曲线(receiver operating characteristic curve,ROC)是常用的评价工具,通常使用pROC软件包绘制ROC曲线并计算曲线下面积(area under the curve,AUC),AUC的取值范围为0~1,其值越接近1,表明模型的判别性能越佳,预测结果越准确
[53]。在四项使用CT和MRI数据含独立外部验证队列的研究
[51,54-56]中,其AUC中位数为0.83(范围0.78~0.96),敏感度及特异度中位数分别为0.76和0.87,显示出较高的鉴别能力。相较于CT和MRI,PET/CT通过整合功能代谢信息,如标准摄取值(standard uptake value,SUV)与解剖影像,可更敏感地反映肿瘤微环境异质性。例如Kim等
[57]构建的模型评分在外部测试集中AUC达0.867,提示功能影像特征有可能更精准地捕捉MSI相关的分子表型,基于PET/CT的放射组学模型在MSI预测中具有独特的优势。总体来看,AI结合医学影像的研究不断拓展MSI检测的边界,其主要应用方向如
图2所示。
2.2 AI结合基因组学数据、病理图像建模在结直肠MSI检测中的应用
深度学习是机器学习的一个特定子领域,可以通过采用多层人工神经网络直接处理原始数据、学习数据的高级特征,具备更强的学习能力和适应性
[58-59]。在肿瘤智能医学领域的深度学习中,卷积神经网络作为计算机视觉应用领域的核心方法,可处理多通道数组形式的数据(例如包括红、绿、蓝通道的RGB彩色图像)
[60]。相比于机器学习,深度学习模型在处理多维度数据时表现出更强的能力,能够有效提取复杂的内在关系,在图像识别、基因表达分析以及疾病预后的特定任务中展现出了显著优势
[61-62]。
AI结合基因组学数据和病理图像建模预测结直肠癌MSI的原理:通过多模态数据融合与深度学习技术,从分子和形态学层面(如细胞核形态、组织结构、淋巴细胞浸润、黏液分泌变化等)挖掘MSI相关的特征模式。
癌症基因组学图谱(The Cancer Genome Atlas,TCGA)是一个为癌症患者提供匹配的基因组学数据的大规模计划,为结直肠癌的分子分型研究提供了重要的数据基础,但其数据有限
[63]。因此,研究者常常整合TCGA与病理图像等其他数据用以训练AI模型,通过构建跨机构训练集提升模型泛化能力。早在2019年,相关研究证明深度学习可以直接从HE染色切片的全切片图像(whole slide image,WSI)预测胃肠道癌的MSI状态,研究人员训练了Resnet 18神经网络,用于对患者队列中的MSI和MSS多克隆抗体情况进行分类。模型可自动检测肿瘤组织并将其细分为多个边长为256 µm的图像块,同时施加随机水平/垂直翻转(
P=0.5)、颜色抖动(亮度±10%、对比度±15%、色相±0.1)及高斯噪声(σ=0.01)以模拟染色差异和技术误差,最终证实深度学习模型可以较为稳定地预测MSI特征
[64]。
2020年,Kather与Echle的研究团队
[65-66]分别开发了基于HE染色切片的深度学习模型,用于结直肠癌的MSI/dMMR状态预测。后者纳入8 836例样本(含TCGA、DACHS等队列),通过颜色归一化技术优化模型,在外部验证队列(YCR-BCIP-RESECT,
n=771)中AUC达0.96,增强了模型的跨队列泛化能力,实现了临床级高精度预测;前者则首次采用轻量级Shufflenet架构,在TCGA-CRC队列中实现AUC 0.89,为其在临床环境中的快速部署提供了可行性。后者还通过外部验证(DACHS队列,AUC=0.77)揭示了肿瘤异质性对预测结果的影响。两项研究均证实深度学习模型可直接从HE染色图像推断MSI状态而无需额外分子检测,显著降低成本与时间,为资源受限地区提供了可扩展的筛查工具。此外,Cao等
[67]建立了一种基于多实例学习和迁移学习的病理组学深度学习模型EPLA,该模型利用TCGA和亚洲结直肠癌队列的数据进行跨种族验证,有效预测了MSI状态,表明其适用于不同种族和数据异质性场景。同年Yamashita等
[68]开发的基于深度学习的MSI Net模型在斯坦福队列中实现了MSI状态的高精度预测(AUC=0.931),并首次直接对比模型和病理学家的表现,结果显示该模型在分析HE染色WSI的MSI预测方面优于经验丰富的病理学家。
2021年,Bilal等
[69]开发了一种新型的用于预测结直肠癌中关键分子通路和突变状态的弱监督深度学习模型,该模型通过迭代抽取和排序采样策略优化数据标签,在TCGA数据队列中实现了MSI的高精度预测(AUC=0.86),其开发的卷积神经网络模型HoVer-Net还在MSI预测之外的多分子通路预测(如高密度突变、染色体不稳定性、
BRAF/TP53突变)中表现出通用性,为临床提供了可扩展的分子特征筛查方案。Schirris等
[70]开发的一种名为DeepSMILE的深度学习模型通过结合自监督学习和异质性感知多实例学习,可无需像素级注释,直接从HE染色全玻片图像预测MSI状态,且仅需40%的标注数据即可达到Kather等
[64]传统方法的性能。多实例学习技术还被用于Jiang等
[71]开发的深度学习模型,该研究提出了双阈值策略,通过结合多实例学习和域适应技术进一步减少IHC检测的患者数量,在HE染色切片预测结直肠癌MMR状态的测试中敏感度为90%,特异度为95%,并首次验证了深度学习模型在活检样本中的有效性,为临床MSI检测提供了新的低成本、快周期途径。Bustos等
[72]提出了Xdeep-MSI框架,该深度学习架构结合多实例学习和对抗训练,通过消除数据中的批次效应(如项目来源、患者斑点、热-力分析玻璃等)提升模型泛化能力,在TCGA队列中AUC达0.87,在亚洲队列中AUC为0.90。该研究还首次系统性分析了数据中的批次效应,结合多尺度分析整合特征,实现了从组织微阵列预测MSI状态。
2023年,Saillard等
[73]开发了结合自监督学习和多实例学习的MSIntuit模型,该模型在两种不同扫描仪上的预测结果一致性表现优异,Cohen's Kappa系数达到0.82,显示出良好的泛化能力,可以作为有效的预筛选工具减轻临床的MSI检测负担。Guo等
[74]研究开发了一种结合分层视觉和自监督学习的深度学习模型系统Swin Transformer,通过高效特征提取从HE全玻片图像直接预测MSI状态,在内部验证中AUC为0.91,外部验证中AUC为0.90。该模型具有出色的泛化能力,减少了对训练数据的需求,在仅250例训练样本时仍表现优异,AUC达0.83,使未来在临床工作中基于小规模数据集的AI应用成为可能。Gerwert等
[75]提出了可使用未染色石蜡切片对MSI状态进行诊断的病理学方法,这种模型使用红外成像结合AI,利用量子级联激光、红外显微镜和卷积神经网络观察未染色石蜡切片,在验证队列中AUC达0.90且无需染色或分子检测。相较于其他HE图像深度学习模型,该技术保留组织的完整性,避免了染色干扰,支持后续多组学分析。Wagner等
[76]开发了一种基于Transformer框架的技术方法,用于从病理切片中进行“端到端”分子标志物预测,该模型通过动态选择高信息量区域(如黏液和淋巴细胞浸润区)提升敏感度,仅利用切除标本进行训练就在活检组织上达到了临床级别的性能表现,具有重要的临床转化潜力。
2024年,Lo等
[77]提出了一种基于Vision Transformer(ViT)架构的深度学习模型,首次将ViT应用于结肠镜图像的MSI预测,利用自注意力机制解决卷积神经网络在全局特征提取上的局限性,该模型通过自注意力机制有效捕捉肿瘤病灶(如溃疡面、不规则边缘)与周围组织(如淋巴细胞浸润、基质反应)的全局关联,实现肿瘤宏观形态与微环境特征的整合分析,尤其适用于无法获取病理切片的场景。Gustav等
[78]基于ViT架构开发了一个通过HE染色病理切片图像预测MSI状态的深度学习模型,该模型具有对MSI和POLE突变的双重检测能力,可有效减少临床上分级检测策略的成本。El Nahhas等
[79]提出的STAMP框架通过结合自监督特征提取和Transformer架构,自动学习与MSI相关的形态学特征(如黏液分泌、印戒细胞),实现从图像到分子标志物的直接映射,在TCGA队列中,STAMP对MSI的预测准确率达84%(AUC=0.84),且外部验证队列保持稳定性能(AUC=0.85),预测的MSI状态与基因组高突变负荷显著相关(
P<0.000 1),提示该模型或可作为基因组检测的替代预筛选工具。Nowak等
[80]研究开发了AIMMeR,这是一种基于单细胞水平的深度学习模型,通过免疫组化染色图像检测MSI,该模型结合细胞核形态学分类与二氨基联苯胺(diaminobenzidine,DAB)信号分析,实现单个细胞MMR蛋白表达的精准量化,该方法在SCOT和QUASAR2队列中表现优异(AUC=0.98),对常见的 MLH1-PMS2 联合缺失的阳性预测值达99%。Zamanitajeddin等
[81]提出了一种结合社会网络分析与深度学习的方法模型,通过社会网络分析量化细胞间关系(如节点度、聚类系数),捕捉肿瘤微环境的空间分布特征,揭示了MSI-H肿瘤的高节点度和聚类系数与高免疫原性一致,为免疫治疗响应提供形态学依据。
2.3 影像组学与病理组学AI模型在MSI预测中的差异分析
影像组学与病理组学AI模型在MSI预测中呈现出显著差异。两种技术的核心差异在于数据维度:影像组学侧重宏观解剖信息,病理组学则聚焦分子水平的形态学变化,这种差异直接影响了它们的临床适用场景、技术实现路径和预测精度。影像组学通过CT、MRI等医学影像提取定量特征,其优势在于非侵入性、高效性和全身覆盖能力,尤其适用于术前评估、动态监测、随访监测、无创筛查和大规模人群的初步评估。然而,其局限性在于空间分辨率不足,难以捕捉微观分子特征。由于影像数据依赖宏观解剖结构,对早期病变或组织学亚型的判别灵敏度较低,且易受扫描参数、患者运动等因素干扰。
而病理组学则依赖高分辨率组织切片,通过卷积神经网络捕捉细胞核形态、组织结构等微观特征,其预测精度可达AUC 0.9以上。相比之下,病理组学虽需侵入性活检,但能直接解析细胞形态与基因组关联,为精准治疗提供更高置信度的依据。病理组学在MSI预测中的核心优势在于其微观解析能力与高精度特征提取。通过高分辨率WSI分析,AI模型可识别细胞核异型性、肿瘤浸润淋巴细胞分布等细微特征,其预测性能显著优于影像组学,且能直接关联基因组变异。这种精度源于病理数据的分子级信息密度。然而,病理组学的局限性同样突出:依赖侵入性活检,无法实现动态监测;且样本制备过程易受染色质量、切片厚度等技术因素干扰,导致数据一致性挑战。此外,算法训练需大规模标注数据集,而罕见病例(如MSI-H亚型)的样本稀缺可能影响模型泛化。
两种技术的互补性在临床实践中体现为分层诊断流程的构建。影像组学可作为初筛工具,通过无创检测快速锁定高风险患者,而病理组学则用于确诊阶段的精准分型。例如,结直肠癌患者可先通过CT放射组学评估全身肿瘤负荷,再对疑似MSI-H病例进行活检验证,从而优化资源分配。目前已报道的主要AI模型及其性能指标见
表1。
3 AI模型在结直肠癌MSI检测中的局限性
AI模型在结直肠癌MSI检测中的研究已展现出显著的临床应用潜力,但其技术瓶颈与伦理风险仍需系统剖析。在技术层面,数据质量与模型泛化性仍是核心挑战
[82],例如Zamanitajeddin等
[81]在TCGA队列中发现,不同医疗中心的HE染色强度差异导致细胞核分割模型性能下降,需额外进行染色归一化算法处理。同时,适合进行深度学习开发的医学组织学图像数据并不丰富,公开可用的匹配组织学和遗传学的数据相对缺乏
[83],用于训练AI模型的数据中仍可能存在固有偏差
[84-85]。在模型开发方面,可解释性不足与过拟合问题仍然存在,小样本场景下的模型偏差难以避免,模型算法的可解释性不足也是制约医学界接受AI模型的主要障碍
[86]。
在伦理上,AI医疗数据往往包含敏感的个人信息,如何在使用AI进行训练分析的同时保证数据隐私与安全至关重要
[87]。为此,已有研究将生成模型用于合成组织学图像。由于此类合成图像与组织学图像不同,不与特定患者直接关联,其公开共享在法律和道德层面面临的挑战相对较少
[88-90]。此外,如果模型预测失误导致治疗过程出错,相关医疗责任的承担也是值得争议的话题
[91]。
4 小结与展望
结直肠癌MSI检测AI模型未来发展的方向可能包括:(1) 开发多模态融合模型,整合影像的宏观信息与病理的微观特征;(2) 通过学习解决小样本问题,增强模型在罕见亚型中的泛化能力;(3) 建立动态监测体系,利用影像组学实现治疗响应的实时评估,同时以病理组学为金标准校准结果。这种协同模式将推动肿瘤诊疗从静态分型向动态精准化演进。
广西壮族自治区自然科学基金资助项目(2023GXNSFAA026242)