胃肠间质瘤(gastrointestinal stromal tumors,GIST)是胃肠道最常见的间叶源性肿瘤,通常起源于Cajal间质细胞
[1-2]。研究显示,约20%~30%的GIST表现为恶性,其他则具有不确定的侵袭性,可能导致转移
[3]。GIST的生物学行为复杂多样,其风险分层与预后评估密切相关,是指导临床治疗和随访策略的重要依据。根据美国国立卫生研究院(National Institutes of Health,NIH)改良标准
[4],高风险GIST患者易发生转移和复发,预后较差,而低风险患者则具有较好的长期生存率。通过精准风险分层,临床上能更好地评估患者预后,并制定个体化治疗和随访计划,从而改善患者预后并降低复发风险。因此,早期识别和管理恶性GIST对预后至关重要。
超声在GIST诊断及表征中发挥着重要作用,但对一些孤立的腹部肿块,仍需进一步活检或手术确认,这增加了出血和肿瘤扩散的风险
[5]。此外,超声图像质量受操作者经验和设备性能影响,缺乏统一的标准验证流程。随着早期诊断和精准风险分层的需求增加,影像组学和人工智能(artificial intelligence,AI)逐渐应用于GIST的无创诊断与管理中。
影像组学和AI可通过医学影像提取定量数据,识别肿瘤微观特征并预测潜在生物学行为。如何将超声与两者结合,提高GIST诊断精度并评估患者预后,是当前研究热点之一。
1 超声在GIST诊断中的应用
腹部超声(ultrasound,US)是GIST影像学检查的常用方法,能清晰显示胃肠壁各层及病变,动态评估肿瘤的形态、大小、位置、边界、回声均匀性及血流信号,对GIST的检测及定位具有重要价值
[6-9]。
相较于US,内镜超声(endoscopic ultrasound,EUS)能提供更精确的信息。根据欧洲胃肠内窥镜学会(European Society of Gastrointestinal Endoscopy,ESGE)和美国国立综合癌症网络(National Comprehensive Cancer Network,NCCN)指南,EUS是评估GIST恶性风险的最佳成像工具
[10-11],可清晰显示GIST的起始层(通常为固有肌层)、异质性及血管分布等细节,为评估肿瘤组织学特征及恶性潜力提供了重要依据
[12-13]。
近年来,超声引导下穿刺技术在术前评估中应用广泛,不仅提高了GIST的诊断率,还能提供有丝分裂指数辅助风险分层
[4,10-12]。然而,这些技术对设备和操作者要求较高,且存在取样误差,可能导致假阴性率升高或引发出血等并发症,进而影响风险分层的准确性。因此,临床亟需一种无创的术前预测方法,以评估GIST的恶性潜力
[7]。已有研究表明,影像组学和AI技术能提高诊断准确性,并无创预测肿瘤恶性程度以评估患者的预后
[14-17]。
2 超声影像组学在GIST中的应用
影像组学分析是一个多步骤的过程
[18-20],包括成像采集、病灶分割、特征提取、特征选择、模型构建及结果验证与临床解释等各个环节。首先,通过选择感兴趣区域(region of interest,ROI)进行图像分割,提取与肿瘤相关的纹理和形状特征。然后,采用统计方法计算纹理特征(如灰度共生矩阵),并根据空间关系进行分类。随后,筛选与诊断和预后最相关的特征,结合患者临床信息构建模型,并通过机器学习训练和优化模型,最终通过内部或外部验证来评估模型的可靠性和泛化能力。
已有研究表明(
表1),影像组学模型在GIST诊断、鉴别诊断、风险分层和预后评估等方面表现优异
[21-31]。
2.1 诊断与鉴别诊断
超声影像组学在GIST诊断方面被证明具有巨大潜力。已发表多项关于超声影像组学对GIST的诊断与鉴别诊断的研究。
Zhang XD等
[21]开发并验证了一个基于EUS图像的影像组学模型,用于区分GISTs、平滑肌瘤和神经鞘瘤。该研究从肿瘤及固有肌层(muscularis propria,MP)区域提取了多种影像组学特征。研究通过计算ROC曲线下面积(area under curve,AUC)来评估模型的分类性能,AUC值越高,表示模型的预测准确性越好。其结果显示,结合肿瘤及MP特征的影像组学模型的诊断性能优于传统模型,AUC高达0.960,证明该模型能够有效帮助EUS专家进行无创诊断。
不同于Zhang XD等
[21]利用支持向量机(upport vector machine,SVM)构建的超声影像组学模型,王卓然等
[22]使用Pyradiomics软件提取肿瘤影像组学特征,并采用主成分分析(principal component analysis,PCA)、极致梯度提升树(extreme gradient boosting,XGBoost)、随机森林等算法进行特征筛选和建模。经过统计学验证,得到结论:基于PCA+XGBoost算法的模型对GIST和非GIST的预测效能最好,AUC高达0.874,但该研究只纳入了肿瘤灰阶超声的二维图像特征,缺少对其他特征的纳入与分析,这对模型的准确性有一定影响。
为了增强影像组学模型的临床实用性。Hu B等
[23]将术前临床检查和血液学检查纳入超声影像组学模型的构建中,通过XGBoost算法开发并验证了一个GIST临床诊断模型,分析大多数患者在手术切除前完成的临床数据,该模型鉴别GIST与非GIST的精度达0.79。
2.2 预后评估
GIST表现出不同程度的恶性潜力,较高的风险分类与较差的预后结果相关。根据NIH改良标准,肿瘤大小、有丝分裂计数和肿瘤破裂是评估复发和转移风险的关键因素
[4]。虽然活检可获取有丝分裂计数以评估预后,但可能引发出血和肿瘤扩散
[5,24],且部分GIST因位置特殊难以进行内窥镜活检。因此,开发无创风险预测模型对GIST的早期识别和预后评估至关重要。
超声影像组学模型通过提取图像中的微观特征,分析肿瘤纹理,可评估肿瘤的血管化、纤维化和细胞密度等生物学特性,并准确预测高危GIST,优于传统的视觉评估
[25-31]。
Zhuo M等
[27]率先构建了基于US图像的影像组学风险分层模型(
图1)。该模型结合了多变量logistic回归、特征降维和影像组学评分(radiomics score,Rad-Score),并通过影像组学列线图评估了模型的校准性、判别能力和临床实用性。结果表明,肿瘤大小和Rad-Score与GIST的恶性潜力显著相关,且列线图在验证队列中的AUC高达0.90,优于传统的临床超声列线图。然而,该研究并未比较特征提取和降维算法,因此选择的特征可能并非最优,这可能会影响模型的预测性能。
类似的,杨凡等
[28]基于胃充盈超声造影的影像组学构建了GIST危险度分级的预测模型。该研究利用XGBoost算法,对模型在NIH危险度分级预测中的效果进行了比较。结果表明,联合模型优于单独的临床超声模型及超声影像组学模型,AUC高达0.87。因此,联合模型可有效辅助术前预测GIST危险度并辅助临床决策。
除外,Cai MY等
[29]开发并验证了一种基于EUS图像的自动优化放射组学特征影像组学建模系统(automated optical recognition and measurement system,AORMS),如
图2,该系统在区分小型GIST与非GIST(如平滑肌瘤、异位胰腺等)中表现出良好的诊断和风险分层能力。然而,由于主要针对<2 cm的黏膜下肿瘤(submucosal tumor,SMT),部分EUS特征被忽略,可能影响其性能。尽管AORMS前景广阔,但仍需进一步优化,且无法取代活检作为诊断的主要参考标准。
Li XY等
[30]开发了基于超声影像组学特征的计算机辅助诊断(computer-aided diagnosis,CAD)系统,模型在独立测试集中的AUC为0.839,表现出良好的分类性能,但研究使用的视频图像丢失了大量信息,影响了模型性能。与此不同,Zhuo M等
[31]提出了1种超声结合影像组学和5种机器学习算法的新方法(
图3),可用于评估GIST的预后。研究发现,将EUS高危特征(如表面溃疡、囊性间隙等)与影像组学相结合,逻辑回归(logistic regression,LR)和SVM模型预测复发风险时优于影像科医生的主观评估(准确率分别为85.2%和69.1%)。
准确评估复发风险在临床实践中至关重要。高估风险可能导致不必要的创伤和经济负担,低估风险则可能导致治疗不足。超声影像组学可定量化影像特征以评估肿瘤侵袭性,支持风险分层,进而提供个性化治疗和更精确的预后评估。
2.3 局限性与未来方向
超声影像组学模型在诊断和分类中表现良好,但图像采集和处理的主观性(如ROI手动勾画)会增加ROI的差异性,降低可重复性,进而影响模型精度
[21-22]。由于实验设计的局限性,一些模型设计仍需优化,如仅使用SVM分类器
[22]进行分类预测,未与其他分类器比较;或未对特征提取和降维算法进行比较
[27],影响了模型的预测性能。
因此,未来应加强影像组学软件的优化和标准化,改进成像采集、特征提取和模型分析流程,以提高超声影像组学在诊断和分类中的适用性。
3 AI与超声的协同作用与未来前景
近年来,AI技术显著提升了影像数据分析的精度和效率,尤其在恶性肿瘤检测中展现了广阔应用前景
[32-34]。目前已有多种AI模型以辅助超声诊断GIST和评估预后(
表2)。
3.1 EUS-AI模型
AI辅助的EUS诊断工具,尤其是在SMTs的诊断中,已被引入以克服传统诊断方法的局限性
[38-40]。Zhang BL
[49]及Ye XH
[50]等的荟萃分析表明,AI辅助的EUS对GIST的诊断具有较高的敏感性和特异性,未来可能成为区分SMTs的有力工具。
Yang X等
[35]开发了一种EUS-AI诊断模型,通过前瞻性研究和外部验证来区分GIST与平滑肌瘤。该AI诊断系统在内部队列中的AUC值达0.986,但在外部队列中仅为0.642,显示出较差的外部验证表现,表明其在异质性较大的临床环境应用中存在挑战。在同类研究中,Minoda Y等
[36]证明了其EUS-AI系统对SELs≥20 mm有良好诊断率;但对SELs<20 mm的准确性,尤其是特异性较差。而Lu Y等
[37]提出的基于ResNeSt50的EUS-AI模型在特异性上却有显著优势,且在测试集和外部验证集均优于人类。
3.2 深度学习模型
受大脑结构和功能的启发,深度学习,尤其是卷积神经网络(convolutional neural network,CNN)模型
[38-40],可以分析实时图像特征并减轻操作人员的认知压力来诊断和评估GIST预后。
在最新研究里,Zhuo M等
[43]开发了首个基于US图像预测GIST风险的深度学习(deep learning,DL)模型,能自动分割图像并进行风险分类,AUC高达92.5%。此外,Liu C等
[44]构建的结合超声特异性预训练和元认知机制的DL风险分层模型,AUC为0.881,显著优于其他2种DL方法,展示了AI在GIST预后评估中的潜力。Seven G等
[38]的基于CNN的AI模型能高效预测GIST恶性潜力,且在风险组划分中,敏感性、特异性和准确性均超过99%。
DL 模型不仅在GIST风险分类以评估预后方面表现优异,在诊断中也展现了巨大潜力,Kim YH等
[39]的CNN-CAD诊断系统在区分GIST、平滑肌瘤和神经鞘瘤时,敏感性、特异性和准确性分别为83.0%、75.5%和79.2%,优于人类组。Liu J等
[40]的研究显示,CNN模型在EUS图像分析中的敏感性和特异性显著高于内镜医师,且读取时间更短,随着肿瘤体积增大,诊断准确性也随之提高。
与Kim YH等
[39]和Minoda Y等
[36]基于EUS图像进行二元分类的DL模型不同。Zhu C等
[41]开发的多模态多路径AI系统,结合了白光内镜与EUS图像,并采用了基于注意力机制的ResNest50和递归神经网络。在GIST诊断的准确率达86.60%,然而,该研究不同病灶的样本量分布不均可能影响模型性能。此外,Dong ZX等
[42]开发的CNN用于区分GIST和平滑肌瘤,相比Kim YH等
[39]的研究,涉及患者更多,表现更好,敏感性、特异性和准确性分别为90.3%、93.0%和91.7%。
3.3 机器学习模型
除了DL模型,Lü C等
[45]首次使用基于灰度梯度共生矩阵纹理特征的SVM分类器,成功区分GIST和良性胃间充质肿瘤,准确率、灵敏度、特异性分别为81.67%、81.36%、81.97%,明显优于内窥镜医师的平均诊断水平。同样的,在Iwai T等
[46]的研究中,他们构建的EUS-CAD系统在GIST的鉴别诊断中取得了高达0.865的AUC。此外,该研究还验证了EUS-CAD系统在GIST风险分类中的可行性。与以往的二分类研究不同,Hirai K等
[47]开发的EUS-CAD诊断系统结合临床和内窥镜特征,对5类肿瘤分类(GIST、平滑肌瘤、神经鞘瘤、神经内分泌肿瘤和异位胰腺)的准确性达到了86.1%。此外,已有研究
[48]证明基于增强谐波内窥镜超声的AI可评估造影剂增强均匀性和瘤间血管形态,以90.6%的准确率区分GIST和平滑肌瘤。
3.4 局限性与未来方向
尽管AI在GIST诊断及风险分类中表现优异,但开发过程中可能因机器或人为因素出现偏差。不同研究团队的AI模型训练方法各具优缺点。如CNN-CAD系统
[38-39]无需单独提取EUS特征,智能便捷但依赖大量图像数据,限制了应用潜力;而基于纹理特征的SVM建模
[45]则更适用于小样本数据集,其纹理特征提取与分类过程也更为透明易懂。
因此,未来应注重多样化训练数据、构建专用数据集、采用标准化验证方法,并加强AI模型性能的实时监控与更新
[51],以提高研究结果的外部有效性。
4 结语
现有研究表明,超声联合AI与影像组学能显著提升GIST早期诊断和预后评估效能,但普遍存在单中心、小样本及回顾性设计等局限,易导致选择偏倚与统计误差,影响结果的可靠性。例如,不同研究样本量差距较大(从数十例到数百例不等),小样本研究(如n<100)可能高估模型性能或遗漏关键特征,限制外推普适性。此外,超声影像组学受限于图像采集主观性与特征选择复杂性,AI则面临高标注成本与模型不透明等挑战。
未来应开展更多大规模前瞻性多中心研究,整合不同地域、设备及人群特征,优化图像采集流程(如统一探头频率、图像切面等),以提高样本多样性与结论稳健性。
长远来看,超声与AI及影像组学的结合有望成为高效的临床辅助工具,既可辅助基层医师快速识别可疑病灶,减少漏诊;又能为经验丰富的临床团队提供风险分层等深度信息,推动诊疗模式从“经验驱动”向“数据驱动”转变。