原发性骨肿瘤基质可发生异常矿化,其主要特征是羟磷灰石和其他无机盐在基质内的沉积
[1]。最常见的两种矿化类型是骨样和软骨样基质矿化,其中,骨样基质主要由胶原蛋白和羟磷灰石组成,而软骨样基质主要由胶原蛋白和硫酸软骨素组成
[2]。在影像学上,骨样和软骨样基质矿化表现为高密度区域,是鉴别成骨性和成软骨性原发性骨肿瘤的关键标志之一
[3]。典型的骨样基质矿化影像学表现通常为象牙质状、云絮状或放射状等形态的高密度影,与以环状或散在分布为主的软骨样基质矿化容易区分
[4]。既往二者鉴别诊断主要靠放射科医生根据影像学特征进行定性判断
[5, 6]。然而,当瘤骨基质矿化位于骨旁、不规则骨区域、合并病理性骨折,或因病灶分化程度不同而影像学表现不典型时,仅凭肉眼鉴别原发性骨肿瘤骨样和软骨样基质矿化存在困难
[7]。不同医生间的诊断差异性较大,尤其对于低年资放射医生,临床甚至可能出现完全相反的诊断结果。因此,需要开发一种辅助工具支持临床鉴别诊断,提高决策一致性。
CT图像由于具有较高的密度分辨率和较少的组织重叠,被认为是检测微小矿化的最佳影像技术之一
[8]。尤其适用于颌面部及不规则骨附近的矿化病灶鉴别。影像组学是一种将医学图像转换为可挖掘的高维数据的方法,能提供肉眼不可见的定量信息辅助临床诊断
[9, 10]。近年来,深度学习模型
[11],特别是以卷积神经网络(CNN)为代表的模型,在病灶自动分割、分类和疾病预后预测方面都获得了显著成果
[12]。近期也有研究采用影像组学提取特征对软骨类肿瘤进行定量鉴别诊断
[13, 14]。但大部分缺乏外部验证,且多数是未结合临床信息的影像学单模态模型。因此,本研究旨在尝试应用自行优化后的深度学习方法结合临床信息在多中心CT图像上进行定量分析,鉴别原发性骨肿瘤中骨样和软骨样基质矿化,探讨其是否能反应组织病理学特征,实现临床鉴别诊断。
1 资料和方法
1.1 临床资料
回顾性纳入2010年1月~2021年8月,广东省4个医疗中心的276例原发性骨肿瘤患者。这4个医疗中心分别为中心1(南方医科大学附属第三医院)、中心2(广州医科大学附属第一医院)、中心3(南方医科大学珠江医院)和中心4(广东省人民医院),本研究已通过医院伦理委员会审批(伦理批号:2020-伦审-01)。纳入标准:经活检或手术诊断为原发性成骨源性肿瘤(骨肉瘤、骨母细胞瘤和骨样骨瘤)和原发性成软骨源性肿瘤(软骨肉瘤、软骨母细胞瘤和内生软骨瘤);有完整的治疗前CT平扫图像。排除标准:无法区分肿瘤体内骨样或软骨样基质矿化灶边界; CT图像质量差,严重影响感兴趣区观察。排除标准是由两名高年资放射科医师(医生1、医生2,分别从事骨肌影像诊断工作18年、31年)共同商议决定。患者的临床信息从电子病历中提取,包括性别、年龄、病理性骨折和肿瘤位置(股骨、胫骨、腓骨、肱骨、骨盆等)。将中心1、2、3的患者按8∶2的比例随机分为训练集和验证集;中心4的所有患者作为外部测试集。病理结果为诊断金标准。
1.2 CT图像采集和图像预处理
所有CT图像均通过医学图像存储与传输系统(PACS)导出,并保存为标准的医学数字成像和通信(DICOM)格式。所有图像层厚均为5 mm。为避免引入过多混杂因素,由两名高年资放射科医生(医生1、医生2)共同商议确定CT图像上肿瘤最大矿化区域层面,使用ITK-SNAP(软件版本3.6.0)手动勾勒出骨样和软骨样基质矿化灶轮廓作为感兴趣区域(ROI)。所有图像进行重采样为等向性1毫米像素,随后进行位置配准和图像灰度标准化处理。
1.3 深度学习模型的构建及优化
考虑在小规模医学图像数据集上从头开始训练深度网络通常较为困难,我们采用了一种现成的策略来提高训练效率。为了找到最适合矿化分类的基线模型,首先选择4个CNN架构,即VGG11、VGG16、ResNet18和ResNet50。然后对模型进行初始化,接着对除最后一层外的其他所有层均采用ImageNet的预训练权重,使用较小的学习率(学习率=0.001)进行精细化微调。并在外部验证集上比较了4个预训练的CNN模型性能,对比实验结果表明模型ResNet50取得了最好的分类性能,因此被选为基线模型,并命名为深度学习模型R-Net。
随后对深度学习模型R-Net进行优化。基线模型R-Net由5个卷积层和3个全连接(FC)层组成。输入图像的尺寸为224×224×3,经过第一个卷积层Conv-1后,产生的特征图尺寸为64×64×64。这些特征图经过一系列卷积和池化操作后,通过两个全连接层(FC1和FC2)用于调整图像和临床特征的维度便于融合。在网络末端,另一个全连接层(FC3)用于生成二进制预测分数。为了更充分地利用输入图像中的信息,本研究还引入了复合信息聚合模块(Cot block)来替代R-Net中原有的3×3卷积层,构建了两种新类型的模块。新的复合信息聚合模块通过对局部区域进行上下文编码,生成键(key)和查询(query),结合注意力机制计算出注意力矩阵,进而优化卷积操作,使其不仅关注局部特征,且能充分利用图像的全局信息。这种创新的卷积模块被命名为瓶颈模块(Bottleneck)。瓶颈模块通过将自注意力机制的动态上下文信息聚合与卷积的静态上下文信息聚合相结合,从而提高了输入特征的表达能力(Cot block模块信息详见
图1)。为解决梯度消失问题,在R-Net卷积块中部署两种类型的短连接。优化后的R-Net模型命名为深度学习模型S-Net。为了克服过拟合问题,本研究采用随机旋转、水平和垂直翻转技术进行数据增强。深度学习模型是使用Python(3.6版本)和PyTorch (1.7.1版本)实现。
1.4 深度学习融合模型的构建
通过多元逻辑回归分析对筛选后的临床变量进行编码。性别和病理性骨折用二元标签(0或1)表示,年龄用实际数值表示。5个矿化位置包括股骨、胫腓骨、肱骨、骨盆和其他部位,使用独热编码(one-hot encode)将其编码为五维向量。采用拼接操作将临床特征和CT图像进行融合构建深度学习融合模型,基于模型R-Net和S-Net构建了两个新的深度学习融合模型,分别命名为深度学习模型RC-Net和深度学习模型SC-Net。
图1展示了深度学习融合模型构建的整体框架图。
1.5 机器学习模型的构建
为了比较深度学习模型和传统影像组学模型的差异,通过支持向量机(SVM)分类器构建机器学习模型。首先,使用Pyradiomics包(版本3.0.1)提取ROI的影像组学特征。针对每个标准化CT图像的ROI提取了851个特征,其中包括107个原始图像特征和744个小波滤波图像特征。其次,筛选出578个具有组间一致性(ICC)>0.75的稳健影像组学特征用于进一步分析。最后,应用单变量逻辑回归分析来选择前20%的特征,采用包装特征选择方法确定最具预测性的6个特征用于构建机器学习模型。同时也对机器学习模型进行了临床特征拼接操作,构建了机器学习融合模型。
1.6 放射科医生诊断性能
分析深度学习模型、机器学习模型和放射科医生之间的诊断差异。选取一名低年资放射科住院医师(放射医师3,从事骨肌影像诊断工作3年)和另一名高年资放射科医师(放射医生4,从事骨肌影像诊断工作32年),在互盲情况下分别对测试集中的CT图像进行了肿瘤基质矿化类型的分类诊断。放射医生可以参考患者的性别、年龄和病灶位置信息。以病理诊断结果为金标准。最后将放射医生的评估结果将与深度学习模型、机器学习模型进行比较。
1.7 统计学分析
连续变量使用均数±标准差表示,分类变量用频数和百分比表示。采用Pearson卡方检验分析分类变量,使用Kruskal-Wallis秩和检验分析临床连续变量。模型性能的评价指标包括受试者特征曲线(ROC)曲线下面积(AUC),准确度、敏感度、特异度、精确度和F1分数,并计算95%置信区间(95%
CI)。
P<0.05被认为差异具有统计学意义。本研究使用R4.1.2和SPSS26.0进行统计分析。根据既往研究
[15],采用公式:
,估算验证集最小样本量,其中N为最小样本量,SE为95%置信区间宽度对应的标准误,sNBPt为标准净获益,Ø为事件发生率,Pt为截断阈值,。
2 结果
2.1 临床特征
最终共有222名患者纳入本项研究。其中,来自中心1、2、3的患者共179例,来自中心4的患者43例。男性患者共有131例(59%),女性患者有91例(41%)。训练集包含142例患者(男性91例,女性51例),年龄29.56±19.76岁;验证集包含37例患者(男性20例,女性17例),年龄28.03±16.38岁;外部测试集包含43例患者(男性20例,女性23例),年龄31.09±18.16岁,大于外部测试集最小样本量估算(
n=19)。在本研究中,成骨源性肿瘤有123例(55%),成软骨源性肿瘤有99例(45%)。患者年龄和肿瘤基质矿化部位的分类之间存在差异(均
P<0.001),骨样基质矿化组的患者年龄22.10±14.71岁,低于软骨样基质矿化组的患者年龄39.49±17.87岁(
表1、
图2)。
2.2 深度学习模型分类结果
深度学习模型R-Net在内部验证集和外部测试集上AUC分别为0.830(95%
CI:0.700~0.961)和0.768(95%
CI:0.620~0.915)。优化的模型S-Net分类性能获得了一定提高。在内部验证集和外部测试集中其AUC分别为0.774 (95%
CI:0.620-0.927)和0.818(95%
CI:0.694~0.942),准确度为76.7%(95%
CI:62.0%~91.5%),F1分数为0.828(表
2、
3)。结果显示,在外部测试集中,深度学习模型S-Net正确鉴别了所有骨样基质矿化(敏感度100.0%),但在19个软骨样基质矿化样本中有10个被错误分类(特异度47.4%)。我们展示了2例分别位于股骨(骨肉瘤)和肱骨(骨肉瘤)、2例位于肋骨(软骨肉瘤)基质矿化区的模型激活热图,通过与人工勾画的ROI对比发现,绝大部分深度学习模型重点关注区域(红颜色区域)均位于ROI内,仅深度学习模型R-Net的重点关注区域部分位于ROI外(
图3)。在外部测试集中,深度学习融合模型RC-Net和SC-Net的AUC分别为0.890(95%
CI:0.802~0.988)和0.901(95%
CI:0.803~1.00);与融合前的深度学习模型S-Net相比,SC-Net模型的准确度和特异度分别提高了7.0% 和31.5%(
表3)。
2.3 深度学习模型与机器学习模型分类结果比较
外部测试结果显示机器学习模型(ML model)的 AUC为0.761(95% CI:0.619~0.903),低于深度学习模型R-Net及优化后的深度学习模型S-Net;另外,加入临床特征后的机器学习融合模型(ML combined mode)AUC为0.791(95% CI:0.655~0.926),低于融合后的深度学习模型RC-Net和SC-Net,AUC分别为0.890(95% CI:0.802~0.988)和0.901(95% CI:0.803~1.00)。
2.4 深度学习模型与放射科医生分类结果比较
外部测试集结果显示,深度学习融合模型RC-Net的分类性能优于低年资放射医生3,两者的准确度分别为79.1%(64.0%~90.0%)和74.4%(58.8%~86.5%);F1分数分别为0.816和0.776;但略低于高年资放射医生4,其准确度为81.4 %(66.6%~91.6%),F1分数为0.840。经过优化后的深度学习融合模型SC-Net在识别骨样和软骨样基质矿化方面超越了两名放射科医生(放射医生3和放射医生4),其准确度为83.7% (69.3%~93.2%),F1分数为0.857。
图4综合展示了内部验证集和外部测试集上不同模型以及放射医生分类性能的ROC曲线。
3 讨论
本研究通过分析CT图像中肿瘤基质矿化的特征,构建了一个深度迁移学习模型,用于鉴别原发性骨肿瘤中的骨样和软骨样基质矿化。通过加入患者的临床特征,成功构建了深度学习融合模型。分类结果显示,深度学习模型可有效识别原发性骨肿瘤骨样和软骨样基质矿化病灶类型。其中,优化后的深度学习融合模型SC-Net表现最佳,其性能超越了传统机器学习模型和放射科医生的判断。
本研究中,优化后的深度学习模型S-Net的性能优于机器学模型,两者在外部测试集AUC分别为0.818与0.761。这可能是因为机器学习仅基于ROI区域统计筛选图像特征
[16, 17],而深度学习可以通过一系列隐藏层的函数组合,实现从输入图像中自动提取和学习特征
[18, 19],以发现特征间潜在的高级规律,从而获得更准确的分类结果。2015年He等
[20]首次提出的残差卷积深度学习网络(ResNet)是深度学习模型的重要里程碑。其优势在于保持网络深度的同时提高了模型的训练效率和泛化能力,这为本研究所使用的基线模型打下了基础。迁移学习作为提高深度学习训练效率的一种重要策略,近年来在医学图像分析领域得到了广泛应用
[21]。迁移学习通过利用预训练模型中的低层特征(如边缘检测)显著加速了小规模数据集的训练
[22];有学者系统总结了深度学习在医学图像病灶识别、分割和分类中的最新进展,指出迁移学习和数据增强策略是应对小样本数据集的有效手段,特别是在医学影像分析中
[12]。自Vaswani等
[23] 将自注意力机制引入Transformer架构后,该机制逐渐应用于计算机视觉任务中
[24]。本研究在残差网络中加入的复合信息聚合模块(Cot block),正是为了利用上下文编码和注意力机制,进一步增强图像特征提取的能力。这种结合方式与传统的卷积操作相比,能够更加有效地捕捉图像中的全局和局部信息。
本研究结果发现,仅基于CT图像的深度学习模型S-Net,其分类准确度与低年资放射医生相当,但略低于经过骨肌诊断专科培训的高年资放射医生。分析表明,部分少见部位肿瘤的骨样基质矿化在CT图像上的表现与软骨样基质矿化过于相似,这导致模型在仅基于图像进行分析时存在识别困难
[25]。通过融合临床信息与影像特征,深度学习融合模型SC-Net的分类性能显著提高,准确度达到83.7%,超过了高年资放射医生的81.4%。这与临床实践结果一致,在进行原发性骨肿瘤鉴别诊断时,发病年龄、病灶位置等临床信息具有极其重要的参考价值,不容忽视
[1]。
本研究观察到,骨样基质矿化的原发性骨肿瘤患者的平均发病年龄小于软骨样基质矿化患者。这与之前的研究结果一致
[26]。既往研究报道,青少年和年轻人更容易患原发性骨肉瘤、骨样骨瘤和骨母细胞瘤
[27-30];而软骨肉瘤通常发生在45~50岁的人群中
[31],20岁前较少发病。良性内生软骨瘤可能发生在任何年龄
[32]。此外,本研究还观察到两种矿化的位置存在显著差异。这也与既往的研究结果一致
[33, 34]。超过一半骨样基质矿化原发性骨肿瘤发生在股骨、胫骨和腓骨等部位。而软骨样基质矿化的原发性骨肿瘤发病部位多样,例如,内生软骨瘤通常发生在四肢短骨
[35],软骨肉瘤常见于骨盆、股骨和肱骨近端
[36];而软骨母细胞瘤则多发生于肱骨下端或膝关节附近
[37]。骨母细胞瘤患者主要累及骶骨和脊柱后部
[38]。深度学习模型通过加入五维编码的位置信息,达到了与人类专家相当的分类效果。在不典型影像表现和复杂解剖部位的病例分类中,甚至超过了放射科医生,展示出了良好的应用价值。此外,按照年龄和发病部位进行分层研究,是未来值得进一步探索的方向。
本研究还重点分析了矿化分类错误的情况。首先,本研究发现3例分别位于胸腔和下颌的骨肉瘤患者,由于病变位置和基质矿化特征不典型,深度学习模型R-Net和低年资放射医生均诊断错误,而高年资放射医生和深度学习模型SC-Net诊断正确。其次,2例软骨肉瘤患者的CT图像显示肱骨近端呈现较多的斑片状、点状、弧形和环形矿化影,低年资放射医生可能受其复杂的矿化特征影响,错误地将其诊断为骨样基质矿化,而深度学习模型SC-Net和高年资放射医生的分类结果是正确的。最后,4例股骨远端内生软骨瘤患者的病灶内,高密度矿化区边缘骨皮质内出现“扇贝”征,基于这种典型的内生软骨瘤影像特征,放射医生不容易误诊,而未融合临床信息的深度学习模型R-Net和机器学习模型,可能因为矿化灶过于接近骨皮质,误将病灶识别为骨样基质矿化(
图5)。
本研究存在以下局限性。首先,患者数据量偏少,尤其恶性原发性骨肿瘤的发生率相对较低
[39],这可能导致样本选择偏倚。但我们为了克服训练样本不足和信息偏倚可能带来的过拟合问题,研究中采用了数据增强技术(随机旋转和水平翻转)。此外,患者数据来自4个医疗中心,这有助于提高深度学习模型的泛化性
[40-42]。其次,虽然研究纳入的原发性骨肿瘤经过了病理组织证实,但骨样和软骨样基质矿化ROI是由两位有经验的放射科医生共同商议决定的,而没有经过病理组织学证实,可能存在一定的误差。最后,CT图像中的最大层面矿化ROI需要手动选取,而没有进行全自动检测和分割,这增加了时间和人力成本。未来研究可考虑开发原发性骨肿瘤基质矿化的自动检测和分割方法,以提高效率和准确性。
综上所述,本研究成功利用多中心原发性骨肿瘤患者的CT图像和临床信息构建并外部验证了一个深度迁移学习融合模型,实现了对原发性骨肿瘤骨样和软骨样基质矿化的分类。同时,优化后的深度学习融合模型的分类性能优于机器学习模型和放射科医生。该研究为成骨和成软性骨肿瘤的鉴别提供了一种新的、可行的补充方法,有望为临床鉴别诊断提供可靠参考依据。