基于序列缺失的MRI多序列特征填补与融合互助模型:鉴别高低级别胶质瘤

吴垂杏 ,  钟伟雄 ,  谢金城 ,  杨蕊梦 ,  吴元魁 ,  许乙凯 ,  王琳婧 ,  甄鑫

南方医科大学学报 ›› 2024, Vol. 44 ›› Issue (08) : 1561 -1570.

PDF (1416KB)
南方医科大学学报 ›› 2024, Vol. 44 ›› Issue (08) : 1561 -1570. DOI: 10.12122/j.issn.1673-4254.2024.08.15

基于序列缺失的MRI多序列特征填补与融合互助模型:鉴别高低级别胶质瘤

作者信息 +

An MRI multi-sequence feature imputation and fusion mutual-aid model based on sequence deletion for differentiation of high-grade from low-grade glioma

Author information +
文章历史 +
PDF (1449K)

摘要

目的 探讨基于序列缺失的MRI多序列特征填补与融合互助模型应用于高级别胶质瘤(HGG)与低级别胶质瘤(LGG)鉴别的性能表现。 方法 回顾性收集305例胶质瘤患者(189例HGG,116例LGG)的MRI图像,分别勾画出T1加权成像(T1WI)、T2加权成像(T2WI)、T2液体翻转恢复衰减(T2_FLAIR)和T1WI增强图像(CE_T1WI)的感兴趣区(ROI),提取出4个ROI的影像组学特征。利用本研究提出的基于序列缺失的MRI多序列特征填补与融合互助模型对含有缺失数据的特征矩阵进行填补与融合双向学习得到互助模型。采用五折交叉验证方法和准确率(ACC)、平衡准确率(BAcc)、ROC曲线下的面积(AUC)、特异性和灵敏度评价该模型的鉴别能力。所提模型与其他非完整多模态分类模型在鉴别HGG与LGG上进行定量比较,对本文提出的特征填补与融合方法学习得到的潜在特征进行类可分性实验,观察样本在二维平面的分类效果,采用收敛性实验验证该模型的可行性。 结果 模型序列缺失率为10%时,其在鉴别HGG与LGG的ACC、BAcc、AUC、特异性、灵敏度分别为:0.777、0.768、0.826、0.754和0.780,融合的潜在特征在类可分性实验中有优秀表现,该算法可迭代至收敛。缺失率为30%、50%时,分类性能也优于其他方法。 结论 基于序列缺失的MRI多序列特征填补与融合互助模型在HGG和LGG的分类任务中具有优异的性能表现。与其他非完整多模态分类模型相比,该模型在鉴别HGG和LGG的分类性能更优,适用于非完整模态的多模态数据的处理。

Abstract

Objective To evaluate the performance of magnetic resonance imaging (MRI) multi-sequence feature imputation and fusion mutual model based on sequence deletion in differentiating high-grade glioma (HGG) from low-grade glioma (LGG). Methods We retrospectively collected multi-sequence MR images from 305 glioma patients, including 189 HGG patients and 116 LGG patients. The region of interest (ROI) of T1-weighted images (T1WI), T2-weighted images (T2WI), T2 fluid attenuated inversion recovery (T2_FLAIR) and post-contrast enhancement T1WI (CE_T1WI) were delineated to extract the radiomics features. A mutual-aid model of MRI multi-sequence feature imputation and fusion based on sequence deletion was used for imputation and fusion of the feature matrix with missing data. The discriminative ability of the model was evaluated using 5-fold cross-validation method and by assessing the accuracy, balanced accuracy, area under the ROC curve (AUC), specificity, and sensitivity. The proposed model was quantitatively compared with other non-holonomic multimodal classification models for discriminating HGG and LGG. Class separability experiments were performed on the latent features learned by the proposed feature imputation and fusion methods to observe the classification effect of the samples in two-dimensional plane. Convergence experiments were used to verify the feasibility of the model. Results For differentiation of HGG from LGG with a missing rate of 10%, the proposed model achieved accuracy, balanced accuracy, AUC, specificity, and sensitivity of 0.777, 0.768, 0.826, 0.754 and 0.780, respectively. The fused latent features showed excellent performance in the class separability experiment, and the algorithm could be iterated to convergence with superior classification performance over other methods at the missing rates of 30% and 50%. Conclusion The proposed model has excellent performance in classification task of HGG and LGG and outperforms other non-holonomic multimodal classification models, demonstrating its potential for efficient processing of non-holonomic multimodal data.

Graphical abstract

关键词

序列缺失 / 特征填补 / 表征学习 / 高级别胶质瘤 / 低级别胶质瘤

Key words

sequence deletion / feature imputation / representation learning / high-grade glioma / low-grade glioma

引用本文

引用格式 ▾
吴垂杏,钟伟雄,谢金城,杨蕊梦,吴元魁,许乙凯,王琳婧,甄鑫. 基于序列缺失的MRI多序列特征填补与融合互助模型:鉴别高低级别胶质瘤[J]. 南方医科大学学报, 2024, 44(08): 1561-1570 DOI:10.12122/j.issn.1673-4254.2024.08.15

登录浏览全文

4963

注册一个新账户 忘记密码

胶质瘤是中枢神经系统最常见的原发肿瘤, 世界卫生组织将其分为低级别胶质瘤(LGG)和高级别胶质瘤(HGG)12。对HGG和LGG的早期诊断和治疗有利于指导临床治疗方案的制定,提高患者的生存率和生活质量3。为此我们利用影像组学数据为高低级别胶质瘤建立一个稳健的分类模型。
MRI是胶质瘤诊断的主要影像学工具,T1加权成像(T1WI)、T2加权成像(T2WI)、T1对比增强成像(CE_T1WI)和液体翻转恢复衰减序列(T2_FLAIR)等MRI多序列图像4可提取特征形成影像组学多模态数据。MRI多序列特征在鉴别HGG和LGG的应用中显示出巨大潜力,建立相关模型可为诊断、预后预测或临床决策提供信息56。已有研究致力于评估不同序列对胶质瘤分级的贡献7-9。研究表明CE_T1WI可以很好地预测LGG和HGG之间的差异,准确率(ACC)为0.89810。Tian等11使用多模态数据进行等级分类的ACC高达0.968。除了使用支持向量机(SVM)和随机森林(RF)等机器学习方法8912,基于卷积神经网络(CNN)的深度学习方法也被用于鉴别HGG和LGG 1013。然而,不同的医院在扫描MRI图像时会遵循不同的协议和程序,可能缺少任意的序列图像,模态缺失通常会导致上述基于完整模态的多模态分类模型失效1415。因此,本研究开发一个基于序列缺失的MRI多序列特征填补与融合互助模型,用于HGG和LGG的鉴别分类。
有研究16提出将每个模态中的缺失样本用各自模态的均值填充,然后进行独立的k-means聚类。但此类方法没有进行特征降维,多模态高维度数据可能会导致计算和存储成本增加,并导致维度灾难和数据冗余等问题。近年来研究提出矩阵分解17-21、图学习22-24、多核学习25-28与深度学习29-31以实现模态缺失的多模态预测。 Li等32最先提出了基于非负矩阵分解学习潜在子空间,其中对于类似的例子,它们在子空间中是接近的。但是,此研究只针对含有两种模态的情况。Zhang等23在潜在嵌入子空间的样本间构造图,引入自适应加权机制,将具有局部结构的图融合为完全图。Liu等27提出缺失多核学习,在多个角诱导特征空间中,最大化所有基于样本的边缘最小值。Wen等30通过将模态特定深度编码器和图嵌入策略结合到单个框架中,捕获每个视图的高级特征和局部结构。上述方法大多没有对缺失数据进行处理,只采用完整的模态数据,导致丢失大量的样本信息,影响模型对数据的全面理解和分析,使其难以准确地预测或分类新的未见数据,降低模型的泛化能力。
据此,本研究提出一种基于序列缺失的MRI多序列特征填补与融合互助模型,从MRI多序列图像中提取影像组学多模态特征以学习潜在特征,用投影矩阵与反投影矩阵双向优化缺失数据与潜在特征以构建分类模型,实现鉴别HGG和LGG。通过与其他针对模态缺失的方法在多个缺失率下进行比较,验证所提模型性能的有效性。通过类可分性实验验证潜在特征的样本分布更具区分度,最后由收敛曲线验证该模型的可行性。该方法旨在生成一个包含更多模态间模态内信息的潜在矩阵,为胶质瘤高低级分类任务诱导更多的区别表现。

1 资料和方法

1.1 研究对象

本研究为回顾性实验,经广州市第一人民医院机构审查委员会批准(伦理审批号:K-2019-012-01),符合HIPAA标准无需患者知情同意。于2017年1月1日~2020年12月31日收集广州市第一人民医院和南方医科大学南方医院经病理学证实无争议的305例胶质瘤患者资料,由专业医生通过影像学检查与病理学诊断为胶质瘤患者赋予级别标签,分为189例HGG患者和116例LGG患者。HGG组和LGG组患者的性别、年龄差异没有统计学意义(表1)。在分析前,使用ITK-SNAP软件(http://www.itksnap.org)分别在MRI多序列图像上(T1WI、CE_T1WI、T2WI和T2_FLAIR)手动逐层勾画共同的感兴趣区(即ROI),这一工作由两名经验丰富的放射诊断专家(5年、16年放射诊断经验)共同完成。胶质瘤的ROI可分为坏死区、肿瘤实质区、瘤周水肿区,以及包括三者的全肿瘤区,本研究采用全肿瘤区进行下一步数据处理。

1.2 方法

本文提出一种创新的基于序列缺失的MRI多序列特征填补与融合互助模型,可用于HGG与LGG的鉴别诊断。该模型先将从序列缺失的MRI多序列图像中提取影像组学多模态特征,组合为特征拼接矩阵,采用填补矩阵对其填补,同时应用表征学习将填补后的完整特征矩阵融合为潜在特征矩阵,双向优化得到更具判别性的潜在特征,用于训练分类器实现HGG与LGG的鉴别诊断。模型分为3个主要部分:特征提取,特征缺失填补与融合和模型验证与评估(图1)。

1.2.1 特征提取

从上述胶质瘤患者的4个MRI序列图像的ROI中分提取出109个影像组学特征(表2),包括19个一阶特征、15个形状特征和75个纹理特征,其中纹理特征又包括5个邻域灰度差矩阵(NGTDM)、14个灰度依赖矩阵(GLDM)特征、16个灰度尺度共生(GLSZM)矩阵、16个灰度梯度共生(GLRLM)特征、24个灰度共生矩阵(GLCM)特征。由Python 3.7调用开源的影像组学工具包Pyradiomic(https://pyradiomics.readthedocs.io/en)提取前面所述的影像组学特征33

1.2.2 特征缺失填补与融合

本文提出一种新型的多模态特征填补与融合模型,从序列缺失的MRI多序列图像中分别提取出影像组学特征,拼接为非完整的多模态特征,采用特征填补与融合以实现相互优化学习(图1)。首先,我们定义 X=X1;;Xi;;XD,i1,D 是模态个数为 D 的特征拼接矩阵,XiRmi×n  ith 模态的特征矩阵,特征维度为 mi,训练样本量为 n。当缺失比例逐渐变大时,传统的填补方法不能得到很好的分类效果34。因此,为 X 定义一个填补矩阵 QRn×n,以实现 X 中缺失数据的填补(其中缺失数据初始化为0),通过以下的最小化目标函数来学习缺失值:

minQλ1XQTan1-Xan2F2+λ2XQ1-T-XF2+λ3QTa-aF2

其中 Q 的列向量 qj 表示对 X 中每个样本的线性组合,用于填补 X jth 样本,新特征矩 XQ 即线性组合操作以获得完整数据。符号  是哈达玛积,T 是二进制掩码矩阵,其1表示缺失的位置,XQT 是提取缺失数据的填补值,对每个特征分别求和得到 XQTaa  n×1 的全1列向量。n1  m×1 常数列向量,其中 ith 项为 1n1in1i 表示 ith 特征缺失的样本数量。同样,n2  ith 项为 1n2in2i=n-n1i 表示 ith 特征非缺失的样本数量。

||X||F=ijxij2 表示Frobenius范数,在第1项中,XQTan1 是用来估计缺失数据的填补均值,通过范数约束它接近 X 中原始非缺失数据的均值,即 Xan2。第2项是约束在填补操作之后 X 中的非缺失数据保持不变。第3项是用来限制 Q 的取值范围,即约束缺失样本所对应的 qj 之和约等于1。

为了从模态缺失的多模态数据中学习到潜在特征,在对缺失数据填补值的不断优化时,同时进行表征学习进行融合。因此定义了投影矩阵 PRk×m 和反投影矩阵 HRm×k k 为潜在特征的维度。我们提取缺失数据的填补值 XQT ,结合 X 的原始非缺失数据,形成所需的完整特征矩阵 X+XQT,通过 P H 双向映射学习潜在特征矩阵 VRk×n 并反向优化 Q,即 PXQTV  HVX+XQT,公式如下:

minQ,V,P,HV-PX+XQTF2+γ1XQT+X-HVF2+RV,P,H

RV,P,HVP  H 正则化约束,以避免过拟合。l2,1范数正则化器可以在最小化损失函数的同时,使 P 在列中尽可能稀疏,同时选择具有代表性的特征向量。

RV,P,H=γ2VF+γ3P2,1+γ4HF2

此外,为了提高潜在特征的类可分性,使样本与同标签的类均值间距越小,不同类的类均值间距越大,我们引入了类间类内判别分析,如以下定义:

SWV=c=1CvjVcvj-μcvj-μcT
SBV=c=1Cncμc-μμc-μT

其中 SWV 是样本和同标签的类均值的距离, SBV 是不同标签的类均值间的距离,C 是样本标签总类数,nc cth 类的样本数量,vj 是属于 cth 类的 jth 样本向量,μc 是属于 cth 类的样本的均值向量,μ 是所有样本的均值向量。据此,用范数约束类间类内距离,且该约束免受缺失样本的干扰。我们推导出矩阵形式下的运算,可以得到类间类内判别约束项如下:

WBV=γ5V-VM¯V-VM¯TF2-γ6VM-VM¯VM-VM¯TF2=γ5VE-M¯E-M¯TVTF2-γ6VM-M¯M-M¯TVTF2=γ5VL1L1TVTF2-γ6VL2L2TVTF2

其中 L1=E-M¯,L2=M-M¯ERn×n 为单位矩阵,在 M¯Rn×n中,VM¯ 构建类均值矩阵,其 jth 列向量表示 V  jth 样本的类均值。同理 MRn×nVM 构建均值矩阵,其每一个列向量 mj 皆相同,表示除非缺失样本之外的样本总体均值,M¯  M 的具体取值如下:

mij=1/n¯   ,vin¯  0    ,otherwise
m¯ij=1/n¯c   ,vin¯c  0    ,otherwise

其中 n¯ 是所有非缺失样本的数量,n¯c是与 jth 样本同属于 cth 类的非缺失样本的数量。

最后,目标函数可表述为:

minQ,V,P,HF=minQ,V,P,H λ1XQTan1-Xan2F2+λ2XQ1-T-XF2+λ3QTa-aF2+V-PX+XQTF2+γ1XQT+X-HVF2+RV,P,H+WBV

其中 λi,γj,i=1,2,3,j=1,,6 为平衡参数。

求解方程(9)本质上是一个无约束最小化问题,使用梯度下降法对其进行优化。方程(9)中的目标函数对于所有变量 QVP  H 都是可微的。下面将采用梯度下降迭代算法来有效地解决这个问题。

更新 Q :固定 VPH,目标函数(9)简化为:

minQΦQ=minQ λ1XQTan1-Xan2F2+λ2XQ1-T-XF2+λ3QTa-aF2+V-PX+XQTF2+γ1XQT+X-HVF2

计算 ΦQ 对于 Q 的导数:

ΦQ=ΦQQ=2λ1XTXQTan1-Xan2n1aTT+2λ2XTXQ1-T-X1-T+2λ3aaTQ-aT+2XTPTPX+XQT-VT+2γ1XTXQT+X-HVT

设置每次迭代中的学习步长为 αi,i=1,2,3Q 的更新规则为

Q=Q-α1ΦQ

更新 V :固定 QPH,目标函数(9)简化为:

minVΦV=minV V-PX+XQTF2+γ1XQT+X-HVF2+RV+WBV

计算 ΦV 对于 V 的导数:

ΦV=ΦVV=2V-PX+XQT+2γ1HTHV-XQT+X+γ2V/VF+4γ5O1O1TO1L1T-4γ6O2O2TO2L2T

其中 O1=VL1O2=VL2

V 的更新规则为

V=V-α2ΦV

更新 P :固定 QVH,目标函数(9)简化为:

minPΦP=minP V-PX+XQTF2+RP

在更新 jth  pj 时,通过固定 P 的所有其他列来对 P 执行逐列更新。令 F=X+XQT式(16)转化为

minpjV-ijpifi-pjfjF2+γ3pj2

 Z=V-ijpifi式(17)可写成

minpj Z-pjfjF2+γ3pj2
=min pjtrZ-pjfjTZ-pjfj+γ3pj2
=min pjtr-ZTpjfj-fjTpjTZ+fjTpjTpjfj+γ3pj2

计算方程(18)对 pj 的导数并令其为零

dfpjdpj=2pjfjfjT-2ZfjT+γ3pj/pj2=0

因此,P 中每列 pj 的更新规则如下

pj=ZfjTfjfjT+γ3/pj2-1

更新 H :固定 QVP,目标函数(9)简化为:

minHΦH=min Hγ1XQT+X-HVF2+RH

计算 ΦH 对于 H 的导数:

ΦH=ΦHH=2γ1HV-XQT+XVT+2γ4H

H 的更新规则为

H=H-α3ΦH

通过迭代执行上述步骤,可求解目标函数(9)。在算法1中总结了我们提出的方法的伪代码(表3)。

在本研究中,MRI序列个数 D=4,影像组学特征个数 mi=109,潜在特征矩阵的维数 k=30,迭代的学习步长设置为 α1=10-2α2=10-1α3=10-1。用网络搜索法可得到目标函数中各项平衡参数 λi,γj,i=1,2,3,j=1,,6 的取值分别在101~102101~1021~10110-1~110-1~1101~102101~102102~103101~102内。

1.2.3 模型验证与评估

引入混淆矩阵、ACC、平衡准确率(BAcc)、ROC曲线下的面积(AUC)、特异性(SPE)和灵敏度(SEN)等评价指标来评估该模型在HGG和LGG鉴别任务上的性能。混淆矩阵、ACC、BAcc、AUC、SPE和SEN的定义分别如下:

定义1:混淆矩阵用于总结分类模型的预测结果,结果可分为4种情况:实际为正时预测为正;实际为正时预测为负;实际为负时预测为负;实际为负时预测为正。混淆矩阵为各情况下的样本数量(表4)。

定义2:ACC是所有样本的预测结果中被正确预测的样本所占比例。

ACC=TN+TPTN+TP+FN+FP

定义3:SPE是实际为负的样本中被正确预测为负的样本所占比例。

SPE=TNTN+FP

定义4:SEN是实际为正的样本中被正确预测为正的样本所占比例。

SEN=TPTP+FN

定义5:AUC是ROC曲线下面的面积,用于衡量模型的整体性能。ROC曲线是通过调整分界值,计算每个阈值下的SEN和假正率(FPR),将这些点绘制在二维坐标系中得到的曲线。

FPR=1-SPE

定义6:BAcc是SEN和SPE的平均值,用于处理类别数据不平衡的问题。

BAcc=SPE+SEN2

本文通过研究多个分类器对该模型数据集缺失率为10%的分类结果,以确定胶质瘤高低级分类最适配的分类器,在10-3,,104使用网格搜索法寻找模型中的参数λi γi的较优值。使用五折交叉验证,将所提出的方法与几种针对模态缺失的方法在缺失率为10%,30%,50%时依次进行比较,然后对比原始特征与潜在特征的二维散点图,最后讨论该算法迭代结果是否收敛。

1.2.3.1 传统填补方法

(1)最佳单视图(BSV)1619:将每个模态中的缺失样本用各自模态的均值填充,然后进行独立的k-means聚类。(2)Concat19:Concat采用与BSV相同的方法来估算缺失模态,不同之处在于它将所有的模态连接到一个维度更长的矩阵中,然后执行k-means来获得聚类结果。

1.2.3.2 矩阵分解与图形学习的融合方法

(1)双对齐不完全多视图聚类(DAIMC)17:使用非负矩阵分解(NMF)将样本对齐到一个共同的表示中,然后使用l2,1正则化回归模型对齐基矩阵。(2)自适应加权图融合不完全多视图子空间聚类(AWGF)23:在潜在嵌入子空间的样本间构造图,引入自适应加权机制,将具有局部结构的图融合为完全图。(3)不完全多视图聚类(PIC)35:将特征损失转化为相似性损失,利用摄动理论对各模态的拉普拉斯矩阵进行加权,学习一致的拉普拉斯矩阵。

1.2.3.3 其他方法

(1)认知深度不完全多视图聚类网络(CDIMC)30:通过将模态特定深度编码器和图嵌入策略结合到单个框架中,捕获每个视图的高级特征和局部结构。(2)不完全核的多核k-Means(MKKM_IK)28:将填补和聚类整合到一个统一的学习过程中。具体来说,该方法直接在不完整核存在的情况下进行多核聚类,将它们作为辅助变量进行联合优化。

1.2.3.4 可视化样本散点实验的方法

使用 t-分布随机邻居嵌入(t-SNE)36分别将原始特征和融合的潜在特征从高维空间降至二维特征空间。然后分别绘制成二维散点图,比较两者HGG与LGG样本的类可分性。

1.2.3.5 迭代收敛实验

由于我们所提出的方法是依次优化所有变量,为确保目标函数往最小化方向靠近,将迭代次数内所有目标函数值归一化到0,1,画出迭代收敛曲线,以此验证该模型的有效性。

2 结果

2.1 分类器对鉴别分类性能的影响

缺失率为10%时,逻辑回归在ACC、BAcc、AUC和SPE皆优于其他分类器,且在所有分类器中逻辑回归能减小数据集不平衡导致的性能差异(表5)。与其他方法相比,所有的分类器都取得更好的性能(表6)。

2.2 HGG和LGG鉴别分类评估结果

缺失率为10%,30%,50%时,所提出的方法虽然SPE与SEN结果难以实现同时最佳,但是均获得了更高的BAcc,同时ACC结果优于其他模型(表6),本模型在不同缺失率下混淆矩阵的五折累加结果见表7

2.3 类可分性实验结果

缺失率为10%时,潜在特征二维散点图的样本类间区分度与类内聚合度都比原始特征二维散点图高(图2)。

2.4 收敛性实验结果

缺失率为10%时,迭代步骤的目标函数值在前60次迭代中逐渐减小,然后在100次迭代内逐渐收敛(图3)。

3 讨论

考虑到序列缺失导致的以往诸多基于完整模态的多模态分类模型失效,本研究提出一种基于序列缺失的MRI多序列特征填补与融合互助模型,鉴别分类HGG和LGG,适用于任何缺失模态和任意数量的模态,为制定个体化的治疗方案提供支持,提高治疗效果并减少治疗风险。

首先,实验结果显示在缺失率为10%,30%,50%时,本研究所提出的方法皆优于其他对比方法。BSV和Concat两种传统填补方法没有进行特征降维,直接使用多模态数据很可能会导致维度灾难。有研究表明,高维数据中存在大量冗余性的信息,会使算法的计算复杂度和过拟合风险增加,同时会降低算法的性能3738。而我们所提出的多模态特征填补与融合互助模型可以将来自不同模态的信息通过表征学习进行有效融合,从而实现降维。本研究在利用更加全面和丰富的多模态信息的同时,解决了多模态数据带来的维度灾难,更好地捕获数据的本质特征,有助于提高分类模型的准确性和鲁棒性。DAIMC、AWGF和PIC此3种融合方法采用非负矩阵分解,单向分解以获得降维矩阵,在迭代过程中难以确保此矩阵与原矩阵之间的相关性,且该类方法选择在使用模型之前用传统的填补方法处理缺失数据或者直接只使用原有数据投入模型。而我们的方法在表征学习过程中采用投影与反投影双向学习,可以进一步保证原始空间传递到潜在空间的信息真实性,同时优化缺失数据的填补值。本研究能够更好地挖掘模态内与模态间的相互信息,同时学习原始空间的类可分性,将特征与标签之间的关系通过投影矩阵保留到潜在空间中。CDIMC和MKKM_IK则没有对缺失数据进行填补处理,丢失了缺失数据的潜在信息。有研究表明,直接使用含有缺失的数据可能导致结果偏差以及结论错误,降低模型性能3940。而我们的方法考虑到现实中多模态数据的非完整性,没有只选择具备完整模态的样本,利用填补矩阵与表征学习互学习对缺失模态进行填补,在保留大量样本信息同时又提高缺失数据填补值的准确度。

其次,随着缺失率的增加,所有竞争方法的分类性能普遍下降。所提出的方法缺失率从10%增加到30%30%增加到50%,ACC性能分别下降2.3%2.0%,可见缺失比例增加时,性能下降速率变慢,表明所提出的方法能较好处理高缺失占比的数据。此外,尽管我们的方法在SPE和SEN的分类性能结果在大多数情况下并不总是最好的,但BAcc结果总是优于所有比较方法。这表明我们提出的算法具有稳定的分类性能,并有效地解决了由于数据集不平衡而导致的敏感性和特异性的显著差异。这一结论在数据集缺失率为10%,30%,50%时保持一致。比较结果强调了我们提出的方法在解决HGG和LGG分类任务数据不平衡方面的有效性。这可能是由于我们的方法在投影到潜在空间时充分捕获了不同模态之间的潜在关系和互补性41-43,同时也更好地利用了样本之间的类别信息。

最后,通过观察原始特征与潜在特征的二维样本散点图,潜在特征的类间区分度与类内聚合度都得到明显提高。使用t-SNE可视化样本,可以有效地保持高维空间中数据点之间的局部结构,使相似的数据点在降维后仍然会保持相近的位置关系,有助于保留数据的局部聚类结构36。可见相比于原始特征,我们的方法所引入的类间类内判别约束项可促使潜在特征在鉴别胶质瘤高低级别任务时更具可分性。此外,观察所提方法的收敛性曲线,可以看到所提方法能够朝着优化的方向收敛,曲线收敛速度较快,最快收敛速率可达到0.145,在60次左右达到收敛,验证了该方法的有效性。

本研究提出的基于序列缺失的MRI多序列特征填补与融合互助模型,其主要优势在于构建创新的非完整多模态分类模型,将特征填补与表征学习集成到一个统一的框架,适用于任意缺失模态和任意模态数量的复杂情形。我们首先将原始的缺失数据根据样本间关系进行填补,投影到潜在空间得到潜在特征,将原始数据的结构信息映射到潜在空间中,最后利用类间类内判别项保留原始空间的类可分性,双向映射进一步优化缺失数据与潜在特征。此方法不仅保留完整的数据,利用原有信息恢复缺失信息,进一步优化潜在特征的准确性。而且采用多模态数据能挖掘到模态内与模态间的特征相关性与互补性,可能为潜在特征保留更多提高类可分性的潜在信息。据此,由序列缺失的MRI多序列特征融合得到的潜在矩阵,在鉴别HGG和LGG时表现出更好的分类性能。

尽管本研究所提出的方法比其他对比方法在鉴别HGG与LGG任务上性能表现更好,但仍存在一些局限性,需要日后逐渐完善。(1)我们仅在单一数据集上进行了评估,这限制了对模型泛化能力和实用性的认识。未来研究需要更广泛地考虑不同的数据集和更多其他模态(如CT或其他组学模态等),以全面验证模型的可行性和适用性。我们计划扩大样本量,涵盖更多的模态场景,并采用多源数据进行综合分析,这将有助于提高模型的鲁棒性和可靠性,为临床实践提供更有效的支持。(2)所提方法基于线性投影,这一特点能够直观地理解模型的工作原理和结果解释。然而,线性投影在处理复杂非线性关系时可能存在局限性,相关研究已经证明神经网络等非线性模型在众多领域中的有效性44-46。因此,在今后的工作中探索非线性拓展方法,以提高模型对复杂数据结构的适应能力,同时保持模型的可解释性。

综上所述,本研究提出一种基于序列缺失的MRI多序列特征填补与融合互助模型用于HGG与LGG的鉴别分类。该模型将特征填补与表征学习融合集成到一个统一的框架中,同时融入类间类内判别信息,实现双向优化缺失数据与潜在特征,且该方法适用于任意缺失模态和任意模态数量。与其他非完整多模态分类模型相比,该模型在鉴别HGG和LGG上具有更优的分类性能。实验结果证明了该方法在非完整模态的融合多模态数据进行医学预测建模方面的有效性。

参考文献

[1]

Tan AC, Ashley DM, López GY, et al. Management of glioblastoma: state of the art and future directions[J]. CA Cancer J Clin, 2020, 70(4): 299-312.

[2]

Louis DN, Perry A, Wesseling P, et al. The 2021 WHO Classification of Tumors of the Central Nervous System: a summary[J]. Neuro Oncol, 2021, 23(8): 1231-51.

[3]

Banerjee S, Mitra S, Masulli F, et al. Deep radiomics for brain tumor detection and classification from multi-sequence MRI[J]. arXiv preprint arXiv: 1903. 09240, 2019.

[4]

Ellingson BM, Bendszus M, Boxerman J, et al. Consensus recommendations for a standardized Brain Tumor Imaging Protocol in clinical trials[J]. Neuro Oncol, 2015, 17(9): 1188-98.

[5]

Gillies RJ, Kinahan PE, Hricak H. Radiomics: images are more than pictures, they are data[J]. Radiology, 2016, 278(2): 563-77.

[6]

Lambin P, Leijenaar RTH, Deist TM, et al. Radiomics: the bridge between medical imaging and personalized medicine[J]. Nat Rev Clin Oncol, 2017, 14(12): 749-62.

[7]

Gore S, Chougule T, Jagtap J, et al. A review of radiomics and deep predictive modeling in glioma characterization[J]. Acad Radiol, 2021, 28(11): 1599-621.

[8]

Wang XY, Wang DQ, Yao ZG, et al. Machine learning models for multiparametric glioma grading with quantitative result interpretations[J]. Front Neurosci, 2018, 12: 1046.

[9]

Bisdas S, Shen HC, Thust S, et al. Texture analysis- and support vector machine-assisted diffusional kurtosis imaging may allow in vivo gliomas grading and IDH-mutation status prediction: a preliminary study[J]. Sci Rep, 2018, 8(1): 6108-17.

[10]

Cho HH, Park H. Classification of low-grade and high-grade glioma using multi-modal image radiomics features[J]. Annu Int Conf IEEE Eng Med Biol Soc, 2017, 2017: 3081-4.

[11]

Tian Q, Yan LF, Zhang X, et al. Radiomics strategy for glioma grading using texture features from multiparametric MRI[J]. J Magn Reson Imaging, 2018, 48(6): 1518-28.

[12]

Sudre CH, Panovska-Griffiths J, Sanverdi E, et al. Machine learning assisted DSC-MRI radiomics as a tool for glioma classification by grade and mutation status[J]. BMC Med Inform Decis Mak, 2020, 20(1): 149-62.

[13]

Yang Y, Yan LF, Zhang X, et al. Glioma grading on conventional MR images: a deep learning study with transfer learning[J]. Front Neurosci, 2018, 12: 804.

[14]

Xu C, Tao D, Xu C. A Survey on Multi-view Learning[J]. Computer Science, 2013,4. arXiv.org.

[15]

Wen J, Zhang Z, Fei L, et al. A Survey on Incomplete Multiview Clustering[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2023, 53(2): 1136-49.

[16]

Ng A, Jordan MI, Weiss Y. On Spectral Clustering: analysis and an algorithm[J]. Adv Neural Inf Process Syst, 2001, 14.

[17]

Hu ML, Chen SC. Doubly aligned incomplete multi-view clustering[C]//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. July 13-19, 2018. Stockholm, Sweden. California: International Joint Conferences on Artificial Intelligence Organization, 2018: 2262-8.

[18]

Shao WX, He LF, Lu CT, et al. Online multi-view clustering with incomplete views[C]//2016 IEEE International Conference on Big Data (Big Data). December 5-8, 2016. Washington DC, USA. IEEE, 2016: 1012-7.

[19]

Zhao H, Liu H, Fu Y. Incomplete multi-modal visual data grouping[C]// Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence. New York: AAAI Press, 2016: 2392-8.

[20]

Wen J, Zhang Z, Xu Y, et al. Incomplete multi-view clustering via graph regularized matrix factorization[C]//European Conference on Computer Vision. Cham: Springer, 2019: 593-608.

[21]

Hu M, Chen S. One-pass incomplete multi-view clustering[C]//. Proceedings of the Thirty-Third AAAI Conference on Artificial Intelligence and Thirty-First Innovative Applications of Artificial Intelligence Conference and Ninth AAAI Symposium on Educational Advances in Artificial Intelligence. Honolulu, Hawaii, USA: AAAI Press, 2019: 471.

[22]

Wen J, Zhang Z, Zhang Z, et al. Unified tensor framework for incomplete multi-view clustering and missing-view inferring[J]. Proc AAAI Conf Artif Intell, 2021, 35(11): 10273-81.

[23]

Zhang P, Wang SW, Hu JT, et al. Adaptive weighted graph fusion incomplete multi-view subspace clustering[J]. Sensors, 2020, 20(20): 5755.

[24]

Wen J, Xu Y, Liu H. Incomplete multiview spectral clustering with adaptive graph learning[J]. IEEE Trans Cybern, 2020, 50(4): 1418-29.

[25]

Liu XW, Zhu XZ, Li MM, et al. Efficient and effective incomplete multi-view clustering[C]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.

[26]

Liu XW, Li MM, Tang C, et al. Efficient and effective regularized incomplete multi-view clustering[J]. IEEE Trans Pattern Anal Mach Intell, 2021, 43(8): 2634-46.

[27]

Liu XW, Wang L, Yin JP, et al. Absent multiple kernel learning[J]. Proc AAAI Conf Artif Intell, 2015, 29(1): 2807-13.

[28]

Liu XW, Zhu XZ, Li MM, et al. Multiple kernel k-means with incomplete kernels[J]. IEEE Trans Pattern Anal Mach Intell, 2020, 42(5): 1191-204.

[29]

Xu C, Guan ZY, Zhao W, et al. Adversarial incomplete multi-view clustering[C]. IEEE Transactions on Cybernetics, 2019.

[30]

Wen J, Zhang Z, Xu Y, et al. CDIMC-net: cognitive deep incomplete multi-view clustering network[C]. Proceedings of the Twenty-Ninth International Conference on International Joint Conferences on Artificial Intelligence. 2021: 3230-6.

[31]

Wang QQ, Ding ZM, Tao ZQ, et al. Partial multi-view clustering via consistent GAN[C]//2018 IEEE International Conference on Data Mining (ICDM). November 17-20, 2018. Singapore. IEEE, 2018: 1290-5.

[32]

Li SY, Jiang Y, Zhou ZH. Partial multi-view clustering[J]. Proc AAAI Conf Artif Intell, 2014, 28(1): 1968-74.

[33]

van Griethuysen JJM, Fedorov A, Parmar C, et al. Computational radiomics system to decode the radiographic phenotype[J]. Cancer Res, 2017, 77(21): e104-7.

[34]

Elmannai H, El-Rashidy N, Mashal I, et al. Polycystic ovary syndrome detection machine learning model based on optimized feature selection and explainable artificial intelligence[J]. Diagnostics, 2023, 13(8): 1506.

[35]

Wang H, Zong LL, Liu B, et al. Spectral perturbation meets incomplete multi-view data[J/OL]. Computer Science, 2019

[36]

Maaten L, Hinton GE. Visualizing Data using t-SNE[J]. J Mach Learn Res, 2008, 9(11).

[37]

Venkatesh B, Anuradha J. A review of feature selection and its methods[J]. Cybern Inf Technol, 2019, 19(1): 3-26.

[38]

Zebari R, Abdulazeez A, Zeebaree D, et al. A comprehensive review of dimensionality reduction techniques for feature selection and feature extraction[J]. J Appl Sci Technol Trends, 2020, 1(1): 56-70.

[39]

Blackwell M, Honaker J, King G. A unified approach to measurement error and missing data: overview and applications[J]. Sociol Meth Res, 2017, 46(3): 303-41.

[40]

Emmanuel T, Maupong T, Mpoeleng D, et al. A survey on missing data in machine learning[J]. J Big Data, 2021, 8(1): 140.

[41]

Zhou T, Liu MX, Thung KH, et al. Latent representation learning for Alzheimer's disease diagnosis with incomplete multi-modality neuroimaging and genetic data[J]. IEEE Trans Med Imaging, 2019, 38(10): 2411-22.

[42]

Kopf A, Claassen M. Latent representation learning in biology and translational medicine[J]. Patterns, 2021, 2(3): 100198.

[43]

Ning ZY, Xiao Q, Feng QJ, et al. Relation-induced multi-modal shared representation learning for Alzheimer's disease diagnosis[J]. IEEE Trans Med Imaging, 2021, 40(6): 1632-45.

[44]

Shen DG, Wu GR, Suk HI. Deep learning in medical image analysis[J]. Annu Rev Biomed Eng, 2017, 19: 221-48.

[45]

Esteva A, Kuprel B, Novoa RA, et al. Dermatologist-level classification of skin cancer with deep neural networks[J]. Nature, 2017, 542(7639): 115-8.

[46]

Wang GT, Li WQ, Zuluaga MA, et al. Interactive medical image segmentation using deep learning with image-specific fine tuning[J]. IEEE Trans Med Imaging, 2018, 37(7): 1562-73.

基金资助

RIGHTS & PERMISSIONS

版权所有©《南方医科大学学报》编辑部2021

AI Summary AI Mindmap
PDF (1416KB)

201

访问

0

被引

详细

导航
相关文章

AI思维导图

/