针对缺失实验室指标多约束表征学习的卵巢癌鉴别方法

卢梓涵 ,  黄方俊 ,  蔡光瑶 ,  刘继红 ,  甄鑫

南方医科大学学报 ›› 2025, Vol. 45 ›› Issue (01) : 170 -178.

PDF (1044KB)
南方医科大学学报 ›› 2025, Vol. 45 ›› Issue (01) : 170 -178. DOI: 10.12122/j.issn.1673-4254.2025.01.20

针对缺失实验室指标多约束表征学习的卵巢癌鉴别方法

作者信息 +

A multi-constraint representation learning model for identification of ovarian cancer with missing laboratory indicators

Author information +
文章历史 +
PDF (1068K)

摘要

目的 探索基于多约束表征学习分类模型在面对缺失实验室指标的情况下鉴别卵巢癌的鉴别能力和应用价值。 方法 收集了2344例患者(393例卵巢癌和1951例对照)的缺失实验室指标表格型数据,使用本研究提出的基于判别学习和互信息以及特征投影重要性得分一致性及缺失位置估算的表征学习分类模型对缺失的卵巢癌实验室指标特征进行投影到潜在空间得到分类模型。对提出的约束项进行消融实验,通过准确率、ROC曲线下面积(AUC)、敏感度、特异性说明约束项的可行性和有效项。采用交叉验证方法和准确率、AUC、敏感度、特异性评价该分类模型的鉴别性能。将本研究与其他用于缺失数据的插补方法进行对缺失数据处理后鉴别分类能力的对比。 结果 消融实验结果显示约束项之间有很好的相容性,每项约束项都有较好的鲁棒性。交叉验证结果显示,本研究提出的基于多约束表征学习分类模型在面对缺失实验室指标的情况下对卵巢癌的鉴别中的AUC、准确率、敏感度、特异性分别为0.915、0.888、0.774、0.910,其中AUC和敏感度优于其它缺失数据插补方法。 结论 基于多约束表征学习模型在缺失实验室指标鉴别卵巢癌的应用中具有优秀的鉴别能力和较高的应用价值。与其他缺失插补方法相比,本研究提出的多约束表征学习模型在针对卵巢癌缺失实验室指标的鉴别分类任务中具有较大的优势。

Abstract

Objective To evaluate the performance of a multi-constraint representation learning classification model for identifying ovarian cancer with missing laboratory indicators. Methods Tabular data with missing laboratory indicators were collected from 393 patients with ovarian cancer and 1951 control patients. The missing ovarian cancer laboratory indicator features were projected to the latent space to obtain a classification model using the representational learning classification model based on discriminative learning and mutual information coupled with feature projection significance score consistency and missing location estimation. The proposed constraint term was ablated experimentally to assess the feasibility and validity of the constraint term by accuracy, area under the ROC curve (AUC), sensitivity, and specificity. Cross-validation methods and accuracy, AUC, sensitivity and specificity were also used to evaluate the discriminative performance of this classification model in comparison with other interpolation methods for processing of the missing data. Results The results of the ablation experiments showed good compatibility among the constraints, and each constraint had good robustness. The cross-validation experiment showed that for identification of ovarian cancer with missing laboratory indicators, the AUC, accuracy, sensitivity and specificity of the proposed multi-constraints representation-based learning classification model was 0.915, 0.888, 0.774, and 0.910, respectively, and its AUC and sensitivity were superior to those of other interpolation methods. Conclusion The proposed model has excellent discriminatory ability with better performance than other missing data interpolation methods for identification of ovarian cancer with missing laboratory indicators.

Graphical abstract

关键词

缺失数据 / 多约束表征学习模型 / 判别分析 / 特征投影重要性得分一致性 / 缺失位置估算 / 互信息 / 卵巢癌

Key words

missing data / shared representation learning / discriminant analysis / feature importance score consistency / missing position estimation / mutual information / ovarian cancer

引用本文

引用格式 ▾
卢梓涵,黄方俊,蔡光瑶,刘继红,甄鑫. 针对缺失实验室指标多约束表征学习的卵巢癌鉴别方法[J]. 南方医科大学学报, 2025, 45(01): 170-178 DOI:10.12122/j.issn.1673-4254.2025.01.20

登录浏览全文

4963

注册一个新账户 忘记密码

卵巢癌是中国女性最常见的妇科恶性肿瘤之一,也是致死率最高的妇科癌症1。卵巢癌的5年生存率与确诊时的分期密切相关2。我国只有不足48%的患者能在早期得到诊断,因此整体5年生存率仅约40%3。由于卵巢癌早期症状缺乏特异性,症状也会存在于其他非卵巢癌患者当中,导致早期诊断困难。卵巢癌的早期诊断难度大、晚期死亡率高,给医学界带来了严峻的挑战4。卵巢癌的诊断可以结合多种生物标志物,目前最常用且有效的标志物是糖类抗原125和人附睾蛋白4。然而,糖类抗原125的水平在月经、妊娠、子宫内膜异位症及腹膜炎等情况下也可能升高5。为提高诊断的特异性,糖类抗原125常与人附睾蛋白4联合使用。虽然这些标志物在特异性上表现优异,但其敏感性较低6。因此,尽管它们在卵巢癌诊断中的临床作用已得到广泛研究,但由于缺乏大规模验证和较高的诊断成本,它们在实际临床中的应用仍然受到限制。
常规的健康检查包括常规血液、凝血和尿液化验等实验室指标,其中血清白蛋白浓度和淋巴细胞浓度等指标已被证实与卵巢癌的诊断和预后相关。一些指标(如免疫细胞)也被证明在肿瘤细胞的生成与发展过程中直接或间接发挥作用,这进一步凸显了实验室指标在卵巢癌鉴别诊断中的潜力7。此外,这些指标易于获取且费用较低,具有较好的成本效益。然而,受样本质量、患者意愿、数据传输和存储等因素影响,实验室指标数据常存在较高的缺失率。部分指标的缺失率甚至高达70%,这对机器学习模型的训练带来了显著挑战8,简单删除有缺失数据样本会显著减少数据量,导致信息丢失,严重影响卵巢癌的分类鉴别效果。因此,目前普遍采用数据插补方法来处理缺失值9,再进行分类鉴别。
当前的插补算法主要分为3类:基于统计学相关方法、基于机器学习的方法以及基于深度学习的方法。基于统计学的插补方法,如填最大最小值、均值等,通常基于单一特征的观测数据进行填补。然而,当特征缺失率较高时,这些方法会失去鲁棒性,导致插补结果偏离真实值,从而影响后续分析的准确性。为应对高缺失率问题,有研究提出了更先进的插补方法,如基于快速交替最小二乘软阈值的矩阵补全的插补方法(SOFT)10,它可在一定程度上适用于高缺失率的数据集,但其基于低秩假设,难以捕捉数据中的非线性关系;另一种经典的插补方法是多重插补(MICE)11,通过生成多个数据集的多个补全版本,估计缺失数据的不确定性。但其插补结果受限于预测模型假设,且处理大规模数据集时间较长。贝叶斯主成分分析(BPCA)是一种基于主成分分析(PCA)的多重估算方法,适用于高维数据的插补,能够保留主要变化,但其效果过于依赖主成分数和先验分布,对数据结构要求较高12
除了传统插补方法,还有基于机器学习和深度学习的插补方法。目前常用的有最近邻插补(KNN)13、随机森林插补(MISSFOREST)14、极端梯度提升模型插补(XGBOOST)15等,其利用机器学习模型,通过其它特征对有缺失值的特征进行预测,适用于各种复杂的数据分布;然而,机器学习相关方法在高缺失率数据中特征预测效果较差,尤其在信息不完整时。近年来,由于深度学习的适应力强,预测能力强的优点,深度学习方法被引入到缺失插补中,如生成对抗网络(GAIN)16算法使用生成对抗网络生成接近真实分布的插补数据。基于自动编码器的插补算法,通过压缩和解码学习数据的潜在表示,生成完整数据,适用于高维数据,也有改进版REMASK17,除了缺失值(即自然掩码)之外,通过重建随机掩码的值优化模型。此外,还有基于最佳运输方式18的插补算法利用最佳传输距离量化分布差异以估算缺失数据。基于深度学习的插补方法凭借神经网络的特性,能够捕捉缺失数据中复杂的潜在模式和非线性关系,在高缺失率数据集中表现优异。然而,这类方法也存在一些局限性,如计算成本高、超参数调优复杂、对数据质量要求较高等。尤其是医疗领域常面临数据量不足的问题,加之深度学习模型的“黑箱”特性,可解释性较差,限制了其在实际医疗应用中的使用。而常规检测的实验室指标特征多,部分特征缺失比例高,特征之间有较强关联性。基于此,本研究针对实验室指标的特点开发了一种多约束的表征学习特征降维分类模型,该模型不会对缺失数据集进行直接插补,而是将缺失的数据集进行表征学习投影到潜在空间当中,融合成一份新的完整数据,然后利用新的完整数据进行分类鉴别。该模型可以得到更有利分类鉴别的融合特征,并且在患者缺失部分检查的情况下能够有效鉴别卵巢癌,成为利用常规检测进行鉴别卵巢癌的有效工具。

1 资料和方法

1.1 研究对象

本研究获得了中山大学肿瘤防治中心伦理委员会的批准(伦理批号:B2022-729-01),并遵循赫尔辛基宣言;所有病例数据都是匿名的,机构审查委员会豁免书面知情同意的要求。该数据集收集2012年1月1日~2021年4月4日来自中山大学肿瘤防治中心妇科中卵巢癌患者392例以及对照组1951例,卵巢癌患者中包括了343例上皮型卵巢癌以及49例非上皮型卵巢癌数据集中特征包括了血检、尿检、以及各种生物标记物等常规的实验室检测指标。

1.2 研究方法

本研究创新性地提出了一种应用于缺失实验室指标的多约束表征学习分类模型,该模型基于表征学习并且利用了特征重要性一致性和缺失位置估算,使投影更加合理化,并且使用判别分析中的类内散度和类间散度以及共享特征的互信息项,使得投影到潜在空间数据更加具有分类鉴别能力,具体表征学习流程(图1)。

首先定义一个矩阵XRm×n,其代表患者数据矩阵, m 代表患者数量,n代表特征数目。为了让数据集的表征学习过程不被数据大小所影响,首先对数据集每一项特征进行了归一化的处理。为使学习数据X的潜在表示以获得完整数据,假设存在一个潜在空间定义为URm×k,并通过投影矩阵QRn×k将数据矩阵投影到该潜在空间并学习共享特征, k 表示数据X被投影到的潜在空间的共享特征维度。同时通过重构矩阵PRk×n将潜在空间重构回数据矩阵,反投影的过程可以显著提高表征学习中数据投影的可靠性19-21。具体的投射和重构过程可定义如下:

minQ,PU-XQF2+X-UPF2

其中xF=ixj22=jxi22 表示F范数。还可以重写公式(1),对投影矩阵Q、反投影矩阵 P 和潜在空间 U 进行正则化规范,重写后公式如下:

minU,Q,Pα1U-XQF2+α2X-UPF2+ρRU,P,Q

其中α1α2ρ是用于平衡不同项的权衡参数。对于最后一项定义 ρRU,P,Q=ρ1UF2+ρ2PF2+ρ3QF2ρ1ρ2ρ3α1含义相似。对这些参数进行正则化约束主要是为了避免过拟合问题。等式(2)是表征学习双向投影的初步框架,它鼓励将不完整的数据投射到潜在空间,从而获得完整的数据,并学习投影矩阵Q用于新的不完整数据。

如果不加约束地直接将数据进行投影表征学习,所得到的共享表征特征可能不合理,因为不同特征的投影学习过程依赖于特定缺失情况以及数据的分布规律,而这种投影权重约束是片面的,它未考虑到特征的重要性差异,特征重要性对投影权重的影响应该是显著的,如果忽略这一点,共享表征特征可能会丢失关键特征的信息。为解决该问题,本研究将投影矩阵Q中关于不同特征在投影过程中的权重进行一个约束,并引入约束项特征重要性一致(CRF)确保特征在投影过程中重要性,与通过多种特征选择算法确定的特征重要性尽可能保持一致。本研究将每一项特征投影到潜在空间的权重绝对值的和,作为其在整个表征学习过程中的重要性的体现,具体不同特征的投影权重和计算公式如下:

q=QI

I是一个全为1的列向量,q则是一个列向量其中qi是第i个特征在投影过程中的权重和,然后计算每一项特征在整个表征学习中重要性分数,具体公式如下:

score(Q)i=jn1(qi-qn)

score(Q)i表示第i个特征的分数,指示函数1()表示二元关系(),当qiqj时,1(qi-qj)=1。但是因为指示函数1()并不是连续函数,无法进行求导并在后续和优化过程中优化,因此本模型引入了SIGMOD函数σ(x),它能够将x映射到0-1中22

σx=11+e-δx

经过上面两步计算,可以得到有关于i个特征的投影权重分数rank(Q),然后使用不同的特征选择算法分别使用不同的参考量对n个特征进行得分,使用Kemeny-Young排名聚合的方法,把几个得分转化为偏好矩阵,通过曼哈顿距离最小化一个最优分数在偏好矩阵中的代价,得到最终的特征重要性得分r,2个分数向量中的元素一一对应。最后设计约束项让2个分数能够尽可能一致,具体公式如下:

score(Q)-r1

其中x1=i=1Nxi,整理公式(2)、(6)后得到目前的缺失数据潜在表征学习的约束函数:

U-XQF2+α2(X-UP)F2+score(Q)-r1+ρRU,P,Q

由于该模型中的表征学习是在缺失数据上进行投影学习的,数据的信息不仅在于数据分布上,也在缺失数据的具体缺失位置上。本模型加入约束项缺失位置估算(MPE)通过在反投影时利用缺失数据的掩模MRm×n,让潜在空间数据能够还原原数据具体缺失情况,M是一个只有0、1的矩阵,在原有缺失数据集中缺失位置上填0,其它位置填1,根据缺失位置的信息反投影时,可以识别出特征值之间的不一致,从而提高缺失数据的表征学习的准确性23,变化之后公式如下:

(X-UP)MF2+UR-MF2

经过整理公式(7)、(8)后具体优化函数如下:

α1U-XQF2+α2(X-UP)MF2+score(Q)-r1+UR-MF2+ρRU,P,Q,R

为了让表征学习后的数据更具鉴别分类能力,本模型从数据分类的两大特点相关性和冗余性入手,分别在优化约束项中引入了判别分析的类内散度和类间散度24以及互信息关系,分别强化特征与标签之间的相关性,消除特征之间的冗余性。

其中判别分析的类内散度和类间散度具体计算公式如下:

SW(U)=c=1Cj=1nc(u(c)j-μc)(u(c)j-μc)T
SB(U)=c=1Cnc(μc-μ)(μc-μ)T

其中SW(U)SB(U)分别是U的类内散射矩阵和类间散射矩阵;u(c)jUcth类中的jth样本,μcUcth类 中样本的平均向量,μU的所有样本的平均矢量,nccth类的样本数,在本研究的模型中c = 2。

类内散射矩阵和类间散射矩阵经过一定的代数简化后,可得到有关类内样本距离和类间中心距离两项约束项,本模型拟让类内样本之间距离变得更近而类间中心之间距离变得更远。具体约束项简化后如下:

trSW(U)=trULUT
trSB(U)=trUS-EUT

其中,矩阵S中的元素满足sij=1nc,如果uiuj两者都属于该cth类,反之sij=0;矩阵L=V-S,其中V是一个对角矩阵,其ith对角元素是Sith行的和,并且E是一个元素都为1n的矩阵。

为了利用数据间的互信息关系减少共享特征的冗余性,首先提出本模型中互信息的定义,本模型定义共享融合特征每一项特征UlU都会有一个互信息关系矩阵MRUlRUl代表互信息等价关系。

MRUl=r11r12r1nr21r22r2nrn1rn2rnn

其中rij=RUlUli,Ulj是一个度量成员关系的函数,用于度量UlU中中任意两个样本之间的相似度,Uli代表共享特征中第l个特征中的第i个样本。

定义互关系矩阵后,计算相关信息的互信息熵:

HRUl=1ni=1nlognUliRUl

进一步推出两种等价信息之间的互信息熵HRU1,RU2

HRU1,RU2=-1ni=1nlogU1iRU1U2iRU2n

最后定义两种信息向量之间的互信息为:

IRU1;RU2=HRU1+HRU2-HRU11,RU2=1ni=1nlognU1iRU1U2iRU2U1iRU1U2iRU2

通过上面关于信息向量之间的互信息的定义,可量化共享融合特征之间的冗余性。

IUl;Ul¯=1nlognnMdgRUlRUl¯detMdgRUldetMdgRUl¯det

其中Ul¯是共享融合特征除了Ul以外的所有特征通过PCA降维而成的一维向量,最后把公式(18)简化推导到整个共享融合特征:

MIFU=-i=1kIUl;Ul¯

基于以上约束项整理公式(9)、(12)、(13)、(19),得到该模型最终目标函数为:

           F(U,Q,P,R)=α1U-XQF2+α2(X-UP)MF2+α3score(Q)-r1+α4UR-MF2          +α5trULUT+α6trUS-EUT+α7MIF(U)+ρRU,P,Q,R

该模型的本质就是最小化该目标函数,即:

minU,Q,P,RF(U,Q,P,R)

使用梯度下降法对其进行优化,计算目标函数F()相对于U,Q,P,R几个参数的导数。其中F()相对于U,P的导数就是每一部分有关U,P的约束项相对于F()的导数之和,类似具体计算结果如下:

FU=α1U-XQF2U+α2(X-UP)MF2U+α4UR-MF2U+α5trULUTU+α6trUS-EUTU+α7MIF(U)U+ρGU,P,Q,RU=2α1T0-(2α2T1M)PT+2α4T2RT+α5(LU+LTU)-α6(S-E)U-(S-E)TU+α7/nIu1;cu1,...,Iuk;cuk+2ρU
          FP=α2(X-UP)MF2P+ρGU,P,Q,RP=-2α2UT(T1M)+2ρP

其中,T0=U-XQ,T1=X-UPM,T2=UR-M另外F相对于Q的导数中有关于特征重要性的约束项中需要复合求导,计算过程如下:

          FQ=α1U-XQF2Q++α3score(Q)-r1Q+ρGU,P,Q,RQ=-α12XTT0+          α3r-score(Q)score(Q)-rscore(Q)qsign(Q)+2ρQ

R可以直接求导所得,不需要利用梯度下降法进行优化迭代,计算过程及结果如下:

FR=+α4UR-MF2U+ρGU,P,Q,RU=0
          R=α4UTU+ρEα4UTM-1

基于以上几个参数的导数目标函数的优化过程可以被描述为以下过程:

Q(t+1)=Q(t)-ηQFQU(t+1)=U(t)-ηUFUP(t+1)=P(t)-ηPFPR(t+1)=α4U(t)TU(t)+ρEα4U(t)TM-1

伪代码(表1)。

1.3 模型验证

本研究通过研究常规的10种分类器对鉴别分类模型的影响,从中选择最佳的分类器来构建分类模型,通过网格搜索法来确定好分类器的参数25,通过五折交叉验证来保证结果稳定性,最后采用ROC曲线下面积(AUC)来验证分类模型的优劣。在具体实验验证方面,本模型会进行消融实验,以验证模型中各项约束项的相容性和稳定性26-29,与其他常用以及较新的缺失数据插补方法进行比较,对比在其它医学数据以及卵巢癌数据上的效果。其它缺失数据插补方法介绍如下:

基于统计学相关的插补方法,用以下几种方法作为对比:均值插补(MEAN)直接用均值进行插补;最近邻插补(KNN)利用缺失值周围值的信息进行插补;多重插补(ITERATIVE)利用多个变量之间的关系来估计并填补数据的缺失值;基于快速交替最小二乘软阈值的矩阵补全(SOFT)。

基于机器学习的插补方法,用以下方法作为比较:MISSFOREST是一种基于随机森林的算法,通过逐步预测来填补数据集中的缺失值。

基于深度学习的插补方法,用以下几种方法作为比较:利用自动编码器插补通过学习数据的低维表示,然后用解码器将缺失的数据从该表示中重建,从而恢复和填补缺失值;利用重新掩码进行插补(REMASKER)除了原有的缺失值外,还通过对数据重新掩码来训练自动编码器从而使得插补更加准确;熵正则化最优传输算法(SINKHORN)使用 SINKHORN-KNOPP算法来求解最优传输矩阵,这个矩阵表示了数据样本之间的最优匹配关系,从而在缺失数据的插补中实现合理的估计;轮流插补法(ROUND-ROBIN)在熵正则化最优传输算法的基础上通过依次考虑不同的数据特征,逐步地进行插补,它会在每一轮中选择一个特征,利用其余特征的当前插补结果来预测和填补该特征的缺失值,然后在下一轮中选择下一个特征重复这一过程,直到所有特征的缺失数据都被填补完毕;基于生成对抗网络模型(GAIN)进行数据插补,通过学习数据的分布特征来生成逼真的插补值,从而填补数据中的缺失项。

基于无偏比较,所有对比方法都会如本模型一样筛选分类器模型并且进行参数调整以及进行五折交叉验证。

2 结果

2.1 消融实验评测模型约束项的相容性和稳定性

AUC结果显示,本研究所提出模型对每一项约束项都有提升模型插补的效果,且约束项之间能够很好的相容(表2)。

2.2 模型在不同数据中的分类鉴别表现

本研究提出的模型能在不同疾病的分类模型中都有良好的表现,AUC都优于其它模型,具有较好的稳定性。本模型在不同的医疗缺失数据上也能发挥较好的效果,虽然没有像卵巢癌早诊的实验室指标数据一样发挥出极好的效果,但也具有一定的应用场景,并不局限于卵巢癌的早诊问题(表3)。

2.3 模型在卵巢癌中的分类鉴别评估

本研究的模型在卵巢癌实验室指标的数据中有很好的表现,AUC都优于其它插补方法,敏感度有较大提升(表4)。

3 讨论

本研究创新性地提出了多约束的表征学习模型,用于解决实验室指标在鉴别卵巢癌时存在大量缺失数据的问题。通过该模型构建的分类系统,不仅提高了利用实验室指标进行卵巢癌早期鉴别的准确性,还显著提升了其便捷性。研究结果表明,与常用的缺失数据插补方法相比,所提出的模型在缺失数据环境下的分类性能具有明显优势。其优越性主要体现在以下几点:

首先,缺失数据通常可分为3种模式:完全随机缺失、随机缺失、非随机缺失30。在卵巢癌的缺失实验室指标数据中,缺失模式更接近随机缺失,而非完全随机缺失。这是因为在实际检测中,实验室指标的缺失通常不是随机发生的。例如,某些与卵巢癌相关的特殊检测项目可能因需求较少而较少被检测,而常规检测则普遍覆盖大多数人群。在这种缺失模式下,缺失位置本身也包含着一定的数据分布规律,本研究所提出的多约束表征学习模型关键创新之一,在于能够学习缺失数据的整体数据规律,包含缺失的规律。有研究表明,缺失数据掩模能够识别那些需要插补的部分,有助于改进插补模型的表现3132,而大部分传统的插补方法并没有利用好数据掩模这份信息,相反本模型引入缺失位置估算这一约束项,将缺失掩模信息有效地融入到表征学习过程中。具体来说,这一约束项不仅帮助表征学习明确缺失位置,使模型能够识别数据缺失的规律性,还将缺失掩模信息整合到共享表征特征中,从而提升了模型对数据规律的学习精度,进而提高了表征学习后数据的准确性。因此在面对随机缺失以及非随机缺失的数据时,本研究的表征学习模型会有较好的表现。

其次,本研究的模型在表征学习的过程中不仅生成了一份完整的数据,同时还实现了特征融合的功能,并将分类性能提升和特征融合放在一个框架中,两者之间相互促进。传统的缺失数据插补方法通常是在插补后单独进行特征选择处理,两者之间是割裂的,另有相关研究表明特征融合往往更能捕获全局信息,应对复杂的数据关系,从而提升分类能力3334,这对于特征之间关联性较强的实验室指标尤为重要,因为特征选择容易忽略特征之间的潜在关系。本研究提出的模型还加入了特征重要性一致约束项,使得在表征学习投影当中,已被确认的重要特征会获得有更高的权重,以免在特征融合过程失去关键特征的信息。此外,通过表征学习融合特征得到的共享表征特征有效减少了高纬度数据带来的“维度灾难”35,从而使最终分类模型得到了更好的鉴别性能。

最后,所提出的共享表征特征同时包含原数据不同特征的信息,这使得分类精度方面具有更大的提升潜力。一般来说,传统的缺失数据插补方法并不能充分利用标签信息,插补之后的特征选择和特征降维方法也没有充分探索标签和特征之间的关系。然而已有相关研究表明,标签对于缺失插补的影响是显著的3637。与之不同的是,本模型加入的类内散度和类间散度的判别分析的约束项,使得缺失数据在表征学习后的完整共享潜在特征能够获取标签的信息,让共享表征特征的每一类样本内部更加紧密,与其它类之间更有差异性,从而进一步增强共享特征的分类潜力。然而,仅仅关注共享潜在特征与标签的相关性是不够的,过往研究表明降低特征之间的冗余性也相当重要3839,为了实现这一目标,本研究引入了基于互信息构建的约束项,减少了共享潜在特征之间的互信息,从而降低了特征之间的冗余性,并且由于互信息的灵活度,该约束项不会过多干扰其它约束项的效果,从而进一步增强本模型的分类鉴别能力。

本研究的多约束表征学习模型主要优势在于,面对缺失数据没有像常规的手段一样在缺失值上进行插补,而是对缺失数据进行表征学习得到一份完整的共享表征特征;同时在一定程度上解决了“维度灾难”的问题,在优化过程中加入了特征重要性一致以及缺失位置估计两项约束项,保证了表征学习得到的共享表征特征的准确性和合理性,加入了类内散度和类间散度两项判别分析以及互信息降低冗余性的约束项,使得共享表征特征在每一项特征更具独立性的同时与标签信息相结合,以得到更好的分类鉴别性能。

虽然本研究提出的模型在使用常规实验室指标鉴别卵巢癌上已经有了一定的成效,但是仍然存在一定的局限。第一,在表征学习得到的共享表征特征进行分类器训练时,使用了常用的几种分类器进行训练,并且选择了表现最好的分类器,但实际应用中很可能面对不同的数据集,最佳的分类器并不会相同,这和不同数据集有着不同的数据特点有关。为了更加稳定和准确的鉴别分类,一种可能的解决方法是构建多分类器融合系统,该系统在决策级别集成了来自各种分类器的预测输出。相关研究已经证明MCF系统在辅助医学方面疫病分类的功效4041,可以预见如果使用MCF时,鉴别分类能力可能能进一步提升。第二,由于优化模型中的参数较多,面对不同的数据集时如果想获得较好的效果,可能需要一定时间调整。第三,由于本模型处理缺失数据并没有在约束项中加入多中心相关的约束项,因此可能在不同的设备或者说不同的中心时会表现出一定的特异性,呈现出不一样的性能。

综上所述,本研究创新性地提出了一种多约束表征学习模型,用于处理使用常规实验室指标鉴别卵巢癌时有大量缺失数据的问题,所提出模型把缺失问题以及数据降维问题放在一个框架中进行解决,并且加入了特征投影重要性一致和缺失位置估算,来保证表征学习的准确性。加入了判别分析以及互信息降低冗余性的约束项,使得表征学习到的共享表征特征有更强的鉴别分类潜力,与常用的一些面对缺失问题的插补方法相比在分类鉴别上有一定的优势,在实现计算机辅助诊断上具有一定的潜力。

参考文献

[1]

Zheng RS, Zhang SW, Zeng HM, et al. Cancer incidence and mortality in China, 2016[J]. J Natl Cancer Cent, 2022, 2(1): 1-9.

[2]

National Cancer Institute. Cancer stat facts: ovarian cancer 2024[EB/OL]. [2020-08-10].

[3]

Zeng HM, Zheng RS, Guo YM, et al. Cancer survival in China, 2003-2005: a population-based study[J]. Int J Cancer, 2015, 136(8): 1921-30.

[4]

Sundar S, Neal RD, Kehoe S. Diagnosis of ovarian cancer[J]. BMJ, 2015, 351: h4443.

[5]

Dochez V, Caillon H, Vaucel E, et al. Biomarkers and algorithms for diagnosis of ovarian cancer: CA125, HE4, RMI and ROMA, a review[J]. J Ovarian Res, 2019, 12(1): 28.

[6]

Li JP, Dowdy S, Tipton T, et al. HE4 as a biomarker for ovarian and endometrial cancer management[J]. Expert Rev Mol Diagn, 2009, 9(6): 555-66.

[7]

Guo YY, Jiang TJ, Ouyang LL, et al. A novel diagnostic nomogram based on serological and ultrasound findings for preoperative prediction of malignancy in patients with ovarian masses[J]. Gynecol Oncol, 2021, 160(3): 704-12.

[8]

Nijman S, Leeuwenberg AM, Beekers I, et al. Missing data is poorly handled and reported in prediction model studies using machine learning: a literature review[J]. J Clin Epidemiol, 2022, 142: 218-29.

[9]

Papageorgiou G, Grant SW, Takkenberg JJM, et al. Statistical primer: how to deal with missing data in scientific research?[J]. Interact Cardiovasc Thorac Surg, 2018, 27(2): 153-8.

[10]

Hastie T, Mazumder R, Lee JD, et al. Matrix completion and low-rank SVD via fast alternating least squares[J]. J Mach Learn Res, 2015, 16: 3367-402.

[11]

van Buuren S, Groothuis-Oudshoorn K. Mice: multivariate im-putation by chained equations in R[J]. J Stat Soft, 2011, 45(3): 1-67.

[12]

Qu L, Li L, Zhang Y, et al. PPCA-based missing data imputation for traffic flow volume: a systematical approach[J]. IEEE Trans Intell Transp Syst, 2009, 10(3): 512-22.

[13]

Crookston NL, Finley AO. yaImpute: An Rpackage for KNN imputation[J]. J Stat Soft, 2008, 23(10): 1-16.

[14]

Stekhoven DJ, Bühlmann P. MissForest: non-parametric missing value imputation for mixed-type data[J]. Bioinformatics, 2012, 28(1): 112-8.

[15]

Zhang XM, Yan C, Gao C, et al. Predicting missing values in medical data via XGBoost regression[J]. J Healthc Inform Res, 2020, 4(4): 383-94.

[16]

Yoon J, Jordon J, Schaar M. GAIN: missing data imputation using generative adversarial nets[EB/OL]. [2018-06-07].

[17]

Du TY, Melis L, Wang T. ReMasker: imputing tabular data with masked autoencoding[EB/OL]. [2023-09-25].

[18]

Muzellec B, Josse J, Boyer C, et al. Missing data imputation using optimal transport[EB/OL]. [2020-07-01].

[19]

Ning ZY, Lin ZH, Xiao Q, et al. Multi-constraint latent representation learning for prognosis analysis using multi-modal data[J]. IEEE Trans Neural Netw Learn Syst, 2023, 34(7): 3737-50.

[20]

Ning ZY, Du DH, Tu C, et al. Relation-aware shared representation learning for cancer prognosis analysis with auxiliary clinical variables and incomplete multi-modality data[J]. IEEE Trans Med Imaging, 2022, 41(1): 186-98.

[21]

Ning ZY, Xiao Q, Feng QJ, et al. Relation-induced multi-modal shared representation learning for Alzheimer’s disease diagnosis[J]. IEEE Trans Med Imaging, 2021, 40(6): 1632-45.

[22]

Liu Y, Hong XP, Tao XY, et al. Model behavior preserving for class-incremental learning[J]. IEEE Trans Neural Netw Learn Syst, 2023, 34(10): 7529-40.

[23]

Yoon JS, Zhang Y, Jordan J, et al. VIME: extending the success of self- and semi-supervised learning to tabular domain[C]//Advances in Neural Information Processing Systems 33, 2020.

[24]

Gülmezoglu MB, Edizkan R, Ergin S, et al. Use of center of gravity with the common vector approach in isolated word recognition[J]. Expert Syst Appl, 2018, 38(4): 3690-6.

[25]

Lerman PM. Fitting segmented regression models by grid search[J]. Appl Stat, 1980, 29(1): 77.

[26]

Antal B, Hajdu A. An ensemble-based system for automatic screening of diabetic retinopathy[J]. Knowl Based Syst, 2014, 60: 20-7.

[27]

Cabitza F, Campagner A, Ferrari D, et al. Development, evaluation, and validation of machine learning models for COVID-19 detection based on routine blood tests[J]. Clin Chem Lab Med, 2020, 59(2): 421-31.

[28]

Dickson ER, Grambsch PM, Fleming TR, et al. Prognosis in primary biliary cirrhosis: model for decision making[J]. Hepatology, 1989, 10(1): 1-7.

[29]

Golovenkin SE, Bac J, Chervov A, et al. Trajectories, bifurcations, and pseudo-time in large clinical datasets: applications to myocardial infarction and diabetes data[J]. Gigascience, 2020, 9(11): giaa128.

[30]

García-Laencina PJ, Sancho-Gómez JL, Figueiras-Vidal AR. Pattern classification with missing data: a review[J]. Neural Comput Appl, 2010, 19(2): 263-82.

[31]

Awan SE, Bennamoun M, Sohel F, et al. A reinforcement learning-based approach for imputing missing data[J]. Neural Comput Appl, 2022, 34(12): 9701-16.

[32]

Lin WC, Tsai CF. Missing value imputation: a review and analysis of the literature (2006-2017)[J]. Artif Intell Rev, 2020, 53(2): 1487-509.

[33]

Ramos-Pérez I, Barbero-Aparicio JA, Canepa-Oneto A, et al. An extensive performance comparison between feature reduction and feature selection preprocessing algorithms on imbalanced wide data[J]. Information, 2024, 15(4): 223.

[34]

Nasir IM, Khan MA, Yasmin M, et al. Pearson correlation-based feature selection for document classification using balanced training[J]. Sensors, 2020, 20(23): 6793.

[35]

Berisha V, Krantsevich C, Hahn PR, et al. Digital medicine and the curse of dimensionality[J]. NPJ Digit Med, 2021, 4(1): 153.

[36]

Pingi ST, Zhang DY, Bashar MA, et al. Joint representation learning with generative adversarial imputation network for improved classification of longitudinal data[J]. Data Sci Eng, 2024, 9(1): 5-25.

[37]

Du WJ, Côté D, Liu Y. SAITS: self-attention-based imputation for time series[J]. Expert Syst Appl, 2023, 219: 119619.

[38]

Zhang P, Gao WF, Hu JC, et al. Multi-label feature selection based on high-order label correlation assumption[J]. Entropy, 2020, 22(7): 797.

[39]

Fan QC, Liu SC, Zhao CJ, et al. An instance- and label-based feature selection method in classification tasks[J]. Information, 2023, 14(10): 532.

[40]

He Q, Li X, Nathan Kim DW, et al. Feasibility study of a multi-criteria decision-making based hierarchical model for multi-modality feature and multi-classifier fusion: applications in medical prognosis prediction[J]. Inf Fusion, 2020, 55: 207-19.

[41]

Tayarani-Najaran MH. A novel ensemble machine learning and an evolutionary algorithm in modeling the COVID-19 epidemic and optimizing government policies[J]. IEEE Trans Syst Man Cybern Syst, 2022, 52(10): 6362-72.

基金资助

RIGHTS & PERMISSIONS

版权所有©《南方医科大学学报》编辑部2021

AI Summary AI Mindmap
PDF (1044KB)

169

访问

0

被引

详细

导航
相关文章

AI思维导图

/