鼻咽癌是一种发生在鼻咽部位的恶性肿瘤,具有区域聚集性,尤其在东南亚和中国南部发病率较高。2022年,全球鼻咽癌新发病例为120 434例,在所有癌症中排名第23位
[1]。其中,中国的病例数高达51 010例,每10万人的年龄标准化发病率(ASIR)为2.4
[1]。由于鼻咽癌的地理分布特征,其在中国等高发地区引起了广泛关注。
放疗是治疗原发性鼻咽癌的常用手段
[2]。然而,放疗在有效杀死癌细胞的同时,也常常引发多种并发症,其中放射性口腔黏膜炎(RIOM)是最常见且最令人痛苦的不良反应之一。有效的控制RIOM的发生,已成为临床研究和实践中的一个重要课题
[3], RIOM预测模型的效能分析是其中一个重要方向。
现有研究指出,RIOM的风险因素包括放射剂量
[4]、吸烟
[5]、低体质量指数
[6]、糖尿病
[7]、使用化疗药物
[8]或靶向药物
[8]。不同的计划靶区体积剂量会影响RIOM的严重程度
[9, 10]。尽管这些研究为RIOM的风险评估提供了一定的依据,但由于这些风险因素之间复杂的相互作用和潜在的非线性关系,使得RIOM的精确预测依然具有挑战性。
人工智能模型(AI)能够提取高维数据中的非线性特征及其复杂关系
[11],近年来已被应用于RIOM的预测模型中,以提高预测准确性。然而,大多数研究采用单一分类器
[12-15],这在处理复杂数据时效果不佳。而集成方法通过组合多个模型可以更好地处理这些问题,从而提高预测的鲁棒性
[16, 17]。此外,单模态预测模型依赖单一数据类型
[18],可能忽视多因素之间的潜在关联,影响准确性。而多模态模型融合不同来源的数据,或许可以增强预测性能
[19, 20]。
本研究的创新点在于构建了分层多模态和多分类器融合(H-MCF)模型,以提升对接受放疗的局部晚期鼻咽癌患者发生严重RIOM的预测精度。通过融合多种模态特征,并利用多分类器融合策略进行综合决策,提高预测性能。与单一分类器和简单拼接的多模态模型相比,H-MCF模型在预测准确性和鲁棒性方面表现出明显的优势。
1 资料和方法
1.1 研究设计
本研究回顾性收集2022年9月~2023年2月在口腔科接受观察和治疗的198例放射性口腔黏膜炎(RIOM)局部晚期鼻咽癌患者(III期~IVA期)的数据。纳入和排除标准(
图1)。所有患者被随机分为训练/验证组和独立测试组。这些数据集被用于RIOM预测模型的构建和性能评估。
该研究已获得广州医科大学附属肿瘤医院及研究所的批准(伦理批号:2022-SW06)。所有参与者均提供了书面知情同意。
1.2 研究对象
所有患者均经病理确诊并接受了放射治疗(
表1)。肿瘤的总体积根据纤维鼻咽镜检查、计划CT、MRI和PET-CT的结果确定。总处方剂量为66~70 Gy、64~70 Gy、60~62 Gy和54~56 Gy,分为30~33次,1次/d。放疗持续时间为6~7周。计划靶区体积、肿块淋巴结体积和临床靶区体积的勾画遵循放射治疗肿瘤学组(RTOG)0225号指南
[21]及前瞻性临床试验的结果
[22]。
1.3 RIOM评估
患者的RIOM评分由两位经过培训的口腔科医生使用CTCAE v5.0量表
[23]进行评估。每位患者的RIOM评分在基线(放疗前)和每周后续的放疗过程中进行记录,最终分析时采用最高分。将1~2级患者归为非重症RIOM组,而3级及以上患者归为重症RIOM组。本研究的毒性终点为RIOM评分≥3,即在放疗的任何阶段至少发生1次3级或以上事件。
1.4 RIOM相关特征
本研究使用临床特征和剂量学特征进行建模和统计学分析。
1.4.1 临床特征
临床特征主要通过病历系统收集,我们对临床特征做出如下定义,临床特征(C,n=106):这组特征包括27个患者相关特征、66个疾病相关特征和13个治疗相关特征。上述缩写‘C’代表临床特征。
1.4.2 剂量学特征剂量学特征
在 Python 3.6 环境下使用开源工具包dicompyler
[24]进行提取。本研究使用以下口腔轮廓勾画方法进行危及器官勾画:口腔整体勾画法(OCC)
[25]。具体勾画区域见
图2。
对剂量学特征做出如下定义:
剂量学特征(n=37):从OCC提取的剂量-体积-直方图(DVH)参数,称为DOCC。从OCC区域提取剂量-体积-直方图参数,包括最大剂量(Dmax)、最小剂量(Dmin)、平均剂量(Dmean)、V5~V70(每5 Gy为一个间隔)和D5~D100(每5%为一个间隔)。Vx(%)表示接受剂量超过 x Gy 的体积百分比(%),而Dx(Gy)则表示某体积中最热的 x% 区域所接收到的最低剂量(Gy)。上述缩写 ‘D’代表剂量学特征。
1.5 RIOM预测模型的构建与验证
RIOM预测模型的构建如
图3所示。为了预测RIOM,我们使用了分层多模态和多分类器融合(H-MCF)模型
[26],利用了多准则决策融合的思想。整个建模过程主要包括数据处理、基分类器与特征选择算法的筛选、多模态和多分类器融合。为了验证H-MCF模型的有效性,我们对各个模态的基础分类模型与MCF模型的性能、多模态的基础模型和MCF模型以及H-MCF模型的性能、单模态与多模态模型的性能、H-MCF与其他集成分类器的性能进行分析比较。
1.5.1 数据处理
将198例放射性口腔黏膜炎(RIOM)患者的数据随机分为训练/验证集(n=158)和独立测试集(n=40),比例为4∶1。
基分类器包含k-近邻、支持向量机等基于距离的算法,以及数据集包含多个特征,为消除不同单位和尺度可能对模型造成的影响,我们对连续变量进行了归一化处理。同时由于样本存在类别不平衡问题(非重症RIOM:重症RIOM=6∶4),为避免模型对多数类别的偏倚,影响模型的泛化能力和性能,我们使用了SMOTE
[27]方法对数据集进行了类别平衡。
1.5.2 基分类器与特征选择算法
为降低模型的复杂性,避免过拟合,从而提升模型的泛化能力,使用特征选择方法提取最优子集。本研究考虑了24种特征选择算法,包括8种基于互信息的算法(CIFE、CMIM、DISR、ICAP、JMI、MIFS、MIM、MRMR)、3种基于统计方法的算法(fisher_score、t_score、f_score)、3种基于图方法的算法(SPEC、trace_ratio、lap_score)、3种基于正则化方法的算法(ll_l21、ls_l21、RFS)、2种基于随机游走和流形学习的算法(MCFS、NDFS)、1种基于嵌入式方法的算法(reliefF)、2种基于信息增益和其他度量的算法(gini_index和alpha_investing)、1种基于未标注数据的特征选择算法(UDFS)和1种基于线性和非线性相关性的算法(LCSI)。上述算法均通过Python开源库scikit-feature
[28]实现。
为进行多分类器融合,本研究考虑了6种非集成分类器进行二分类任务,包括逻辑回归(LR)、k近邻算法(KNN)、线性判别分析(LDA)、支持向量机(SVM)、高斯朴素贝叶斯(GaussianNB)、多层感知机(MLP)。上述算法均通过Python开源库scikit-learn
[29]实现。
1.5.3 多模态和分类器融合
将上述的特征选择方法(n=24)和分类器(n=6)两两组合,构建了144个人工智能分类模型(基础模型)。将“1.4. RIOM相关特征”定义的特征作为各个模型的输入变量。通过特征选择筛选出最重要的特征,并将其输入分类器,生成基础分类模型。所有基础模型的性能通过AUC进行排名。最终,通过MCF计算每个模型的权重,融合排名前3的基础模型的预测结果。为了进行多模态的决策融合,我们将每个模态通过MCF得到的分类器融合的预测概率再次通过MCF算法进行融合,即可得到最终的预测概率。具体见1.5.3.1和1.5.3.2。所有分类器使用网格搜索方法调参。
1.5.3.1 基于多准则决策的多分类器融合算法(MCF)
假设有个分类模型,以及它们对应的预测概率。在训练和验证阶段,使用个评价标准(在本研究中是AUC、准确性(ACC)、敏感性(SEN)和特异性(SPE))来评估这些分类模型的性能。我们构建了一个评价矩阵,其行表示个分类模型,列表示个评价标准。
首先,对评价矩阵
进行逐列归一化处理,得到归一化后的评价矩阵
。接着,通过乘以相应的评价标准权重
(本研究设为
)来计算加权后的评价矩阵
。然后,针对每个分类器,计算其到最优解和最劣解的距离,分别用
和
表示。基于这些距离,可以计算出每个分类器的融合权重
。最后,对这些融合权重进行归一化,以确保权重之和为1。最终输出的是每个分类器的归一化融合权重
,这些权重用于对分类器的预测结果进行加权融合。具体流程见
表2伪代码。
1.5.3.2 分层多模态和多分类器融合(H-MCF)
H-MCF方法是 MCF的扩展,用于融合来自不同模态的多个分类器。假设有种模态,每种模态对应的预测概率。
首先,对每个模态(=1,2,...,)进行特征选择和归一化处理,接着训练基础分类器并计算模态的评价矩阵。使用MCF算法计算出模态内各分类器的融合权重。随后,通过这些权重对各模态内的分类器输出概率进行加权融合,得到模态特定的预测概率。接下来,对各模态的融合预测结果构建评价矩阵,并计算每个模态的融合权重。与MCF算法类似,计算这些权重所需的距离和。最后,对模态的融合权重进行归一化处理,并通过这些权重对各模态的融合预测结果进行加权,得到最终的融合得分。
最终输出的
即为综合考虑所有模态和分类器的融合预测结果。更多的技术细节可以参考He等
[26]的工作。
1.5.4 模型验证和评估
1.5.4.1 单模态的基础模型和MCF模型的预测性能比较
分别将各个模态所使用的基分类器与对应的MCF模型的性能进行比较。
1.5.4.2 多模态的基础模型和MCF模型以及H-MCF模型的预测性能比较
将多模态数据简单拼接,分别输入普通分类器和MCF模型,将二者的性能与H-MC模型的性能进行比较。
1.5.4.2 不同模态最优模型的预测性能比较
为了探讨哪种模态对预测重症RIOM发挥重要作用,将它们最优模型的预测性能进行比较。
1.5.4.3 单模态与多模态最优模型的预测性能比较
为探讨使用多模态和单模态特征对预测重症RIOM的影响,比较单模态与多模态最优模型的泛化性能。
1.5.4.4 H-MCF与MCF以及其它集成分类器的预测性能比较
H-MCF与MCF和8种集成算法进行对比:极端随机树(Extra Trees)、随机森林(Random Forest)、装袋法(Bagging)、自适应增强(AdaBoost)、梯度提升(GradientBoosting)、轻量梯度提升机(LightGBM)、极限梯度提升(XGBoost)和分类提升(CatBoost)。
1.5.4.5 评价指标
本研究使用独立测试集的结果对各个模型的泛化性能进行评估。评价指标包括AUC、ACC、SEN、SPE,公式定义如下:
其中,TP代表真阳性样本数目,TN代表真阴性样本数目,FP代表假阳性样本数目,FN代表假阴性样本数目。
1.6 统计学分析
分类变量使用卡方检验进行分析,符合正态分布的连续变量使用学生t检验进行分析,不符合正态分布的连续变量使用Mann-Whitney U检验进行分析。
通过计算AUC、ACC、SEN和SPE来评估模型性能。所有统计分析均在SPSS Statistics 26.0软件中进行,P<0.05为差异具有统计学意义。
2 结果
2.1 单模态的基础模型和MCF模型的预测性能比较
在基于剂量学特征D
OCC搭建的的模型中,MCF模型的泛化性能都比其使用的基础模型更好(AUC=0.592,ACC=0.600,SEN=0.600, SPE=0.600)。在基于临床特征C的模型中,MCF模型相较于基础模型,也有着更好的泛化性能(AUC= 0.864,ACC=0.850,SEN=0.800,SPE=0.880,
表3,
图4)。
2.2 多模态的基础模型和MCF模型以及H-MCF模型的预测性能比较
在基于C+D
OCC构建的模型中,相较于使用的基础模型,对应的MCF模型以及H-MCF模型都有着更好的鲁棒性(
表4,
图4)。而H-MCF模型的泛化性能相比于MCF模型则更加优越(AUC=0.883,ACC=0.850,SEN=0.933,SPE=0.800)。
2.3 不同模态最优模型的预测性能比较
通过比较基于D
OCC和C的最优模型(MCF)的评价指标,可以发现基于临床特征(C)的MCF模型,表现出了单模态中最好的泛化性能(
表3,
图4)。
2.4 单模态与多模态最优模型的预测性能比较
相较于单模态模型的性能,多模态模型取得了更好的结果(表
3、
4,
图4)。其中,基于C+D
OCC的H-MCF模型鲁棒性最好:AUC=0.883,ACC=0.850,SEN=0.933,SPE=0.800。
2.5 H-MCF与MCF、集成分类器的预测性能比较
相较于将两个模态(C和D
OCC)简单拼接后,再输入一种集成分类器进行预测的方法,H-MCF在预测局部晚期鼻咽癌患者发生重症RIOM方面鲁棒性最好(
表5)。而MCF在一众非多模态融合的集成算法中泛化性能最好。
3 讨论
近年来,AI在医学领域的应用日益广泛,尤其是在预测放疗相关并发症(如放射性肺炎、放射性肠炎等)方面已取得了显著成果
[30-32]。与传统的统计方法相比,AI模型能够更好地处理高维度和非线性数据
[33, 34]。传统的统计方法通常依赖于数据的线性假设和变量之间的简单相互关系,而AI模型能够从高维数据中自动学习复杂的相互关系。因此,AI模型在捕捉放疗并发症的复杂模式方面表现出色,能够更准确地预测患者的治疗效果。这在预测像重症RIOM这样的复杂放疗反应中尤为重要。
本研究评估了分层多模态和多分类器融合(H-MCF)模型在预测鼻咽癌患者放射治疗后发生严重放射性口腔黏膜炎(RIOM)中的有效性。结果显示,不管是基于临床特征还是剂量学特征的模型,MCF模型都比普通的基分类器的预测性能更好。并且基于临床特征的MCF模型比基于剂量学特征的MCF模型拥有更好的鲁棒性。而结合临床特征和剂量学特征的H-MCF模型具有最好的预测性能(AUC=0.883,ACC=0.850,SEN=0.933,SPE=0.800),这表明多模态融合在复杂临床问题中具有显著的应用潜力。
首先,我们的研究结果与既往研究结果一致,表明在预测疾病时,结合多模态数据和先进的机器学习技术可以显著提高模型的预测能力
[35, 36]。这或许是因为单模态预测模型通常只依赖于某一种类型的数据,导致未能充分利用多种数据源所带来的互补性信息
[18]。这可能会导致其忽视多种因素之间的潜在关联,影响预测的准确性。而多模态数据整合了不同来源的数据,如影像数据、临床特征和基因组数据。这种方法能够全面捕捉到各模态之间的互补信息,弥补单一数据源的不足,提升预测性能
[19, 20]。
然而,多模态数据的简单拼接方法未能充分考虑各模态信息的关联性和重要性。这种方式可能导致信息冗余或不均衡,进而影响模型的性能。从
表5的结果可以看出,相比于采用简单拼接多模态数据进行输入的集成算法,采用决策层面融合的方法——通过将各模态的预测结果进行加权的H-MCF的预测精度更高。
其次,我们发现MCF模型和H-MCF模型这种使用了多分类器融合思想的模型在处理异质性数据时具有显著的优势,这一点与其他研究一致
[19]。例如,Soenksen等
[19]在研究搭建预测多种疾病的医疗保健模型时发现,多分类器融合方法相较于单一分类器在多模态数据集上表现出更高的鲁棒性和稳定性。这说明通过融合多个模型的预测结果,能够有效地减轻过拟合的风险,同时提高模型的泛化能力。这或许是因为多分类器融合模型能够结合多个分类器的优势,克服单一分类器的局限性,可能会从不同角度捕捉数据中的特征。通过融合这些分类器的结果,可以综合各分类器的优点,从而获得更为准确的预测
[37, 38]。在面对具有噪声或异常值的数据时,不同分类器对这些数据的敏感度不同。结合多个分类器预测结果的模型能够更好地抵御噪声的干扰,从而获得更稳定的预测结果。而且我们的模型允许使用多种评估标准(如准确率、灵敏度、特异性和AUC),使得在不同临床应用中能够根据具体需求进行调整和优化。并且和现有的预测模型相比,MCF框架在各种医疗数据集上提供了更稳定和一致的预测结果
[39]。
但本研究仍存在一些局限性。首先,尽管使用了SMOTE方法来处理类别不平衡问题,样本量相对较小仍然是一个限制因素,可能影响模型的广泛应用性。未来的研究应纳入更多样本,尤其是来自不同种族和地区的患者,以增强模型的普适性。其次,本研究中的特征选择和分类器组合是基于特定的数据集和任务选择的,未来可以探索更广泛的算法和模型架构,以进一步提升预测性能。此外,尽管H-MCF模型在预测放射性口腔黏膜炎重症率方面表现出色,但其在临床中的实际应用仍需要进一步验证。尤其是考虑到不同医院和设备之间的差异,模型的跨机构验证显得尤为重要。未来的研究应关注模型的外部验证,并评估其在不同临床环境中适用性。
综上所述,本研究结果显示了H-MCF模型在预测鼻咽癌患者重症RIOM发生率中的潜在应用价值。通过将多模态数据结合使用,模型能够更准确地预测高风险患者,为个体化治疗提供依据。