PDF
摘要
肺水肿量化是治疗急性充血性心力衰竭(congestive heart failure, CHF)的关键。用于视觉和语言预训练的多模态掩码自编码器已被证实可有效融合胸片和肺水肿放射学报告的多模态信息以提升肺水肿量化精度。但现有的方法是随机地对图像和文本进行掩码操作,这一不稳定的操作容易导致模型忽略图像病灶和文本关键词,并阻碍多模态信息的融合与对齐,最终影响量化精度。针对上述问题,本研究设计了一种掩码图像-语言蒸馏模型,首次将自蒸馏引入到医学图像-语言预训练任务中,使得模型获得更为稳定可靠的医学图像和语言表示;并对跨模态注意力融合机制进行优化,使得模型更好地融合与对齐多模态信息。相比于101层残差神经网络(residual network 101, ResNet101)、视觉Transformer (vision transformer, ViT)-B/16、联合胸片和肺水肿放射学报告建模(joint modeling of chest radiographs and radiology reports for pulmonary edema assessment, JMC3R)和用于视觉和语言预训练的多模态掩码自编码器(multi-modal masked autoencoders for medical vision and language pre-training, M3AE),本研究所提出的方法在肺水肿量化数据集(pulmonary edemaassessmentdataset, PEAD)上获得了更高的肺水肿量化精度。
关键词
肺水肿
/
自蒸馏
/
掩码建模
/
多模态
/
注意力机制
Key words
用于肺水肿量化的掩码图像-语言蒸馏模型[J].
基因组学与应用生物学, 2024, 43(02): 274-283 DOI:10.13417/j.gab.043.000274