CRAKUT:融合对比区域注意力机制与临床先验知识的U-Transformer用于放射学报告生成

梁业东 ,  朱雄峰 ,  黄美燕 ,  张文聪 ,  郭翰宇 ,  冯前进

南方医科大学学报 ›› 2025, Vol. 45 ›› Issue (06) : 1343 -1352.

PDF (1514KB)
南方医科大学学报 ›› 2025, Vol. 45 ›› Issue (06) : 1343 -1352. DOI: 10.12122/j.issn.1673-4254.2025.06.24

CRAKUT:融合对比区域注意力机制与临床先验知识的U-Transformer用于放射学报告生成

作者信息 +

CRAKUT:integrating contrastive regional attention and clinical prior knowledge in U-transformer for radiology report generation

Author information +
文章历史 +
PDF (1549K)

摘要

目的 提出一种对比区域注意力和先验知识融合的U型Transformer模型(CRAKUT),旨在解决文本分布不均衡、缺乏上下文临床知识以及跨模态信息转换等问题,提升生成报告的质量,辅助影像科医生诊断工作。 方法 CRAKUT 包括3个关键模块:对比注意力图像编码器,利用数据集中常见的正常影像提取增强的视觉特征;外部知识注入模块,融合临床先验知识;U型Transformer,通过U型连接架构完成从视觉到语言的跨模态信息转换。在图像编码器中引入的对比区域注意力机制,通过强调正常与异常语义特征之间的差异,增强了异常区域的特征表示。此外,文本编码器中的临床先验知识注入模块结合了临床历史信息及由ChatGPT生成的知识图谱,从而提升了报告生成的上下文理解能力。U型Transformer在多模态编码器与报告解码器之间建立连接,融合多种类型的信息以生成最终的报告。 结果 在2个公开的CXR数据集(IU-Xray和MIMIC-CXR)对CRAKUT模型进行评估,结果显示,CRAKUT在报告生成任务中实现了当前最先进的性能。在MIMIC-CXR数据集,CRAKUT取得了BLEU-4分数0.159、ROUGE-L分数0.353、CIDEr分数0.500;在IU-Xray数据集上,METEOR分数达到0.258,均优于以往模型的表现。 结论 本文提出的方法在临床疾病诊断和报告生成中具有巨大的应用潜力。

Abstract

Objective We propose a Contrastive Regional Attention and Prior Knowledge-Infused U-Transformer model (CRAKUT) to address the challenges of imbalanced text distribution, lack of contextual clinical knowledge, and cross-modal information transformation to enhance the quality of generated radiology reports. Methods The CRAKUT model comprises 3 key components, including an image encoder that utilizes common normal images from the dataset for extracting enhanced visual features, an external knowledge infuser that incorporates clinical prior knowledge, and a U-Transformer that facilitates cross-modal information conversion from vision to language. The contrastive regional attention in the image encoder was introduced to enhance the features of abnormal regions by emphasizing the difference between normal and abnormal semantic features. Additionally, the clinical prior knowledge infuser within the text encoder integrates clinical history and knowledge graphs generated by ChatGPT. Finally, the U-Transformer was utilized to connect the multi-modal encoder and the report decoder in a U-connection schema, and multiple types of information were used to fuse and obtain the final report. Results We evaluated the proposed CRAKUT model on two publicly available CXR datasets (IU-Xray and MIMIC-CXR). The experimental results showed that the CRAKUT model achieved a state-of-the-art performance on report generation with a BLEU-4 score of 0.159, a ROUGE-L score of 0.353, and a CIDEr score of 0.500 in MIMIC-CXR dataset; the model also had a METEOR score of 0.258 in IU-Xray dataset, outperforming all the comparison models. Conclusion The proposed method has great potential for application in clinical disease diagnoses and report generation.

Graphical abstract

关键词

胸部X光 / 对比区域注意力 / 临床先验知识 / 跨模态交互 / U-Transformer模型

Key words

Chest X-ray / contrastive region attention / clinical prior knowledge / cross-modal / U-Transformer model

引用本文

引用格式 ▾
梁业东,朱雄峰,黄美燕,张文聪,郭翰宇,冯前进. CRAKUT:融合对比区域注意力机制与临床先验知识的U-Transformer用于放射学报告生成[J]. 南方医科大学学报, 2025, 45(06): 1343-1352 DOI:10.12122/j.issn.1673-4254.2025.06.24

登录浏览全文

4963

注册一个新账户 忘记密码

胸片是临床实践中的基本诊断工具,广泛用于各种呼吸和心脏疾病的早期检测、诊断和管理1。医学影像报告是临床医生沟通扫描结果和诊断的主要媒介,在临床环境中,放射科医生须仔细检查胸片图像,以确定可能的异常区域并详细报告。这个过程非常耗时,且严重依赖医生的专业知识和经验2。为减轻放射专家的繁重工作量,并帮助经验不足的放射科医生识别异常区域,自动放射学报告生成需求越来越大。受图像字幕模型11-16的启发,自动报告生成系统已经显示出极具前景的结果。它通常采用视觉编码器和文本解码器架构317,并采用多种方法来提高检测能力和生成报告的质量2418- 21。然而,这些方法并未充分考虑图像描述生成与放射学报告生成之间的差异。放射学报告的文本内容比一般的图像描述更长、更复杂,通常涉及图像中多个解剖区域的描述。
放射学报告生成面临以下挑战。首先是文本分布不均衡:根据数据集统计,描述正常区域的句子数量是描述异常区域句子数量的4~12倍,这意味着胸部X光图像的大部分区域及数据集中的大多数图像是正常的;不平衡的分布使得模型倾向于生成描述正常区域的句子,而忽略提取关键的异常区域特征以生成描述异常区域的句子。其次,缺乏上下文临床知识:胸部器官之间具有高度的相互关联性,疾病状况也极为复杂,这使得放射学报告生成需要依赖上下文的临床知识。如何在模型中整合跨领域知识是生成准确报告的关键步骤。第三,跨模态信息转换:胸部X光图像与对应的文本描述之间的适当跨模态交互可以显著增强模型从视觉到文本的转换能力。这种交互能够使模型将异常的视觉特征(如病灶或结节)与文本描述(如“下叶的混浊”或“心影扩大”)相关联,从而提高生成报告的整体质量和可靠性。
为解决文本分布不均衡的问题,我们采用了一种新方法,利用数据集中大量的正常图像。本文受到文献4启发,该方法通过寻找与输入特征最接近的正常视觉特征,并突出它们之间的差异,从而增强属于异常区域的视觉特征。然而,该方法对初始化高度依赖,并对输入图像非常敏感,仅在初始化集内进行比较,导致其泛化能力不足。同时,由于该方法考虑的是压缩的全局特征,可能忽略包含重要细节的局部特征。因此,我们通过对比区域注意力全面利用每个图像块中的信息,使用k-means聚类构建正常特征集,从而覆盖绝大部分正常特征。
为解决上下文临床知识缺乏的问题,充分利用医生的知识作为额外的先验信息,包括MIMIC数据集5中的临床历史、IU-Xray数据集6中的检查指征,以及由ChatGPT7生成的知识图谱。本研究引入了一个文本编码器,将临床历史或检查指征编码到模型的编码部分,以帮助模型更好地收敛。同时,利用症状、相关器官及其连接关系构建知识图谱,作为外部医学经验,使模型更好地理解报告内容并保持一致性。这一知识图谱不同于其他研究中由医生预先定义的方式,而是通过ChatGPT自动生成。自动化图谱生成节省了医生手动绘制的时间和工作量,并可根据不同场景的需求自定义生成规则和标准。
针对跨模态信息转换,本研究采用U-连接8将先验信息整合到视觉特征中,从而生成流畅的文本报告。同时,将临床历史等先验知识与相关视觉特征结合,使模型能够更好地理解不同模态之间的联系。在最终解码阶段,通过知识注入器将多模态信息整合到文本特征中,以生成最终报告。
综上所述,我们提出了一种新颖的框架,称为对比区域注意力与先验知识融合的U型Transformer(CRAKUT),该框架不仅通过具有更强泛化性能的对比区域注意力强调异常区域的特征,还整合了外部临床知识,并通过更先进的跨模态交互方法与文本模态连接。

1 材料和方法

1.1 实验数据

本研究的数据源自公开的胸片数据集IU-Xray和MIMIC-CXR,其中IU-Xray6数据集由印第安纳大学提供,是评估报告生成模型广泛使用的数据集。该数据集包含7470张胸部X光片图像,包括正位和侧位视图,以及3955份对应的影像报告。每份报告由印象、发现、说明等部分组成。MIMIC-CXR5数据集由Beth Israel Deaconess Medical Center提供,是目前最大的公开胸部X光片数据集,包括377 110张胸部X光片图像和227 835份报告,这些数据来自64 588例患者。与IU-Xray不同,MIMIC-CXR中的图像视图更加多样化,不同患者之间的差异显著。为了更公平地将我们的结果与其他研究进行比较,采用官方数据集划分方式,将数据集按7∶1∶2的比例划分为训练集、验证集和测试集。

1.2 数据获取及预处理

对于两个数据集,将所有图像调整为256×256的大小,并在训练阶段应用数据增强技术,包括随机水平翻转、颜色抖动和仿射变换。受以往研究9的启发,采用预训练完毕的DenseNet-12110作为图像编码器,用于提取原始视觉特征,这些特征随后被投影到具有8×8空间分辨率的256维空间中。对于报告文本,将所有单词转换为小写,并移除特殊字符,例如多余的空格和非字母数字符号。通过统计所有出现的标记并舍弃出现频率低于阈值的标记,构建一个专用词汇表。最终,舍弃报告内容为空的记录,并将剩余的部分用作参考报告。

1.3 深度学习模型建立

本研究提出了一种名为对比区域注意力与先验知识融合的U型Transformer(CRAKUT)的模块设计。CRAKUT的整体框架包括以下4个模块(图1):通过对比区域注意力增强异常区域特征的图像编码器;用于不同层次跨模态信息交互的U型连接Transformer;临床先验信息提取模块,包括症状与器官之间的加权图注意力模块和用于编码临床历史的文本编码模块;知识注入模块,将多种临床先验信息与初步报告整合在一起。

1.3.1 数学公式化

在放射学报告生成任务中,给定二维胸部X光片后,模型需要根据图像中的异常区域、解剖结构的变化、组织密度等生成对应的描述性报告。具体来说,给定训练数据集{Ii1,Ii2,Iim,Ti}i=1M、元数据中的临床历史C, 以及由ChatGPT预先构建的知识图谱G, 我们的模型旨在整合图像与临床信息并生成对应的描述性报告。其中,IiRw×h是一张胸部X光片,m是多视图的数量, Ti={R^i,Ci,  }是自由文本报告,G是胸片中14种常见症状及其相关器官之间的关联图。需要注意的是,真实报告R^={y^1,y^2,,y^l1}和医生描述检查指征的临床文档C={y1,y2,,yl2}l1l2 分别是原始报告和历史文本的长度。

1.3.2 对比区域注意力的图像编码器

为了解决正常数据偏差,我们提出了对比区域注意力模块,该模块无需医生预先定义的临床信息,而是通过自动识别正常图像和异常图像之间的差异特征来改进模型性能。首先需要构建一个正常数据集,然而Liu等4的方法需要使用固定数量的正常图像来构建正常集,这需要对每张图像进行细致的选择以确保其质量。不良的选择或不一致的胸部X光片可能会对最终结果产生负面影响。为应对上述问题,我们引入了一种方法,使用视觉特征的k均值聚类中心代替具体的特征。即使图像是随机选择的,聚类中心仍能够捕获大多数正常特征的共性。在本文的方法中,随机收集若干正常图像,通过图像编码器提取其局部特征并将这些特征展平。接着,应用k-均值聚类计算N个聚类中心,这些中心作为正常图像集的核心表示,如以下公式所示。

Snf=v1,v2,vNRN×D

第二步,使用对比注意力通过正常特征集来增强其特征(图2)。由于正常特征集中已经包含了正常图像的共性特征,我们结合图像编码器提取的视觉特征V和正常特征集Snf 来计算多头注意力,这样可以得到结合输入图像特征与多个正常特征的上下文信息。为此,通过点积注意力来增强视觉特征和正常特征集计算的特征,具体如公式(2)所示:

Vn=SoftmaxVWq(SnfWk)TDSnfWv

其中Wq,Wk,WvRD×D是可学习的参数,得到的VnRWH×D是融合相似的正常图像特征的输入图像。

接着,通过多头自注意力方法捕获Vn和当前输入图像之间的共性信息。具体而言,将原始视觉特征VVn进行拼接,然后通过一个多头自注意力模块和平均池化层得到Vc。自注意力的作用在于增强输入特征与其最接近的视觉特征之间的交互,从而纯化拼接后的视觉特征。通过这种方式,我们认为Vc是一种增强输入图像正常区域特征的表示。

Vc=AvgpoolingMSAV;Vn

基于上述获取的共性特征,不难发现输入特征中与这些共性信息不同或矛盾的部分可以被视为输入图像独有的信息,称之为特异性信息。为了得到特异性信息Vd,采用减法操作直接移除输入特征中共性信息,如公式(4)所示:

Vd=V-Vc

随后,通过特异性信息进一步增强原始图像特征中的独特部分。具体操作是将输入特征与特异性特征进行拼接,然后通过一个全连接层降维,如下所示:

V'=ReLUFCV;Vd

其中,ReLU(*)表示 ReLU激活函数,FC是全连接层。V'是一种新的对比特征,能够消除正常特征的影响并强化异常区域的特征表现。最终,将得到的V'替代原始图像特征作为后续模块的输入,从而生成更加聚焦于特定异常区域的高质量报告。

1.3.3 跨模态U型Transformer

对于跨模态任务,不同模态之间的交互至关重要,适当的交互能够显著提升模型完成任务的能力。现有研究提出了多种交互方案,因此我们采用最新的交互方法,即一种连接编码器与解码器的U型 Transformer7,作为模型中实现跨模态交互的模块。

1.3.3.1 视觉块嵌入

给定增强后的异常区域视觉特征V'RW×H×D,将其分割为W×H个块特征。这种方法能够保留局部区域的信息,对于捕获图像的局部特征、纹理和模式非常有用。

1.3.3.2 位置嵌入

Transformer模型之所以需要位置编码,是因为其核心的自注意力机制以并行方式处理输入序列,而不像 RNN 那样按顺序处理。这种并行处理方式虽然提高了计算效率,但会丢失序列中元素的位置信息。因此,针对每个输入标记添加了一维可学习的位置嵌入,以补充这些位置信息的缺失。

1.3.3.3 U型Transformer

传统的Transformer结构仅将编码器最后一层的输出作为解码器每一层的输入,可能导致跨模态任务的交互不足。因此,采用文献7提出的U型Transformer,其具有更丰富的跨模态交互能力且参数较少。该方法通过构造编码器层和对应解码器层的U型连接,实现高效交互。具体来说,假设Transformer拥有N层编码层和解码层,在视觉编码器中,仍然使用多头自注意力机制查询输入图像中的任务相关特征,同时保留编码器N层的输出结果x1,x2,,xN。在解码器部分,将之前记录的每层编码输出作为镜像解码层的记忆输入,逐步得到U型 Transformer 的结果。例如,将第i层编码器的输出作为第(N-i+1)层解码器的输入。具体过程如图3

1.3.4 结合临床先验知识的文本解码器

放射科医生在撰写报告时会全面利用其医学知识,这些知识是通过多年的医学教育和临床培训积累的。我们借鉴放射科医生的培训方法,采用简化且结构化的教学方式,使模型具备撰写报告的能力。为实现这一过程,从以下3个方面引入临床信号和先验知识,即视觉知识、知识图谱和临床历史。

1.3.4.1 视觉特征

利用输入图像I中的视觉特征作为视觉信息。更深层次的视觉特征通常包含更抽象的语义信息,更易被解码器接受和利用。因此,将U-ViT最后一层的输出作为视觉信息。

1.3.4.2 知识图谱

采用ChatGPT来探索器官与疾病之间的关系,并构建二者的知识图谱(图4)。将胸部X光分类中的14个常见标签作为最外层节点,中心圆表示全局节点。同时,由于普通胸部 X 光中包含图谱中的所有器官,补充了5个器官标签和1个全局节点,以完善图谱节点并强化症状与症状之间的关联。根据症状相关性和发生部位等因素,选择与症状最相关的器官,并将其连接起来。而 “No Finding”和 “Support Devices”,这两个标签并非简单地与器官级别相关联。为避免与特定病变标签混淆,它们独立连接至全局节点。由于图谱的结构和实体保持不变,使用预训练且冻结权重的M-BERT预先为每个节点生成词嵌入,从而减小模型规模。此外,在图像编码器中计算每幅放射图像的14个症状标签的概率分布。最后,基于概率分布对节点特征进行加权,并将结果与邻接矩阵一同输入 GAT(图注意力网络)以获得图谱知识信号。上述操作如下公式所示:

Psymptom=SigmodMLPV
fnode=MBertG 
fnodew=Psymptomfnode
Xgraph=GATfnodew,Madj

其中Psymptom表示每个症状的概率分布,G表示图谱中的所有节点,Madj是表示图谱连接的邻接矩阵。

1.3.4.3 临床历史记录

通过详细且准确地收集和分析病史信息,医生能够更好地了解患者的健康状况,从而做出更准确和有效的诊断。因此,合理利用临床病史在报告描述中发挥着重要作用。然而,尽管MIMIC数据集的元数据中已经包含可以作为病史的“INDICATION”,许多现有研究却未加以利用,我们认为这是对数据的一种浪费。此外,基于之前关于U-T多模态交互的论述,我们认为使用低维文本特征可以更好地与高维视觉特征进行计算。通过实验发现,使用预训练的BERT模型提取文本特征或采用自注意力单层的效果差异不大,而模型的规模却要大得多。因此,本文使用来自 BERT 模型的简单编码层提取文本信息并将其引入模型,以降低计算复杂度并提高模型性能。提取临床病史的过程定义如下:

C=w1,w2,,wl2 
xi=MaskedMSAwi|w1,w2,,wl2
Xhistory=x1;x2;;xl

其中,l是预期的报告长度(通常ll2 长得多),wi 是第i个单词,xi 是文本中第i个单词与其他单词的相关特征。

1.3.4.4 临床先验知识注入器

在获得上述3个先验信息后,如何高效地利用至关重要。为此,我们不将先验信息直接注入编码器,而是通过解码器进一步融合信息并提取有用信息。具体来说,首先将Xhistory 的维度降低到与Xvisual 相同,然后将二者相加。这是因为Xhistory 是从浅层网络中获取的,不包含足够的语义信息以匹配另外两种信息。因此,将临床历史嵌入与最相关的视觉嵌入纠缠在一起以获得融合特征Xfused。接着,将融合特征Xfused 与图谱特征Xgraph 拼接,并将它们与解码器的最终结果一起输入多头注意力模块。最终,通过全连接层和 softmax层,可以生成最终的报告。上述过程的公式定义如下:

Xfused=Xvisual+SoftmaxEpos(Xhistory)TD
Fconcat=Xfused;Xgraph
yt+1=SoftmaxMLPMSAFconcat,ht

其中,Epos 是每个patch的位置嵌入,ht 是 U型解码器上一层的输出,yt+1 是第t+1步生成单词的概率分布。

1.3.5 目标函数

1.3.5.1 多标签分类的BCE损失

求知识图谱特征时需要计算多标签图像分类的概率,所以我们将多标签分类任务可以看作是多个独立二元分类任务的集合,每个标签独立预测其是否存在。在此步骤中,使用二元交叉熵(BCE)损失来约束分类输出:

         LBCE=-1Ni=1Nsilog pi+1-silog 1-pi 

其中,si 是常见症状的标签,pi 是模型预测属于第i类疾病的概率Psymptom

1.3.5.2 报告生成损失

由于采用了知识图谱和临床病史作为先验知识,报告生成的表达形式也被转化为以下形式:

pR|I,C,G=t=1pyt+1|y1,,yt,I,C,G 

其中,y_t是在时间步t的输入 token。在报告生成任务中,交叉熵损失(Cross-Entropy Loss)是一种广泛使用的损失函数。交叉熵损失通过最小化预测分布与真实分布之间的差异,帮助模型逐步接近目标分布。其公式表达如下:

           LCEθ=-t=1l1logpθ(yt^y^ 1:t-1)

1.4 评价指标

1.4.1 自然语言生成指标

自然语言生成指标是最常用于评估生成报告描述准确性的指标。在我们的评估中,采用了BLEU、ROUGE-L、METEOR和CIDEr来评估预测报告的质量。这些指标主要通过以下方法评估生成文本:

BLEU: 生成文本与参考文本之间 n-grams(单词或短语)的重叠程度。

METEOR: 生成文本与参考文本之间的形态学和语义相似性。

ROUGE-L: 生成文本与参考文本之间的最长公共子序列(Longest Common Subsequence)。

CIDEr: 基于生成文本和参考文本之间的 TF-IDF 加权 n-grams 的相似性,重点关注领域特定的词汇。

1.4.2 临床效果指标

临床效果指标用于评估生成报告的临床准确性。我们使用CheXpert标签器对生成报告和真实报告进行标注,涵盖14个临床标签。随后,计算常见的分类指标,包括F1-Score、Precision和Recall,以评估临床正确性。由于 IU-Xray 数据集缺乏 CheXpert 标签,CE 指标仅在 MIMIC-CXR 数据集上进行评估。

2 结果

2.1 与现有最先进的方法进行比较

本研究提出的方法在BLEU-4、METEOR、CIDEr显著优于现有的最先进方法,尤其是在MIMIC-CXR数据集上(表1)。在IU-Xray数据集上,本研究模型的结果并未表现出显著突破,仅在METEOR指标上取得了良好成绩。IU-Xray数据集中的描述性文本长度不及MIMIC-CXR数据集,这可能导致跨模态模块无法有效匹配图像信息与文本信息。与NLG的突破相比,我们的方法临床准确性并未表现突出(表2)。

2.2 消融实验

2.2.1 对比区域注意力的效果

依次从对比区域注意力(CRA)模块开始研究,随着该模块的加入,模型的性能逐步提高(表3)。例如从(a)到(b)、从(c)到(d),模型在各种评估指标上均表现出一致的改进。在使用所有模块所得的结果中,CIDEr指标的提升尤为显著。

2.2.2 U型连接结构的效果

评估仅使用U-Transformer跨模态交互的模型性能,结果并不理想(表3 (a))。当我们在引入其他模块的同时移除U型连接结构时,性能进一步下降,例如(g)中CIDEr指标从0.500下降到0.477。这一性能下降突显了高效连接结构的重要性,缺少U型连接会导致跨模态交互过程中丢失关键信息。通过桥接视觉特征与文本特征,U型连接确保了重要的空间和语义信息被保留并正确对齐。

2.2.3 临床知识注入器的效果

当注意力模块分别结合临床历史和知识图时,结果存在显著差异,如(d)和(e)(表3)。这种差异主要源于解码阶段,同时引入两种高维跨模态特征(视觉特征和节点特征)而缺乏适当的对齐机制会导致次优结果。相比之下,使用低维文本特征作为辅助对齐机制更为有效,这有助于视觉和节点特征的同步。

2.3 定性分析

与基线相比,本研究提出的模型生成了更多样化且更长的句子,并更注重对异常区域的描述(图5)。本研究的模型能够很好地捕捉图像中的细微病变,并生成几乎与真实报告相同的句子。例如,本研究生成的报告完整地重述了当前患者的身体位置,并准确描述了基线模型未提到的各种症状细节,例如肺水肿。在描述支持设备的同一句话中,本研究的模型成功识别出医疗管为NG管,而基线错误地认为是Dobhoff导管。

3 讨论

尽管胸部X光是广泛应用于胸部疾病筛查的基础影像工具,但对于经验不足的放射科医生而言,准确识别图像中的异常区域,并清晰描述病变特征仍是一个具有挑战性的任务。此外,由于胸片分辨率相对较低,并且所蕴含的信息纷繁复杂,手动报告撰写极易受到主观因素的影响,从而影响诊断的一致性和准确性。因此,开发能够生成高质量、精准报告的自动化模型,不仅可以为临床医生提供有效支持,还能提高疾病诊断和管理的效率。

在正常数据偏差问题上,本研究通过对比注意力来增强异常区域的特征,确保模型可以更好地关注到重要的疾病区域,生成更符合临床应用的医学报告。传统的报告生成模型平等对待每一张图像,使得数据集中占据主导地位的正常胸片和描述其正常区域的报告深刻影响模型学习,导致传统模型更加倾向于生成描述正常区域的句子,忽略掉重要且稀少的描述异常区域的句子。针对这一问题,不少研究42627提出解决策略,通过引入一种层次化的递归神经网络,结合主题匹配机制与软注意力26,从而使模型能够更准确地检测异常区域;提出了一个AHA模块,该模块通过从输入图像中预测标签并将视觉区域与标签对齐27,使模型能够更好地表征异常区域;Liu等4则通过提取对比信息消除了正常偏倚,从而增强了异常区域的检测能力。本研究则是利用数据集中大量的正常图像,使用 k-means聚类构建正常特征集以覆盖绝大部分正常特征,通过对比区域注意力计算找出与输入图像最相似的正常特征,然后经过拼接返回原始图像、减法等操作实现削弱每个图像块中的正常特征,从而达到增强异常区域特征的目的。

在跨模态信息交互的问题上,本研究结合当前先进的U型连接模式,保证多模态信息的全面交互。传统的Transformer结构12仅将编码器最后一层的输出作为解码器每一层的输入;而为了充分利用编码器各层的信息,有研究15提出网状Transformer结构,使每一编码层与每一解码层之间进行交互;提出一个增强记忆的稀疏注意模块,通过双线性池化捕获输入细粒度图像特征之间的高级交互28;Chen等29使用了一个记忆矩阵来存储跨模态信息,并对最相关的记忆向量进行加权以生成报告。然而,这些方法在某些方面存在缺陷,例如传统方法仅利用最后一层的结果,可能导致跨模态任务的交互不足,而密集方法则使用了大量计算参数。而本研究采用的U型Transformer,其具有更丰富的跨模态交互能力且参数较少,更好实现高效交互。同时,本研究也对U型连接也进行更加全面的论证,证明越深层次的抽象的视觉特征与越浅层次的具体的文本特征可以让模型更好的学习到他们之间的联系,反之亦然,充分解释了U型Transformer的原理所在。

在以往未完全利用额外临床信息的问题上,本研究借鉴放射科医生的培训方法,从视觉知识、知识图谱和临床历史引入先验知识。在现有的数据集中,传统模型只用到其中最基础的“发现”作为胸片报告,忽略了元数据中其他的额外信息,没有充分利用存在的信息。一些研究也考虑外部信息用来辅助生成更优的报告,探索通过知识图谱辅助报告生成722232425,例如,有研究24提出将图像作为后验知识和知识图谱作为先验知识的报告生成方法;通过融合视觉特征与外部医学文本特征22,实现了图谱编码与医学知识的融合;设计一种跨模态原型驱动网络23,利用共享原型矩阵作为外部知识;采用预设计的图谱,涵盖常见异常或病症特征,为每种疾病特征提供专门的学习能力25。因此,本研究提出利用输入图像的视觉特征、元数据集中其他的描述信息、以及运用ChatGPT生成关于疾病与器官的知识图谱,并将这些多模态信息融合输入到文本解码器中,帮助模型更好地理解图像与文本的联系,生成更符合医生阅读习惯的医学影像报告。

综上所述,本研究提出了一种对比区域注意力 U-Transformer 模型,该模型整合了多种临床信息源,以增强模型关注异常区域并生成描述性报告的能力。我们的模型模拟了放射科医生的诊断过程,首先区分正常和异常图像,同时利用外部知识图谱、视觉表征和临床病史提供全面且多层次的理解。这些临床知识通过知识融合器与解码器的输出结合,从而生成更精确和信息丰富的报告。本研究在两个广泛认可的基准数据集上进行了实验,结果表明我们提出的方法在生成临床意义显著的报告方面的有效性。在BLEU-4、ROUGE-L、CIDEr等多个指标上,我们的方法均优于或达到现有的最先进方法(SOTA),验证了本研究模型的效能。

本文对胸片报告生成进行了深入研究,但仍存在一些局限性,需要进一步改进和优化。以下是未来研究的几个重点方向:

知识图谱的扩展与优化。目前,我们构建的知识图谱主要涵盖了胸部X光的14种最常见症状,这在一定程度上限制了模型在处理罕见病情和新疾病特征方面的能力。为了增强模型的泛化能力,我们计划引入更多种类的症状标签,并结合更广泛的医学知识库(如医学文献、临床指南等)来扩展知识图谱的覆盖范围。此外,还将探索动态知识图谱的构建方法,使其能够根据新出现的疾病特征和临床数据进行实时更新,从而提升模型在复杂和罕见病例中的表现。

临床准确性的提升。尽管我们的模型在自然语言生成指标上表现优异,但在临床评价指标(如F1分数、精确率和召回率)上并未显示出显著改进。这表明生成的报告在临床应用中仍可能存在一定的误差。为了提升模型的临床准确性,计划引入更精细的临床标签体系,并结合多任务学习框架,使模型在生成报告的同时能够进行疾病分类和异常区域检测。

全模态数据融合与应用。除了胸片图像和文本报告外,临床实践中还包含其他多模态数据(如电子健康记录、实验室检查结果等)。未来将探索如何将这些多模态数据融合到报告中,以提供更全面的临床信息支持。

此外,由于该模型主要是在两个公开的数据集上开展研究,对于不同临床中心的影像数据上还未开展测试,这主要是因为收集并处理不同中心的胸片和报告需要花费大量时间,目前还未找到合适的数据集,所以本研究只是沿用之前模型相同的数据集作为实验对象。但可预见的是,CRAKUT的效果在不同临床中心的影像数据确实会受到一定影响,可能会面临以下问题和挑战:不同临床中心的数据在设备类型、成像参数、患者群体特征等方面可能存在显著差异,在数据分布差异较大的情况下,模型的泛化能力仍面临巨大挑战;不同临床中心在影像标注和报告撰写上存在不一致的标准,对模型的输出一致性产生影响;实际的临床中心可能收治不同比例的罕见病和复杂病例,这对于模型在罕见病检测的稳定性依然是重大考验。

参考文献

[1]

Raoof S, Feigin D, Sung A, et al. Interpretation of plain chest roentgenogram[J]. Chest, 2012, 141(2): 545-58. doi:10.1378/chest.10-1302

[2]

Jing BY, Xie PT, Xing E. On the automatic generation of medical imaging reports[EB/OL]. 2017. doi:10.18653/v1/p18-1240

[3]

Vinyals O, Toshev A, Bengio S, et al. Show and tell: a neural image caption generator[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 3156-64. doi:10.1109/cvpr.2015.7298935

[4]

Liu FL, Yin CC, Wu X, et al. Contrastive attention for automatic chest X-ray report generation[EB/OL]. 2021. doi:10.18653/v1/2021.findings-acl.23

[5]

Johnson AEW, Pollard TJ, Greenbaum NR, et al. MIMIC-CXR-JPG, a large publicly available database of labeled chest radiographs[EB/OL]. 2019. doi:10.1038/s41597-019-0322-0

[6]

Demner-Fushman D, Kohli MD, Rosenman MB, et al. Preparing a collection of radiology examinations for distribution and retrieval[J]. J Am Med Inform Assoc, 2016, 23(2): 304-10. doi:10.1093/jamia/ocv080

[7]

Brown T, Mann B, Ryder N, et al. Language models are few-shot learners [J]. Adv Neural Information Processing Systems, 2020, 33:1877-901.

[8]

Huang ZZ, Zhang XF, Zhang ST. KiUT: knowledge-injected U-transformer for radiology report generation[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023: 19809-18. doi:10.1109/cvpr52729.2023.01897

[9]

Nguyen HTN, Nie D, Badamdorj T, et al. Automated generation of accurate & fluent medical X-ray reports[EB/OL]. 2021. doi:10.18653/v1/2021.emnlp-main.288

[10]

Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 4700-8. doi:10.1109/cvpr.2017.243

[11]

Huang L, Wang WM, Chen J, et al. Attention on attention for image captioning[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV), 2019: 4634-43. doi:10.1109/iccv.2019.00473

[12]

Vaswani A, Shazeer N, Parmar N, et al. Polosukhin, "Attention is all you need"[J]. Adv Neural Information Processing Systems, 2017,30: 1305.

[13]

Tran A, Mathews A, Xie LX. Transform and tell: entity-aware news image captioning[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 13035-45. doi:10.1109/cvpr42600.2020.01305

[14]

Pan YW, Yao T, Li YH, et al. X-linear attention networks for image captioning[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 10971-80. doi:10.1109/cvpr42600.2020.01098

[15]

Cornia M, Stefanini M, Baraldi L, et al. Meshed-memory transformer for image captioning[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 10578-87. doi:10.1109/cvpr42600.2020.01059

[16]

Nguyen VQ, Suganuma M, Okatani T. GRIT: faster and better image captioning transformer using dual visual features[M]//Cham: Springer Nature Switzerland, 2022: 167-84. doi:10.1007/978-3-031-20059-5_10

[17]

Xu K, Ba J, Kiros R,et al. Show, attend and tell: Neural image caption generation with visual attention[J]. Computer Science, 2015, (2): 2048-57. doi:10.1109/cvpr.2015.7298935

[18]

Jing BY, Wang ZY, Xing E. Show, describe and conclude: on exploiting the structure information of chest X-ray reports[EB/OL]. 2020. doi:10.18653/v1/p19-1657

[19]

Liu G, Hsu H, McDermott M, et al. Clinically accurate chest x-ray report generation[J]. PMLR, 2019, 106: 249-69.

[20]

Chen ZH, Shen YL, Song Y, et al. Cross-modal memory networks for radiology report generation[EB/OL]. 2022. doi:10.18653/v1/2021.acl-long.459

[21]

Chen ZH, Song Y, Chang TH, et al. Generating radiology reports via memory-driven transformer[EB/OL]. 2020. doi:10.18653/v1/2020.emnlp-main.112

[22]

Li M, Liu R, Wang F, et al. Auxiliary signal-guided knowledge encoder-decoder for medical report generation[J]. World Wide Web, 2023, 26(1): 253-70. doi:10.1007/s11280-022-01013-6

[23]

Wang J, Bhalerao A, He YL. Cross-modal prototype driven network for radiology report generation[M]//Computer Vision. Springer Nature Switzerland, 2022: 563-79. doi:10.1007/978-3-031-19833-5_33

[24]

Liu FL, Wu X, Ge S, et al. Exploring and distilling posterior and prior knowledge for radiology report generation[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 13753-62. doi:10.1109/cvpr46437.2021.01354

[25]

Zhang Y, Wang X, Xu Z, et al. When radiology report generation meets knowledge graph [C]// Proceedings of the AAAI Conference on Artificial Intelligence, 2020: 12910-7. doi:10.1609/aaai.v34i07.6989

[26]

Yin CC, Qian BY, Wei JS, et al. Automatic generation of medical imaging diagnostic report with hierarchical recurrent neural network[C]//2019 IEEE International Conference on Data Mining (ICDM), 2019: 728-37. doi:10.1109/icdm.2019.00083

[27]

You D, Liu FL, Ge S, et al. AlignTransformer: hierarchical alignment of visual regions and disease tags for medical report generation[C]//Medical Image Computing and Computer Assisted Intervention, 2021: 72-82. doi:10.1007/978-3-030-87199-4_7

[28]

Wang ZY, Tang MK, Wang L, et al. A medical semantic-assisted transformer for radiographic report generation[C]//Medical Image Computing and Computer Assisted Intervention, 2022: 655-64. doi:10.1007/978-3-031-16437-8_63

[29]

Yang S, Wu X, Ge S, et al. Knowledge matters: Chest radiology report generation with general and specific knowledge[J]. Med Image Anal, 2022, 80: 102510. doi:10.1016/j.media.2022.102510

[30]

Wang ZY, Liu LQ, Wang L, et al. METransformer: radiology report generation by transformer with multiple learnable expert tokens[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023: 11558-67. doi:10.1109/cvpr52729.2023.01112

[31]

Li M, Lin B, Chen Z, et al. Dynamic graph enhanced contrastive learning for chest x-ray report generation[C]//2023 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023: 3334-43. doi:10.1109/cvpr52729.2023.00325

[32]

Tanida T, Müller P, Kaissis G, et al.Interactive and explainable region-guided radiology report generation[C]//IEEE/CVF Con-ference on Computer Vision and Pattern Recognition, 2023: 7433-42. doi:10.1109/cvpr52729.2023.00718

基金资助

RIGHTS & PERMISSIONS

版权所有©《南方医科大学学报》编辑部2021

AI Summary AI Mindmap
PDF (1514KB)

291

访问

0

被引

详细

导航
相关文章

AI思维导图

/