生成模型不仅能深入理解数据的分布,还能基于此创造出全新的数据样本,已广泛应用于图像生成、音乐创作、文本生成等领域,在机器学习领域扮演着至关重要的角色。近年来,生成模型在医学领域展现出巨大潜力,尤其在医学影像去噪、超分辨率增强、心电图预测和肿瘤识别等方面。生成模型利用无标注数据集进行训练,提高数据使用效率的同时,还显著增强了模型的泛化性和迁移性,为医疗诊断等奠定了坚实基础。
1 基于深度学习的图像生成算法
图像生成是计算机视觉中的基本问题,也是重要的研究方向。目前该技术的主要应用方向为图像上色、图像风格转换、图像修复、超分辨率图像生成等。基于深度学习的图像生成算法主要有4类:(1)基于自回归模型的图像生成算法(autoregressive models);(2)基于变分自编码器的图像生成算法(variational auto-encoder,VAE);(3)基于生成对抗网络的图像生成算法(generative adversarial networks,GAN);(4)基于扩散模型的图像生成算法(diffusion models)。
图1以时间轴的方式展示了生成模型的发展历程
[1-4],从cGAN模型到Cola-diffusion模型,反映了人工智能模型在图像生成领域的进步。
表1概括了4种图像生成算法的基础架构、训练方法、损失函数以及各自的优势和局限。
表2归纳了当前流行的图像生成产品分析。
1.1 基于自回归模型的图像生成算法
基于自回归模型的图像生成算法,主要思想是对顺序的像素点的值进行预测,以前面生成的像素点作为参考,得到后面生成的像素点预测值,然后将所有像素点的概率相乘得到生成图像的分布。主要公式如下:
其中,表示整个图像,表示第i个像素点,表示在之前的所有像素点,N是图像中像素点的总数。
1.2 基于变分自编码器的图像生成算法
基于变分自编码器的图像生成算法由Kingma和Welling
[6]在2013年首次提出。由于其出色的生成能力和灵活性,VAE在深度学习领域迅速获得了广泛关注。其主要思想是用编码器和解码器以及变分推断的方法学习隐空间到真实图像空间的映射,从而完成图像的生成。其损失函数如下:
其中第1项是重参数化后的期望重构损失,第2项是隐变量分布与先验分布之间的Kullback-Leibler (KL)散度。
1.3 基于生成对抗网络的图像生成算法
生成式对抗网络是一种强大的深度学习模型,由Goodfellow等
[7]在2014年首次提出。GAN通过引入两个相互竞争的生成器和判别器来生成数据。GAN的核心思想是模拟一个生成过程,生成器接收随机噪声向量z作为输入,这个向量通常为均匀分布或高斯分布。生成器网络通过学习将低维的噪声向量映射到高维的数据空间,从而生成新的数据样本。判别器则接收来自生成器的假样本
和来自真实数据集的真实样本,并尝试区分它们。判别器的输出是一个概率值,表示输入样本为真实数据的可能性。
在训练过程中,生成器和判别器通过对抗的方式进行优化。生成器尝试生成难以被判别器识别的数据,而判别器则不断提高其能力以正确分类真实和生成的数据,损失函数如下:
其中,是判别器对真实样本x的判断,是生成器生成的假样本,是真实数据的分布,而是噪声向量的分布。
1.4 基于扩散模型的图像生成算法
扩散模型的理论基础可以追溯到20世纪初期非平衡热力学领域,该物理现象启发了机器学习领域中扩散模型的构建。扩散模型作为一种图像生成模型,最早由斯坦福大学的Sohl-Dickstein在2015年提出,而后2020年Ho等
[8]提出的去噪扩散概率模型(denoising diffusion probabilistic models,DDPM)标志着该模型在图像生成技术上取得了重要的进展。
扩散模型的核心机制在于模拟数据从其原始分布向一个简化分布(如高斯分布)的逐步过渡,在过程中逐步地向数据中添加噪声,直至数据完全变为噪声。随后,模型通过逆扩散过程,即去噪步骤,逐步从噪声状态恢复出有价值的数据。在正向扩散阶段,数据样本的复杂性逐步降低;而在逆向过程中,模型学习如何从简化的噪声分布中重建原始数据的分布,进而生成与训练集中数据相似的新样本。
在扩散模型中,生成过程被分解为多个小步骤,每一步都对应于向数据中添加一定量的噪声,其公式如下:
其中,是第t步的扩散状态,是原始数据点,是从高斯分布中采样的噪声,而是一个预定的方差调度,控制每一步噪声的添加量。
逆扩散过程,模型需要学习如何逐步去除噪声并恢复出原始数据。这个过程可以通过最小化去噪损失函数来实现,其公式如下:
其中,是通过逆扩散过程生成的样本,而是原始的真实数据。通过优化这个损失函数,模型学习如何准确地从噪声中恢复数据。
基于深度学习的图像生成算法主要有以上4类,
图2归纳了以这四类模型为基础的变体模型。
2 基于深度学习的医学图像生成
2.1 基于深度学习的<bold>CT</bold>生成方法
基于深度学习的CT合成技术在捕捉CT与源模态之间复杂的非线性映射方面表现出色,能够生成逼真的合成图像。这些方法在临床和非临床应用中均已证明其优越性,相比传统方法(如基于图谱和体素的方法)性能显著提升。特别是基于卷积神经网络(convolutional neural network,CNN)和生成对抗网络
[12]的方法在从源图像模态准确估计CT Hounsfield单位(HU)方面表现出了巨大潜力
[13]。此外,新型的Transformer和扩散模型在生成高保真合成图像方面表现出色
[14]。
深度3D网络在编码MRI和CT之间复杂映射以获得更精确的HU预测方面表现更佳。Fu等
[15]首次展示用于MRI到CT翻译的端到端3D CNN模型,验证了这一点。Zimmermann等
[16]提出的3D U-Net方法则通过多序列MRI生成CT图像,有效提高了CT图像的生成质量。此外,3D cGAN的方法被广泛用于解决2D网络中的图像切片不连续性问题。为了降低3D深度网络的高计算成本,部分研究采用创新方法,利用2D图像保留图像的3D结构信息。Pandeva和Schubert
[17]提出了一种引入编码器的生成对抗网络,用于保留多模态分布。
从头颈MRI图像预测CT图像具有挑战性,因为患者解剖结构和成像协议的多样性。Touati等
[18]提出了一种新颖的特征不变方法,以匹配合成的和真实CT图像在颈部和头部区域的共同结构细节。胸部图像的合成也由于肺的电子密度的异质性和建模病变的难度而具有挑战性
[15]。通过为肿瘤区域分配高密度值的混合方法,研究者成功地展示了合成胸部CT成像在准确复制复杂肺区域细节方面的能力。
在MRI和CT图像之间映射时,许多基于GAN的CT合成方法依赖于使用单一MR序列映射CT图像
[19]。然而,这些方法没有解决MR对比度和协议的变化问题。增强型CycleGAN(AugCycleGAN)是一种创新方法,通过使用多中心数据提高CycleGAN的普遍性来解决这一限制
[20]。
最近的大多数医学图像翻译方法专注于翻译整个图像的效果,而不是特定的感兴趣区域。Emami等
[21]提出了一种基于注意力的GAN方法,通过在判别器中计算空间注意力来协助生成器关注真实与合成CT图像之间差距较大的区域。在合成CT图像时保留高频细节是一大挑战。标准损失函数(包括L1损失)在低频图像内容中表现良好,但在高频细节方面效果不佳。Zhao等
[22]提出了一种新颖的方法,通过将对抗框架与非对抗损失独特结合来捕捉图像目标模态中的高频和低频成分。由于其生成高保真图像的潜在能力,Vision Transformers和基于扩散的方法已在最近的文献中用于CT合成。结合CNNs和Transformers的混合架构被引入以捕捉MR图像中的多层次信息并合成具有改进的强度和结构细节的CT。见
表3。
2.2 基于深度学习的<bold>MR</bold>生成方法
利用深度学习技术的多模态MR图像合成表现出良好的前景。根据当前关于MR模态之间映射的最先进方法,MR合成可分为基于单模态和多模态的深度学习策略。Chartsias等
[23]提出一种能够通过现有的模态还原缺失的模态的方法,大多数MR对比度合成技术依赖于GAN进行图像到图像翻译,利用2D U-Net生成器和PatchGAN判别器
[24]。此外,Transformer和基于扩散的方法在最新的MRI合成研究中备受关注
[25]。
在MR合成中,保留3D信息对于提高合成图像的精度和真实性非常重要。传统的对抗性方法难以处理高分辨率和3D特征。Zhan等
[26]提出了一种3D多尺度补丁方法,通过低分辨率GAN和逐级高分辨率GAN提升图像细节。Meng等
[27]则通过从高频细节中提取深层语义信息,并将这些信息与解码器网络中的特征映射结合,来增强网络的特征。对于多对比域数据,许多MR合成技术依赖于两个对比的合成,如从T2加权(T2W) MRI生成T1加权(T1W) MRI。同时,也有研究探索多模态图像合成,以充分利用多模态MRI中获取的解剖特征。Chartsias等
[23]展示了一种基于模态不变潜在表示的学习方法,将所有输入模态映射到共享的潜在空间中。
虽然多模态MRI合成具有从多个图像对比中学习共享特征的优势,尤其是当特征在单个源模态中表示较弱时,Yurt等
[28]发现完全忽略图像对之间一对一翻译是一个重大问题,因此开发了多流GAN模型,利用不同模态的共享和互补图像特征来充分利用单模态和多模态图像合成的优势。与传统的基于对抗的生成方法相比,Vision Transformers由于其良好的性能和在医学成像任务中建模上下文数据表示的能力而引起了更多的关注。Dalmaz等
[29]引入了首个用于医学图像合成的基于Transformer的生成器模型,称为Residual Vision Transformers (ResViT)。基于得分的生成模型通过随机扩散技术在高效采样目标分布方面表现出色。Qin等
[30]通过引入无分类器的条件扩散方法提出了首个基于得分的跨模态MRI合成模型。见
表4。
2.3 基于深度学习的<bold>CTA</bold>生成方法
医学图像生成是一个快速发展的领域,它利用深度学习技术从低剂量或非对比CT扫描中产生高质量的图像。这些图像可以达到与对比增强CTA相当的诊断性能且无需注射造影剂。例如,Chen等
[31]开发了一种级联生成辅助网络,通过CT平扫合成二维CTA切片来诊断主动脉夹层。他们的方法结合了图像配准、nnU-Net分割和带有DCT通道关注机制的双鉴别器网络。Lyu等
[32]提出了一种基于生成式对抗网络的模型,该模型在不使用造影剂的情况下生成颈部和腹部CTA样图像,在外部验证集上实现了0.906的结构相似性。Killekar等
[33]使用条件GAN从完全配准的无对比薄层CT生成伪对比CTA。Lyu等专注于颈部和腹部大血管的生成,Killekar等专注于心脏解剖的评估。他们的方法有可能在某些临床应用中取代造影剂CTA和伪造影剂CTA,如心脏解剖评估。见
表5。
3 讨论
医学影像生成是医学影像研究中一个充满前景的领域,为医学研究提供潜在应用场景
[69-70],例如通过跨模态转换,可实现无需造影剂的CT/MRI直接生成PET/CTA影像,有望解决造影剂过敏或肾功能不全患者无法做检查问题。本文总结了近期医学影像生成研究的文献,通过介绍4种生成领域的经典模型,总结在不同模态转化情况下,生成模型的适用性和效果及可能促成相应的临床应用。
然而,该领域仍面临若干挑战。(1)模态间差异性:针对不同模态的特性,需优化模型架构和损失函数,以实现更准确的跨模态影像生成;(2)数据配对问题:医学影像的采集成本高昂,获取大量高质量的成对数据样本在医学影像领域尤为困难;(3)计算成本问题。大多数研究采用复杂的深度学习架构,而医学影像数据通常是高维的,这就需要强大的计算资源来支持模型的高效训练。
未来的研究工作可以聚焦于以下几个关键领域:提升数据多样性和丰富性,加强跨模态影像的生成与融合技术,优化实时处理算法。构建规模更大、更具代表性的医学影像数据集,以支持生成模型的训练和优化;探索多模态影像融合技术,以增强临床诊断的准确性;提高数据采集速度和算法效率,以满足临床应用的需求。
本综述详细调研了关于医学影像生成的最新文献,通过模型构建和损失函数公式详细介绍了经典的4种生成算法,并评估了这4类医学影像生成算法在跨模态医学影像生成方面的表现,以生成CT、生成MRI和生成CTA三个维度为例,研究基于不同部位不同模态间转换的深度学习生成方法。此外,我们确定了当前的挑战和潜在的未来研究方向,为其他研究人员提供借鉴,使医学影像生成技术更好地发展和创新。