基于改进扩散模型结合条件控制的文本图像生成算法

杜洪波, 薛皓元, 朱立军

南京信息工程大学学报 ›› 2025, Vol. 17 ›› Issue (05) : 611 -623.

PDF
南京信息工程大学学报 ›› 2025, Vol. 17 ›› Issue (05) : 611 -623. DOI: 10.13878/j.cnki.jnuist.20240619003

基于改进扩散模型结合条件控制的文本图像生成算法

    杜洪波, 薛皓元, 朱立军
作者信息 +

Author information +
文章历史 +
PDF

摘要

针对现有的文本图像生成方法存在图像保真度低、图像生成操作难度大、仅适用于特定的任务场景等问题,提出一种新型的基于扩散模型的文本生成图像方法.该方法将扩散模型作为主要网络,设计一种新型结构的残差块,有效提升模型生成性能;通过添加注意力模块CBAM来改进噪声估计网络,增强了模型对图像关键信息的提取能力,进一步提高了生成图像质量;结合条件控制网络,有效地实现了特定姿势的文本图像生成.与KNN-Diffusion、CogView2、textStyleGAN、SimpleDiffusion等方法在数据集CelebA-HQ上做了定性、定量分析以及消融实验,根据评价指标以及生成结果显示,本文方法能够有效提高文本生成图像的质量,FID平均下降36.4%,Inception Score(IS)和结构相似性指数(SSIM)分别平均提高11.4%和3.9%,验证了本文算法的有效性.同时,本文模型结合了ControlNet网络,实现了定向动作的文本图像生成.

关键词

扩散模型 / 文本图像生成 / 条件控制 / 残差块 / CBAM

Key words

引用本文

引用格式 ▾
基于改进扩散模型结合条件控制的文本图像生成算法[J]. 南京信息工程大学学报, 2025, 17(05): 611-623 DOI:10.13878/j.cnki.jnuist.20240619003

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

79

访问

0

被引

详细

导航
相关文章

AI思维导图

/