基于改进稳定扩散模型与噪声拼接的文本生成图像算法

李文瑶, 杜洪波, 张琪

南京信息工程大学学报 ›› 2026, Vol. 18 ›› Issue (02) : 192 -201.

PDF
南京信息工程大学学报 ›› 2026, Vol. 18 ›› Issue (02) : 192 -201. DOI: 10.13878/j.cnki.jnuist.20250424001

基于改进稳定扩散模型与噪声拼接的文本生成图像算法

作者信息 +

Author information +
文章历史 +
PDF

摘要

针对文本生成图像算法存在的部分特征缺失、生成图像质量低及布局属性不匹配等问题,提出一种基于改进稳定扩散模型的文本生成图像算法(ISDNC).通过引入判别器来最大化潜在表征和浅层特征的互信息,提高潜在表征与浅层特征的相似度,保留原始图像信息;根据主干网络和跳跃连接的作用,引入比例因子,动态调节特征的权重比例,提高生成图像的质量;结合NoiseCollage网络,增加布局条件,通过掩膜交叉注意力机制实现复杂的多目标文本条件的图像生成.在MS COCO数据集上与Cogview、DF-GAN、 Stable Diffusion、 KNN-diffusion算法进行定性和定量分析及消融实验,结果表明:ISD-NC算法生成的图像具有更优的细节保真度和生成质量;与基于扩散模型的Stable Diffusion、KNNdiffusion算法相比,FID平均降低28.99%,IS平均提升10.21%.

关键词

扩散模型 / 文本生成图像 / 噪声拼接 / 互信息 / 主干网络特征 / 跳跃连接特征

Key words

引用本文

引用格式 ▾
李文瑶, 杜洪波, 张琪. 基于改进稳定扩散模型与噪声拼接的文本生成图像算法[J]. 南京信息工程大学学报, 2026, 18(02): 192-201 DOI:10.13878/j.cnki.jnuist.20250424001

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/