基于CLIP模型和文本重建的人脸图像生成方法研究

李源凡, 张丽红

测试技术学报 ›› 2024, Vol. 38 ›› Issue (02) : 154 -160.

PDF
测试技术学报 ›› 2024, Vol. 38 ›› Issue (02) : 154 -160.

基于CLIP模型和文本重建的人脸图像生成方法研究

    李源凡, 张丽红
作者信息 +

Author information +
文章历史 +
PDF

摘要

针对文本生成人脸方法中生成图像与文本描述不一致、图像分辨率较低等问题,提出一种跨模态文本生成人脸图像网络框架。首先,采用CLIP预训练模型对文本进行特征提取,通过条件增强模块增强文本语义特征并生成隐藏向量;然后,将隐藏向量通过映射网络投影到预训练模型StyleGAN的隐式空间中获得解纠缠隐藏向量,将该向量输入到StyleGAN生成器中生成高分辨率人脸图像;最后,采用文本重建模块将人脸图像重新生成文本,计算重建文本和输入文本之间的语义对齐损失,并将其作为语义监督指导网络训练。在Multi-Modal CelebA-HQ和CelebAText-HQ两个数据集上进行训练与测试,实验结果表明,相比其他方法,该方法能生成更加符合文本描述的高分辨率人脸图像。

关键词

文本生成人脸 / 跨模态 / CLIP预训练 / 文本重建 / 文本映射

Key words

引用本文

引用格式 ▾
基于CLIP模型和文本重建的人脸图像生成方法研究[J]. 测试技术学报, 2024, 38(02): 154-160 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

62

访问

0

被引

详细

导航
相关文章

AI思维导图

/