基于文本引导的人脸图像修复

廉敬; 张继保; 刘冀钊; 张家骏; 董子龙

doi:10.13229/j.cnki.jdxbgxb.20240051

吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (08) : 2732 -2740. DOI: 10.13229/j.cnki.jdxbgxb.20240051

基于文本引导的人脸图像修复

廉敬, 张继保, 刘冀钊, 张家骏, 董子龙

作者信息 +

Author information +

文章历史 +

PDF

摘要

针对目前人脸修复方法存在结构扭曲、纹理模糊以及不可控等问题，提出了一种文本引导的人脸图像修复方法。该方法通过融合图像特征和相应的文本特征来重建图像中的缺失区域。在网络训练中，设计了视觉-文本模态融合模块，用于关联图像和文本特征，使重建人脸缺失区域不仅以图像中可见的视觉语义为基础，还以具有丰富的文本语义为指导。在编码和解码特征之间添加了一个注意力感知层，以提高可见区域和生成区域外观的一致性。在CelebA-HQ人脸数据集上的实验结果表明：本文方法能够得到在纹理和结构上更自然且符合文本语义的修复结果，其视觉效果和评价指标均优于对比算法。