基于CLIP微调的扩散模型安全化

吴平; 林欣

华东师范大学学报（自然科学版） ›› 2025, Vol. 0 ›› Issue (1) : 138 -150.

基于CLIP微调的扩散模型安全化

吴平, 林欣

作者信息 +

Author information +

文章历史 +

PDF

摘要

扩散模型变革了文本–图像生成领域,使终端用户可以基于简单的自然语言提示生成高质量、多样化的图像艺术作品.然而,由于训练数据集庞大且未经过滤,文本–图像生成模型具有生成色情内容与暴力内容等不适当内容的能力.为更加安全地部署此类模型,提出了一种基于CLIP (contrastive languageimage pre-training)方向性损失的微调(directional CLIP loss based fine-tuning, CLIF)算法,使用方向性的CLIP损失来微调模型,以抑制其生成不适当内容的能力. CLIF消耗的计算资源很少,并且具有强制生效的特点.为评估其抑制效果,提出了CTP (categorized toxic prompts)用于评估文本–图像生成模型的不适当内容生成能力.在CTP与COCO (common objects in context)上的实验结果表明, CLIF能够在抑制文本–图像扩散模型生成不安全内容的同时不影响其一般性生成能力.