融合多尺度特征的小样本字体生成

杨娜 ,  殷雁君

内蒙古师范大学学报(自然科学版) ›› 2024, Vol. 53 ›› Issue (02) : 207 -214.

PDF (1919KB)
内蒙古师范大学学报(自然科学版) ›› 2024, Vol. 53 ›› Issue (02) : 207 -214. DOI: 10.3969/j.issn.1001-8735.2024.02.012

融合多尺度特征的小样本字体生成

作者信息 +

Few-Shot Font Generation Fusing Multi-Scale Features

Author information +
文章历史 +
PDF (1964K)

摘要

通过模型MS-Font设计一种多尺度生成器(multiscale generator,MG), 用于提取文字不同尺度结构信息特征,并将浅层信息和深层信息进行多尺度特征融合,构建不同尺度特征图之间的联系,以增强字体内容与 风格信息的有效表达,提高生成网络的字体重构能力。在给定数据集上进行大量实验,结果表明模型MS-Font结果均优于对比算法,在FUNIT模型基础上,LPIPS提高0.007,SSIM提高0.12,ACC(S)提升5.2,ACC(C)提升4.0,验证了提出模型MS-Font的有效性。

Abstract

To improve the image quality of target font, few shot font generation model MS-Font with multi-scale features was proposed to solve the problems of single feature extraction, missing details of target font generation and poor overall aesthetics in current font generation methods. In the paper, the model MS-Font was proposed to design a Multiscale generator (MG), which was used to extract the information features of different scale structure of text, and integrate the multi-scale features of shallow and deep information to build the connection between different scale feature maps, so as to enhance the effective expression of font content and style information. and improve the font reconstruction capability of the generation network. The results of a large number of experiments on the given data set showed that the proposed MS-Font model was superior to the comparison algorithm, and the LPIPS increased by 0.007, SSIM increased by 0.12, ACC (S) increased by 5.2, ACC (C) increased by 4.0 on the basis of FUNIT model, which confirmed the effectiveness of the proposed MS-Font model.

Graphical abstract

关键词

小样本字体生成 / 多尺度特征提取 / 生成对抗网络

Key words

few shot font generation / multi-scale feature extraction / generative adversarial network

引用本文

引用格式 ▾
杨娜,殷雁君. 融合多尺度特征的小样本字体生成[J]. 内蒙古师范大学学报(自然科学版), 2024, 53(02): 207-214 DOI:10.3969/j.issn.1001-8735.2024.02.012

登录浏览全文

4963

注册一个新账户 忘记密码

小样本字体生成(few-shot font generation,FFG)1是目前字体生成领域的主流任务之一,旨在使用少量参考字体对源字形字体进行转换,实现在字符语义内容不变的情况下,生成其他字体风格的文字。近年来,随着大众传媒的迅猛发展,小样本字体生成在个性化字体设计中的需求日益增长2,如何高效、低成本地设计出指定文字风格的字体库成为亟待解决的重要问题。
深度学习技术的不断发展和应用,利用深度学习技术进行字体生成工作受到越来越多的关注。例如,Tian等3借鉴图像风格迁移的思想,使用CNN结构实现字体风格转换。Chang等4使用CycleGAN和DenseNet代替CNN结构,提出个性化手写字体模型HCCG。但是,上述字体生成方法存在风格特征和 内容特征解耦差的问题,导致生成目标字体质量欠佳。
为有效分离文字包含的内容特征和风格特征,研究者尝试使用双编码器分别捕获字符内容特征和风格特征56。通过使用风格编码器和内容编码器对输入的字体风格和内容信息进行编码,然后将编码结果送入混合器中进行融合,最终再由解码器将融合后的编码结果还原成输出的新字体设计。该方法虽然能够有效分离字符内容和风格特征,但存在多风格转换缺陷的问题。为解决此问题,Gao等提出采用多个判别器,实现多种风格转换的AGIS-Net网络1。Li等引入注意力机制,以捕获全局字体风格和局部字体风格2。为了进一步提升模型对字体风格特征的捕获能力,Tang等7提出使用多头注意力学习字符内容和字体风格之间的空间对应关系,以实现内容中的每个空间位置分配正确的局部字体风格。Zeng等8引入笔画编码信息来帮助模型更好地捕捉字符结构特征;为协调字体整体风格与目标字体风格的视觉一致性,Zeng等9提出StrokeGAN+模型来改进字体转换的性能,以实现字体风格整体与局部的统一。
尽管当前方法在实现小样本字体生成方面已取得一定成果,但仍然存在字体生成方法提取特征单一、生成目标字体细节缺失、整体美观性欠佳的问题。针对目前模型提取特征单一的问题,本文提出融合多尺度特征的小样本字体生成模型(few shot font generation by integrating multi-scale features,MS-Font)。提出模型MS-Font以FUNIT为基本框架结构,设计了用于提取不同层次特征的多尺度生成器(multiscale generator,MG)组件。通过多尺度特征的捕获与融合,以构建多尺度特征图之间的联系,以增强字体内容与风格信息特征的有效表达,提高生成网络的字体重构能力。

1 相关技术

1.1 生成对抗网络

生成对抗网络(generative adversarial network,GAN)是一种由生成器和判别器组成的机器学习模型。其中生成器利用随机噪声或其他输入数据,生成类似于训练数据的新样本。判别器则负责区分生成器生成的样本和真实样本,并输出一个置信值来表示样本的真实性。生成对抗网络目标函数公式为

minGmaxDVD,G=Ex~pdataxlogDx+Ez~pzzlog1-DGz

其中,G表示生成器,D表示判别器,x~pdatax表示真实数据分布,z~pdataz表示随机噪声或其他输入数据的分布。在训练过程中,生成器和判别器相互博弈,通过反复迭代的方式进行优化。通过这种对抗性的训练机制,生成器不断学习,逐步生成与真实样本相似的样本,而判别器也逐渐提高辨别的准确性。最终,生成器生成高质量、逼真的样本,使得判别器无法轻易辨别。

生成对抗网络作为深度学习领域的一种强大的生成模型,为创造逼真样本提供了一种全新思路。生成对抗网络不仅为人工智能领域带来重大突破,同时展现出广泛的应用潜力。例如,被广泛应用于风格迁移10、语义分割1112、图像生成13、字体生成等领域。

1.2 多尺度特征提取

多尺度特征提取旨在提取图像中不同尺度的特征,在计算机视觉领域具有广泛的应用。例如,图像分割领域,文献[14]针对U-Net自下而上的特征融合方式忽略低级特征的问题,在Attention-UNet网络中加入多尺度特征提取方法,有效提高了分割精度。在行人检测领域,孙佩珺等15针对行人检测尺度变化的问题,提出改进的多尺度残差网络,利用不同组合的感受,有效提升模型性能。在许多任务中,为了解决特征提取欠缺的问题,研究者提出融合多尺度的浅层信息和深层信息方法,以帮助模型避免信息丢失,从而实现有效提升模型性能。

在小样本字体生成中,特征提取的关键是提取字符内容特征和字体风格特征时,能够同时兼顾浅层信息与深层信息的表达。浅层特征含有丰富的视觉信息,提供文字的整体字体外观与形态等方面的特征。深层特征则更具抽象的高级语义信息,提供字体内容与风格抽象的语义特征表达。因此,在小样本字体生成中,如何有效地对深浅不同层次特征进行融合,以捕获更为精准的字体特征表达,是当前亟待解决的问题。

2 融合多尺度特征的字体生成

2.1 整体框架

为了有效获取不同层次信息,本文提出融合多尺度特征的小样本字体生成模型(few shot font generation by integrating multi-scale features,MS-Font),MS-Font模型由多尺度生成器MG和判别器D两部分构成,其中多尺度生成器MG由多尺度特征提取模块MFE(多尺度内容特征提取分支Ec、多尺度风格特征提取分支Es)和解码器De构成,基本框架见图1

提出模型MS-Font中,定义输入内容图像X,输入风格图像Y=y1,y2,,yk,其中yi表示一种字体,k表示k种目标字体风格。将内容图像X作为多尺度内容特征提取分支Ec的输入,捕获内容特征向量Zc,计算公式为

Zc=EcX

① WU X,HU Z,SHENG L, et al. Styleformer: real⁃time arbitrary style transfer via parametric style composition[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. On Computer Vision:IEEE Computer Society, 2021:14618⁃14627.

风格图像Y输入多尺度风格特征提取分支Es,捕获风格潜在向量Zs,计算公式为

Zs=EsY

解码器De将风格潜在向量Zs和内容特征向量Zc作为输入,混合二者特征生成目标字体图像X˜。生成图像X˜计算公式为

X˜=DeZc,Zs=DeEcX,Esy1,y2,,yk

生成的目标图像X˜送入判别器对每种字体进行判别图像的真假,同时利用特征匹配损失(feature loss)和 重构损失(reconstruction loss)使生成模型更加稳定,生成字体更加逼真多样。

2.1.1 多尺度特征提取

多尺度特征提取包括多尺度内容特征提取分支Ec和多尺度风格提取分支Es。多尺度内容特征提取分支Ec保证字符内容信息的学习,利用底层和高层的字符内容特征刻画汉字整体架构和局部细节特性,帮助解码器在隐层中学习到更好的表征,提升网络的性能。多尺度风格特征提取分支Es通过捕获不同尺度特征来表示字体风格的差异,使网络能够在不同尺度中学习相关风格信息,抽取更多细节丰富的风格信息。

多尺度内容特征提取分支主要由四个二维卷积块与两个残差块构成见图2。其中第一个卷积块的滤波器大小为7×7,剩余卷积块的滤波器大小为4×4。为缓解网训练过程中梯度消失和收敛缓慢的问题,在卷积块后引入两个残差网络。这样,残差块只需学习输入和输出之间的差异,就能够有效地减轻梯度消失的问题,从而获得更好的性能和泛化能力。

多尺度风格特征提取分支与多尺度内容特征提取分支结构基本相同,不同之处在于删除了所有残差块,并增加了一层卷积操作,后处理操作的多尺度信息是后三层卷积输出的特征图。

2.1.2 特征融合

多尺度特征提取的目的是捕获不同尺度的特征信息,其中,浅层特征提供视觉信息,深层特征则提供更准确的语义信息。为了减少模型在生成字符时对单一特征的依赖,本文对捕获的不同层次特征进行特征融合,以帮助模型更好地理解字体的特征,提升模型重构字符能力。

特征融合是将多个不同层次或深度的特征进行有机整合的过程,主要帮助模型在不同尺度下更好地理解和处理输入数据。常见的特征融合有拼接、相加等方法,本文选择相加的融合方式,分别在多尺度内容特征提取分支和多尺度风格特征提取分支上的后三个卷积块进行特征融合,以提取更全面、更准确的字体特征,并提高模型生成结果的质量,融合流程见图3

从多尺度内容特征提取分支和多尺度风格特征提取分支的后三个卷积块提取特征分别为c1RH2×W2×2Cc2RH4×W4×4Cc3RH8×W8×8C。将c1c2尺寸重新调整,以匹配不同的特征通道及大小,计算公式为

c1'=Down2×2Conv1×1c1
c2'=Conv1×1

其中,Conv1×1表示1×1卷积,Down2×2表示2倍下采样。将相同尺寸的c1'c2'进行逐像素相加,计算公式为

c4=c1'+c2'

c4RH4×W4×8C进行下采样后与c3逐像素相加,计算公式为

c=Down2×2c4+c3

2.2 损失函数

为了让生成的字体图像更接近于真实图像,本文模型将多种结构化损失进行线性组合,整体损失L的计算公式

L=Ladv+λcLc+λFLF

其中,Ladv表示生成对抗网络损失、Lc表示重构损失、LF表示特征匹配损失,λcλF是控制损失函数的超参数。

(1)生成对抗网络损失

生成对抗网络损失用于判别生成目标字体图像是否正确。对于字体生成任务,生成器的目标是生成与目标字体风格一致的合成图像。而判别器的目标是准确地区分真实字体图像和合成字体图像,判别器损失可以通过最小化正确分类真实和生成的字体图像的概率来实现。计算公式为

Ladv=Ex-logDX+Ex,y1,y2,,yklog1-DX˜

其中,E表示期望。

(2)特征匹配损失

特征匹配损失用于提高生成器的性能和图像质量,通过最小化特征匹配损失,使生成器能够更好地学习到真实图像的特征分布,从而生成更加符合目标风格的字体图像。具体操作是通过,构造特征提取器Df来实现的,其结构是去除判别器最后一层的预测层。使用Df从生成图像和图像y1,,yk{中提取特征,并最小化,特征匹配损失LF计算公式为

LF=Ex,y1,y2,,ykDfX˜-i=1kDfyik1

(3)重构损失

重构损失用于指导生成器生成与输入数据尽可能相似的输出。为保证生成的目标字体与给定的源字形内容相同,采用L1损失进行重构,重构损失Lc计算公式为

Lc=ExX-GX,Y1

3 实验

3.1 数据集

为验证提出字体生成模型MS-Font,本文使用字体官网上提供的字体文件,共37种字体,其中包含 宋体、楷体等常用字体。给定6 915个常用源字形汉字。将数据集按8∶2比例划分为训练集和测试集。

3.2 评价指标

为验证MS-Font模型在字体生成上的性能,本文采用结构相似性指标(structural similarity,SSIM)和 学习感知图像相似度(learned perceptual image patch similarityLPIPS)来衡量生成图像与目标图像之间的相似度。

(1)结构相似性(SSIM)

结构相似性是一种用于评估两张图像之间结构相似性的指标,目标是模拟人类视觉系统对图像感知的方式,来衡量两张图像的相似性。即通过比较图像之间的亮度差异、对比度差异和结构差异来度量图像相似性。较高的SSIM值表示两张图像在亮度、对比度和结构上更相似。假设定义生成图像为x,目标图像为y,SSIM计算公式S

Sx,y=2μxμy+c12σxy+c2μx2+μy2+c1σx2+σy2+c2

其中,μxμy分别为图像x和图像y的均值,σx2σy2分别为xy的方差,σxy表示xy的协方差,c1c2表示常数。

(2)学习感知图像相似度(LPIPS)

学习感知图像相似度是一种通过使用深度学习方法来估计图像相似度的指标。其引入了感知特征,例如边缘、纹理、颜色等,来衡量图像间的相似度,用更加符合人类视觉感知的方式来评估图像相似度。假设定义生成图像为x,目标图像为y,LPIPS计算公式为

dx,y=l1HlWlh,wwlz^xl-z^yl22

其中,dx,y表示xy之间的距离,l表示特征层数,zxlzyl表示第lxy输出的特征,其大小为H×W

(3)准确率(ACC)

准确率是用于事物表述或表达正确程度的度量指标。在小样本字体生成任务中主要用来衡量生成目标字体的风格准确率ACC(S)和内容ACC(C)准确率,准确率ACC计算公式A

A=TTotal

其中,T表示预测正确的数量,Total表示生成器生成目标字形的总数量。

3.3 实验分析

为验证本文提出方法的有效性,选取基于编解码的典型网络EMD5、AGIS-Net16、FUNIT17进行对比。以下是相关模型介绍。

(1)EMD:较为经典的基于编码-解码器框架的小样本字体生成模型。该模型通过内容编码器提取字符内容,风格编码器提取字符风格特征,再将二者特征送入解码器实现目标字体的转换。

(2)AGIS-Net:采用一种编码器-解码器框架的模型,通过自适应全局和局部信息融合的方式实现小样本字体生成。其中,全局信息提供了上下文信息,而局部信息则有助于处理细节和局部结构。

(3)FUNIT:常用的小样本字体生成对比模型,通过生成对抗网络实现目标字体实现。

3.3.1 对比实验

为验证改进模型MS-Font的有效性,使用SSIM、LPIPS和Acc作为评价指标。实验结果见表1。本文模型MS-Font与其他方法相比,在三个评价指标上均有不同程度提升。说明本文提出的多尺度生成器能够充分提取特征表达,并帮助生成器产生更真实、更高质量的图像,提升MS-Font模型的字体生成的性能。

为验证本文模型应用效果,生成可视化对比结果见图4。第一行表示目标图像,其余行是由各个模型生成的图像。从对比图像结果可以看出,EMD模型和AGIS-Net模型在生成目标字体时,虽然能够捕获目标字体的特征信息,但存在细节上的欠缺,如“具”的横笔画。EMD模型和AGIS-Net模型在生成一些字时还存在脏点问题,如生成“卵”“妹”时,产生多余笔画。这是由于特征提取不充分问题导致生成的目标字体 存在脏点。FUNIT模型满足了字体风格的一致性和结构的正确性。而本文提出的模型通过多尺度特征提取和融合的方式,更好地提取到内容特征和风格特征,提高了模型的特征提取能力。

3.3.2 消融实验

本文通过消融实验验证模型中多尺度融合的效果,可视化对比结果见图5。提出模型相比FUNIT模型可以看出,在保持整体字形的情况下,能够生成更加准确的目标字形。FUNIT模型上引入内容多尺度后与本文模型相比,在肉眼上很难区分两个模型的区别。为了让实验结果更加有说服力,引入评价指标进行消融对比,对比结果见表2

表2可知,在FUNIT模型上仅给内容提取分支引入多尺度特征提取能够捕获字符内容的局部特征,有效减少信息丢失。在此基础上给风格提取分支加入多尺度特征提取(本文方法),模型能够将SSIM提升0.07,LPIPS提升0.03,ACC(S)提升1.5,ACC(C)提升1.4。说明在风格提取分支加入多特征提取后,模型可以捕获更细节的局部风格特征,提取更加丰富的信息,从而对提升视觉效果有所帮助。

3.3.3 融合方式

多尺度特征融合的方式有多种,为验证对 改进模型最有效的融合方式,本文对通道拼接和逐元素相加两种方法进行消融实验,融合方式如图6所示,实验结果见表3。逐元素相加的融合方式在三个评价指标上均优于拼接的融合方式,在SSIM、LPIPS、ACC(S)和ACC(C)上分别提高0.04、0.01、1.20、0.90,说明通过将浅层特征和深层特征进行逐元素相加,对模型提升效果较好。其原因在于浅层特征通常关注低级的细节信息,而深层特征则更加注重高级的语义信息,通过逐元素相加的方式,两种信息得以有效结合,使得特征包含更丰富的信息,从而更具表达能力。

4 结语

为了获得丰富的内容特征信息,提出一种融合多尺度特征的字体生成模型MS-Font。为充分提取特征,获得更加丰富的信息,针对提取不同层次浅层信息和深层信息,利用逐像素相加方式进行融合,有效减少模型生成文字图像时对单一层次特征的依赖,提升模型的生成性能。本文在公开字体构成的数据集上进行模型性能测试,通过对比实验和消融实验,说明采用多尺度特征融合在模型生成文字图像的有效性。未来将进一步探索有效提取汉字特征的方法,尤其是针对不同风格的汉字方面进行更加精准的特征提取,有助于更好理解汉字的多样性和复杂性。

参考文献

[1]

王晨,吴国华,姚晔,.深度学习汉字生成与字体风格迁移综述[J].中国图象图形学报202227(12):3415-3428.

[2]

陈旭. 基于深度学习的少样本字体生成算法研究[D].济南:山东大学,2022.

[3]

TIAN Y. Rewrite: Neural style transfer for chinese fonts [EB/OL]. (2021-05-26) [2023-10-01].

[4]

CHANG BZHANG QPAN Set al. Generating handwritten Chinese characters using CycleGAN[J]. arXiv preprint arXiv2018: 1801.08624.

[5]

ZHANG YZHANG YCAI Wet al. Separating style and content for generalized style transfer[J]. arXiv preprint arXiv2017: 1711.06454.

[6]

SUN DREN TLI Cet al. Learning to write stylized chinese characters by reading a handful of examples[J]. arXiv preprint arXiv2017:1712.06424.

[7]

TANG LCAI YLIU Jet al. Few-shot font generation by learning fine-grained local styles[J]. arXiv preprint arXiv2022:2205.09965.

[8]

ZENG JCHEN QLIU Yet al. StrokeGAN: Reducing mode collapse in Chinese font generation via stroke encoding[J]. arXiv preprint arXiv2020: 2012.08687.

[9]

ZENG JWANG YCHEN Qet al. StrokeGAN+: Few-shot semi-supervised chinese font generation with stroke encoding[J]. arXiv preprint arXiv2022:2211.06198.

[10]

LIN TMA ZLI Fet al. Drafting and revision: Laplacian pyramid network for fast high-quality artistic style transfer[J]. arXiv preprint arXiv2021:2104.05376.

[11]

AN JHUANG SSONG Yet al. ArtFlow: Unbiased image style transfer via reversible neural flows[J]. arXiv preprint arXiv2021:2103.16877.

[12]

云飞,殷雁君,张文轩,.融合注意力机制的对抗式半监督语义分割[J].计算机工程与应用202359(8):254-262.

[13]

吕文涵,车进,赵泽纬,.基于动态卷积与文本数据增强的图像生成方法[J/OL].计算机工程(2023-04-28)[2023-05-10].

[14]

云飞,殷雁君.改进Attention-UNet的多尺度肝脏CT图像分割[J].内蒙古师范大学学报(自然科学汉文版)202352(2):175-180.

[15]

孙佩珺,张仲荣,李琦铭,. 基于改进多尺度残差网络的行人检测方法[J].计算机工程与设计202344(3):762-769.

[16]

GAO YGUO YLIAN Zet al. Artistic glyph image synthesis via one-stage few-shot learning[J]. ACM Transactions on Graphics (TOG)201938(6): 1-12.

[17]

LIU M YHUANG XMALLYA Aet al. Few-shot unsupervised image-to-image translation[J]. arXiv preprint arXiv2019:1905.01723.

基金资助

内蒙古自治区自然科学基金资助项目“基于数据增强的手写蒙古文文字识别研究”(2021LHMS06009)

内蒙古自治区高等学校科学研究资助项目“基于情感Agent的突发群体事件仿真研究”(NJZY13047)

AI Summary AI Mindmap
PDF (1919KB)

132

访问

0

被引

详细

导航
相关文章

AI思维导图

/