基于小样本的西夏文字识别模型的提升方法

赵心怡 ,  史伟 ,  李国民

宁夏大学学报(自然科学版中英文) ›› 2025, Vol. 46 ›› Issue (02) : 134 -142.

PDF (3906KB)
宁夏大学学报(自然科学版中英文) ›› 2025, Vol. 46 ›› Issue (02) : 134 -142. DOI: 10.20176/j.cnki.nxdz.000111
信息科学

基于小样本的西夏文字识别模型的提升方法

作者信息 +

Methods for Improving Recognition Models ofSmall-Sample Tangut Script Datasets

Author information +
文章历史 +
PDF (3999K)

摘要

西夏文是一种笔画繁复且已失传的文字。近年来,卷积神经网络(CNN)已成为西夏文识别的主流方法。然而,现有的西夏文数据集样本数量极为有限(仅667个已标注文字),并且存在数据分布不均衡的长尾问题。这些问题导致模型容易出现过拟合现象,同时对少数类别样本的识别效果欠佳。为了提升模型的性能,本研究采用了数据增强和迁移学习的方法,并对比了基准模型在逐步加入这些改进策略后的性能变化。实验结果显示,综合应用数据增强和迁移学习的模型在准确率上平均提升了5.65%。此外,本研究还提出了一种改进的YOLOv8-VNeXt模型,该模型不仅为西夏文识别提供了更高效的技术手段,还可作为其他类似小样本、长尾分布文字识别任务的参考。

Abstract

Tangut script, which is characterized by its complex strokes and is an extinct writing system, has recently seen the use of convolutional neural networks become mainstream for its recognition. With only 667 annotated characters in the existing dataset, efforts were made to improve the model’s performance by addressing issues such as overfitting due to the limited sample size and the long-tail problem caused by data imbalance, using data augmentation and transfer learning methods. The study compared the performance of baseline models with those incorporating these improvement strategies. The results show that the model, which combined both strategies, achieved an average accuracy improvement of 5.65%. Additionally, an improved model named YOLOv8-VNeXt was proposed, which can serve as a reference for future research transitioning from single-character recognition based on image classification to multi-character recognition based on target detection.

Graphical abstract

关键词

西夏文 / 文字识别 / 迁移学习 / 数据增强 / 预训练

Key words

Tangut script / character recognition / transfer learning / data augment / pre-training

引用本文

引用格式 ▾
赵心怡,史伟,李国民. 基于小样本的西夏文字识别模型的提升方法[J]. 宁夏大学学报(自然科学版中英文), 2025, 46(02): 134-142 DOI:10.20176/j.cnki.nxdz.000111

登录浏览全文

4963

注册一个新账户 忘记密码

西夏文字是由西夏国党项族创造的一种文字,其形式类似于汉字,属于表意文字系统,但同时包含独特的音节和词素。西夏文字主要用于官方文件、铭文以及文学作品,记录了西夏国的历史、文化、宗教及其与周边国家和民族的交往。西夏文字形状复杂,包含数百个字符,其中多数仍未被破译。对西夏文字的研究对于深入理解西夏文明和中亚地区的文化交流具有极为重要的价值。
近年来,深度学习在图像识别、语音处理和自然语言处理等领域取得了显著进展,因此将其应用于西夏文字识别的研究也显得十分自然。然而,由于公开的西夏文字数据集极为有限,现有的研究大多集中在对数据进行标注后,通过改进分类网络结构或利用生成对抗网络(general adversarial network, GAN)扩充数据集。GAN是一种训练和评估难度较高的模型。在以往的研究中,使用GAN生成西夏文字时,通常会提出一个综合考量图片质量、多样性和稳定性的指标。此外,训练高质量的GAN需要大量数据支持,而在小样本数据集上,这一目标往往难以实现。
针对西夏文字本身的特点,采用传统的数据增强方法,不仅缩短了训练GAN所需的时间,还有效提高了模型的准确性和泛化能力。西夏文字模仿汉字的构字方法,其基本笔画包括点、横、竖、撇、捺、左拐、右提等,与汉字相同。因此,本文采用迁移学习方法,先在公开的汉字数据集上对模型进行预训练,再在西夏文字数据集上进行微调。理论分析和实验结果均证实了这种方法的可行性。
回顾以往的文字识别模型,单字识别已经无法满足人们对文字识别的更高需求。以其他语言文字的研究为例,2018年,丁明宇等1将深度学习的检测算法与传统的OCR技术相结合,实现了对图片中商品参数的识别。他们提出,目标检测与文字识别均可通过卷积神经网络(convolutional neural network, CNN)实现端到端(end to end)的任务流程,从而省去了单字识别中图片切割的繁琐步骤。2020年,Santoso等2使用YOLO(you only look once)模型实现了对雕刻在铜板上的卡维文字的识别。近年来,国内对古文字识别的研究也广泛采用了多种改进的目标检测模型3-5
现阶段,由于缺乏专门针对目标检测的西夏文字数据集,笔者在划分多字识别数据集的过程中,提出了一种改进的模型YOLOv8-VNeXt。在本文中,该模型被应用于单字识别任务,并与其他3种基准模型一样,采用了改进策略以提升其表现能力。实验结果表明,文中提出的模型在单字识别任务中与传统分类网络并无显著差异。此外,该模型在针对多字识别的数据集建立完成后,可以直接进行训练,真正实现免去图片分割的端到端文字识别。
本文的实验结构如图1所示。

1 卷积神经网络与西夏文字识别

1.1 单字识别算法

现阶段的西夏文字识别工作流程主要包括以下几个步骤:首先,对古籍中的单字图片进行切割;其次,对单字进行标注;最后,使用卷积神经网络进行图片分类。在单字切割环节,除了传统的手工切割外,还可以借助OCR技术、基于投影的分割方法以及OpenCV文字分割工具等自动化手段。然而,单字标注是整个过程中最为耗时的环节。这主要是因为西夏文字的破译工作仍在进行中,对于一本西夏文古籍,标注者往往难以实现100%的精准标注。这一问题也成为了后续开展多字识别任务的一大难点。

卷积神经网络用于图片分类的热潮始于2012年。当时,AlexNet在ImageNet竞赛中获得冠军,引发了深度学习领域的重大变革。此后,众多结构更深、性能更优的网络架构相继被提出,例如VGG(visual geometry group)6,GoogLeNet7,ResNet8, DenseNet9和EfficientNet10等。在本文中,选取了3种具有代表性的网络进行测试,分别为早期的VGG,中期的DesneNet以及较晚期的EfficientNet。

VGG以深度、简单性、易理解、易实施和较少的参数而著称,至今仍被广泛用于图像特征提取。DenseNet旨在解决深度神经网络中的梯度消失问题并提高参数效率。其核心思想是通过密集连接(dense connectivity)构建网络,使每一层都与前面的所有层相连接,从而促进信息流动、减轻梯度消失,并显著减少参数数量。DenseNet的基本单元是稠密块(dense block),而稠密块之间通过由卷积层和池化层组成的过渡层(transition block)相连。EfficientNet是AutoML和神经架构搜索的结果,由谷歌研究人员于2019年提出。其设计原则是通过更好地协调网络的深度、宽度和分辨率的缩放,来实现更高效的模型,以适应不同的计算资源限制。兼顾性能和计算效率的特点,使其成为移动设备和边缘计算应用的理想选择。

1.2 多字识别算法

ImageNet竞赛于2017年停办,当时模型的图像识别错误率已经降至约2.9%,而人类肉眼分类的错误率约为5.1%。这表明,经过良好数据集训练的现有分类模型,可以在各种分类任务中取得优异的性能。西夏文字的识别也是如此。只要有足够数量且标注准确的单字数据集,就可以利用现有的分类模型完成识别任务。然而,这并不是西夏文字识别的终点。对于一页古籍的识别,传统方法需要先分割单字,然后才能进行识别。如何省去单字分割的步骤,直接端到端地识别一整页的古籍,是当前研究的关键问题。目标检测算法为此提供了可能的解决方案。目标检测的目的是确定图像或视频中物体的位置和类别。

在经典的目标检测算法中,CNN被广泛应用,常见的算法包括Faster R-CNN11,YOLO12和SSD13(single shot multibox detector)。根据是否先独立生成候选目标区域,这些算法可以分为两类:单阶段算法和两阶段算法,其中,Faster R-CNN属于两阶段算法,而YOLO和SSD属于单阶段算法。目标检测的输出通常包括物体的边界框和类别。常用的评价指标包括准确率(precision)、召回率(recall)、F1分数、IoU(intersection over union)、mAP(mean average precision)。这些指标分别定义为

Precision=TPTP+FP
Recall=TPTP+FN
F1=2Precision×RecallPrecision+Recall
IoU=ABAB
mAP=i=1CAPiC

其中:TP表示真正例;FP表示假正例,FN表示假反例;A是预测边界框,B是事实边界框;AP i 是某类别准确率和召回率形成的曲线(PR曲线)在坐标系中围成的面积;C是所有类别的集合。准确率和召回率通常呈负相关关系。为了综合评估模型的性能,使用F1分数作为二者的调和平均值。IoU用于衡量边界框的匹配程度,其值越接近 1,表明预测边界框与真实边界框的重叠度越高。mAP越高,说明模型在所有类别上的召回率和准确率的综合表现越好,模型的整体性能也越出色。

目标检测算法的损失函数通常包括边界框回归损失和目标分类损失这两项。根据各算法的特点,还会定义其他损失项。例如,Faster R-CNN的区域建议网络(region proposal network, RPN)会计算候选区域是否含有目标的二元分类损失和边界框回归损失。YOLO作为单阶段算法,直接计算目标存在性损失、目标分类损失和边界框回归损失。YOLOv1的损失函数表达式为

L=λcoordi=0S2 j=0B Iijobjxi-xi^2+yi-yi^2+λcoordi=0S2 j=0B Iijobjwi- wi^ 2+hi- hi^ 2+i=0S2 j=0B IijobjCi-Ci^2+λnoobji=0S2 j=0B IijobjCi-Ci^2+i=0S2 Iijobjcclassespic-pi^c2

其中:Iijobj是指示函数,表示第i个网格中第j个预测框是否负责预测目标物体,若负责预测,则取为1,否则取为0; xi,yi是目标物体中心的真实坐标;xi^, yi^是预测的中心坐标;wi, hi是目标物体的真实宽度和高度;wi^, hi^是预测的宽度和高度;λcoordλnonobj是调节系数,用于平衡不同损失项的权重。式(6)中:第1项与第2项表示边界框回归损失,用于优化预测框的坐标和尺寸;第3项表示目标存在性损失,用于优化预测框是否包含目标的置信度;第4项表示非目标存在性损失,用于优化不包含目标的预测框的置信度;第5项表示分类损失,用于优化目标的类别预测。

目标检测在文字识别中的应用通常包括两个步骤:首先检测文本区域,然后对这些区域中的文字进行识别。这一方法在车牌识别、场景文本识别、文档扫描等任务中发挥了重要作用。为促进该技术的发展,国内外研究者公开了许多高质量的数据集。例如,清华大学发布的的Chinese Text in Wild(CTW)14,康奈尔大学的COCO-Text15,以及ICPR MTWI 201816挑战赛数据集。目前,西夏文字在该领域的研究仍处于起步阶段。为弥补这一领域的空白,本文在最新的YOLOv8模型基础上,针对西夏文字的特点进行了改进,相关改进结果见图2图3

YOLOv8模型的基础模块C2f由多个Bottleneck模块堆叠而成,并通过通道拼接实现残差结构。文中,将原模型的部分C2f模块替换为ConvNeXt的基本模块。这一改进在减少模块堆叠数量的同时,引入了层标准化(layer normalization, LN)和GELU(Gaussian error linear unit)激活函数。这两种机制最初被应用于自然语言处理领域的Transformer模型中。随着Swin Transformer17在计算机视觉领域的成功,ConvNeXt的作者18对ConvNeXt的架构进行了系统分析,并认为层标准化和GELU能够显著提升模型性能,因此将其应用于ConvNeXt的基本模块中。

4~6展示了特征图在YOLOv8-VNeXt骨干网络中的变化过程。在Neck部分,首尾处的C2f模块被替换为参数量更少的ConvNeXt基本模块,从而加速了特征提取过程;而在p4特征图上,保持C2f模块,以充分融合各尺度的信息。此外,检测头采用了解耦设计,即目标类别和边界框是分别预测的,并且不同检测头之间的参数不共享。这种设计使得YOLOv8-VNeXt在多尺度预测任务中表现出色。

由于缺乏专门针对西夏文字的目标检测数据集,文中采用Pascal VOC 2012数据集对YOLOv7,YOLOv8以及YOLOv8-VNeXt三种模型进行了训练。3种模型的性能表现结果如表1所示,目标检测效果如图7所示。

若将该模型应用于西夏文的多字识别任务,则只需将目标检测框内的对象替换为西夏文的方块字,并将框外的标签设置为对应的文字标注。理论上,这种方法即可实现西夏古籍的整页识别。因此,构建西夏文整页文字的标注数据集,将成为未来从单字识别迈向多字识别研究的重要基础。

2 实验结果与分析

2.1 数据集介绍

本文使用的数据集是从古籍中分割出来的单字灰度图像,共包含667个类别,总计15 309张图片。其中,样本数量最多的类别包含528张图片,而样本数量最少的类别仅有10张图片。这种数据不均衡现象导致了明显的长尾问题。为了进行模型训练和评估,按照7∶3的比例划分训练集和测试集,并将在此数据集上训练的模型作为基准模型(baseline)。部分数据示例如图8所示。

2.2 数据增强

数据增强是机器学习和深度学习领域中一种被广泛应用的技术。通过对训练数据施加一系列随机变换或扩充操作,增加数据集的多样性。这一技术有助于提高模型的泛化能力,降低过拟合的风险,尤其在数据量相对有限的情况下具有重要意义。常见的图像数据增强方法如图9所示。

在本实验中,对样本数量少于50张的文字类别,采用了表2中列出的数据增强方法。经过数据增强处理后,图片总数增加至47 824张。其中,先前样本数量最少的类别在增强后包含60张图片。数据增强的部分结果见图10

2.3 迁移学习

迁移学习是一种常见的提升模型性能的手段19。本文以汉字图片分类作为预训练任务,所采用的数据集为Kuzushiji-Kanji20。这是一个公开的手写汉字灰度图像数据集。在筛选并滤除样本数量少于50张图片的汉字类别后,该数据集共包含835个类别,图片总数为120 804张。该数据集各类样本数量较为均匀,难度适中,适合作为预训练的上游任务。部分数据示例见图11

2.4 实验环境配置

实验配置参数如下:CPU(Intel®Xeon®Gold 6226R @2.90 GHz,内存128 GB);GPU(NVIDIA GeForce RTX 3090,显存24 GB);操作系统CentOS 7.9;深度学习框架PyTorch 1.13.1;图形加速器CUDA 12.1;代码运行环境Python 3.8。

实验设计如下:基准模型:使用VGG,DenseNet,EfficientNe和去除边界框预测头的YOLOv8-VNeXt,在原始数据集上训练200轮;实验组1:在数据增强后的数据集上训练200轮;实验组2:在Kuzushiji-Kanji数据集上预训练30轮,然后在原始数据集上继续训练170轮;实验组3:在Kuzushiji-Kanji数据集上预训练30轮,然后在数据增强后的数据集上训练170轮。实验的超参数设置如下: Batch Size为32,优化器为Adam,初始学习率为0.000 1。

2.5 结果分析

4组实验在测试集上的精度结果分别见表3~6,精度变化曲线见图12~15。表中,黑体数字为最优结果,下同。实验结果显示,数据增强和迁移学习对模型精度的提升具有显著效果。其中,相较于基准模型(Baseline),实验组3平均精度提升了5.65%。

增强后的数据集样本数量更多,学习难度也相应增大。这使得除VGG之外的卷积神经网络能够更好地优化参数,从而提高其性能上限。然而,在迁移学习策略的初始应用阶段,模型精度会出现短暂下降,这主要是由于数据集切换导致的。随着训练的持续进行,经过迁移学习的模型最终会收敛到更高的精度水平,这一现象在原始数据集和增强后的数据集上均得到了体现。

值得注意的是,在实验组1中,VGG的数据缺失。这是因为在训练过程中,VGG的损失值始终保持不变,精度也未见提升,即模型遇到了学习瓶颈。然而,在实验组3中,经过预训练的VGG模型反而达到了一个较为理想的性能水平。具体分析表明,上述问题是由梯度消失导致的。VGG网络由于缺乏Batch Normalization和Residual Block等机制,本身极易出现梯度爆炸、梯度消失、数值溢出以及过拟合等问题。这些问题需要通过高超的调参技巧才能得到缓解。VGG在实验组1中的失败与实验组3中的成功对比表明,预训练后的VGG模型在误差曲面(error surface)上的位置已经移动到了一个更适合进行梯度下降的区域。

图16展示了使用YOLOv8-VNeXt(实验组3)在手写单字上的识别效果。

3 总结

本文针对小样本且不均衡的西夏文数据集,采用数据增强和迁移学习的方法提升了识别模型的精度,并指出当前单字识别模型已经趋于完善。国内外学者已经尝试使用目标检测技术进行古文字的多字识别。因此,西夏文识别的未来研究方向应转向多字识别,而目标检测数据集的建立是这一研究方向的基础。文中在最新的目标检测模型YOLOv8上进行了改进,为未来的西夏文多字识别研究提供了模型参考。

参考文献

[1]

丁明宇,牛玉磊,卢志武,.基于深度学习的图片中商品参数识别方法[J].软件学报201829(4):1039-1048.

[2]

SANTOSO RSUPRAPTO Y KYUNIARNO E M. Kawi character recognition on copper inscription using YOLO object detection[C]//International Conference on Computer Engineering, Network, and Intelligent Multimedia (CENIM). Surabaya, Indonesia:IEEE, 2020: 343-348.

[3]

汤敏丽,谢少敏,刘向荣.基于Faster-RCNN的水书古籍手写文字的检测与识别[J].厦门大学学报(自然科学版)202261(2):272-277.

[4]

郭洪壮.朝鲜语古籍文字检测与分割方法的研究与应用[D].延吉:延边大学, 2022.

[5]

李沿增.基于目标检测和知识图谱的古文字识别研究[D].长春:吉林大学,2023.

[6]

SIMONYAN KZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL].(2015-04-10)[2023-09-06].

[7]

SZEGEDY CLIU WeiJIA Yangqiinget al. Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA:IEEE, 2015: 1-9.

[8]

HE KaimingZHANG XiangyuREN Shaoqonget al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA:IEEE, 2016: 770-778.

[9]

HUANG GaoLIU ZhuangVAN DER MAATEN Let al. Densely connected convolutional networks[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA:IEEE, 2017: 2261-2269.

[10]

TAN MingxingLE Q V. EfficientNet: Rethinking model scaling for convolutional neural networks[EB/OL].(2020-11-11)[2023-09-06].

[11]

REN ShaoqingHE KaimingGIRSHICK Ret al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence201639(6): 1137-1149.

[12]

REDMON JDIVVALA SGIRSHICK Ret al. You only look once: Unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA. IEEE, 2016: 779-788.

[13]

LIU WeiANGUELOV DERHAN Det al. SSD: Single shot multibox detector[M]// Computer Vision-ECCV 2016. Cham: Springer International Publishing, 2016: 21-37.

[14]

YUAN TailingZHU ZheXU Kunet al. A large Chinese text dataset in the wild[J]. Journal of Computer Science and Technology201934(3): 509-521.

[15]

VEIT AMATERA TNEUMANN Let al. COCO-Text: Dataset and benchmark for text detection and recognition in natural images[EB/OL]. (2020-11-11)[2023-09-06].

[16]

HE MengchaoLIU YuliangYANG Zhiboet al. ICPR2018 contest on robust reading for multi-type web images[C]//2018 24th International Conference on Pattern Recognition (ICPR). Beijing, China. IEEE, 2018: 7-12.

[17]

LIU ZheLIN YutongCAO Yueet al. Swin transformer: hierarchical vision transformer using shifted windows[C]//IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, QC, Canada:IEEE, 2021: 9992-10002.

[18]

LIU ZhuangMAO HanziWU Chaoyuanet al. A ConvNet for the 2020s[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA, USA:IEEE, 2022: 11966-11976.

[19]

王 鑫,张文静,史伟,.面向社会性昆虫识别的知识迁移DenseNet 后训练剪枝轻量化模型研究[J].宁夏大学学报(自然科学版)202445(3):307-314.

[20]

CLANUWAT TBOBER-IRIZAR MKITAMOTO Aet al. Deep learning for classical Japanese literature[EB/OL]. (2018-12-03)[2023-09-06].

基金资助

国家自然科学基金资助项目(62166030)

国家自然科学基金资助项目(12061055)

AI Summary AI Mindmap
PDF (3906KB)

81

访问

0

被引

详细

导航
相关文章

AI思维导图

/