一种融合多头自注意力机制的粉笔字书写规范性评价方法

张伟; 李成城; 邬友; 范勇峰

doi:10.3969/j.issn.1001-8735.2024.03.014

内蒙古师范大学学报（自然科学版） ›› 2024, Vol. 53 ›› Issue (03) : 321 -330. DOI: 10.3969/j.issn.1001-8735.2024.03.014

一种融合多头自注意力机制的粉笔字书写规范性评价方法

张伟 ¹ ,
李成城 ¹ ,
邬友 ² ,
范勇峰 ³

作者信息 +

A Chalk Character Handwriting Standardization Evaluation Method Incorporating Multi-Head Self-Attention Mechanism

Author information +

文章历史 +

PDF (2925K)

摘要

在粉笔字书写规范性评价系统中，采用数据到文本生成技术对粉笔字进行评价。基线模型使用双向门控循环单元（BiGRU）对输入序列建模，并在分组规划阶段利用GRU为每个句子生成要覆盖的输入项子集。对于直接拼接BiGRU状态信息可能无法充分捕捉键值对之间的复杂关系的问题，在数据分组规划前引入了多头自注意力机制来更精细地捕捉键值关系。在手写汉字数据集上的实验结果表明，该方法在BLEU-4、ROUGE和METEOR指标上分别达到0.68、0.75与0.67，为粉笔字书写规范性的自动评价提供了实际应用价值。

Abstract

The data-to-text generation technology was applied to the evaluation system for chalk characters writing standard in the paper. The baseline model was improved firstly and then the improved baseline model was used to model input sequences by using bidirectional gated recurrent unit （BiGRU） and generated a subset of input items to be covered for each sentence using a GRU during the grouping planning phase. A multi-head self-attention mechanism was introduced before data grouping planning to capture key-value relationships more finely in terms of the problem that direct splicing of BiGRU state information might not adequately capture the complex relationships between key-value pairs. The tests on handwritten Chinese characters data sets demonstrated that the proposed method achieved 0.68， 0.75 and 0.67 in BLEU-4， ROUGE and METEOR， respectively， which was of great practical application value for the automatic evaluation of the handwriting standard of chalk characters.

Graphical abstract

关键词

结构化数据 / 数据到文本生成 / 多头自注意力机制 / 自然语言生成 / 粉笔字书写规范性评价

Key words

structured data / data-to-text generation / multi-head self-attention mechanism / natural language generation / evaluation of the handwriting standard chalk characters

引用本文

引用格式 ▾

张伟,李成城,邬友,范勇峰. 一种融合多头自注意力机制的粉笔字书写规范性评价方法[J]. 内蒙古师范大学学报（自然科学版）, 2024, 53(03): 321-330 DOI:10.3969/j.issn.1001-8735.2024.03.014

登录浏览全文

4963

注册一个新账户忘记密码

在师范生的专业素养和能力评价标准中，粉笔字的书写规范性及排版整齐性一直是重要衡量标准^［1］。通过对粉笔字书写规范的评价，可以及时纠正师范生的书写问题，提升其书写能力。粉笔字书写规范性自动评价往往采用图像到文本生成（image-to-text generation）和数据到文本生成（data-to-text generation）两种方式。两者都是自然语言生成任务（natural language generation，NLG）领域中的重要子任务。图像到文本生成方法旨在将图像转化为自然语言描述。该任务涉及图像处理（image processing）、计算机视觉（computer vision）和自然语言处理（natural language processing，NLP）等多领域知识。随着深度学习网络的广泛应用，研究者们提出了多模态递归神经网络模型（m-RNN）和将深度卷积神经网络（deep convolutional neural network，DCNN）与长短时记忆网络（long short-term memory，LSTM）相结合的方法，用于图像内容的语义描述与理解^［2］。这种方法存在一些缺陷，输入图像与输出文本之间存在语义不匹配问题，并且编码和解码网络之间的异构性导致全部图像信息难以被提取。另一种常见的方法是数据到文本生成，相较于图像到文本生成方法，数据到文本生成方法更加直接，可以避免图像到文本生成中的语义鸿沟问题^［2］。通过对结构化^［3⁃4］或非结构化^［5］的数据进行理解和分析，可将其转化为一段流畅的、真实的描述性文本。在粉笔字书写规范性评价任务中，关键问题在于如何自动生成准确且无歧义的评价语句，这对图像信息的提取要求非常严格。考虑到课题组已经对粉笔字图片进行了特征提取，因此图像到文本生成技术在本任务中不再适用。基于此，综合两种方法的特征和任务需求，最终选择数据到文本生成技术来实现粉笔字书写规范性评价。

早期的数据到文本生成研究主要采用模板的方法，通过定义模板^{121 DUBOUE P A，MCKEOWN K R. Statistical acquisition of content selection rules for natural language generation［C］//Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing. Stroudsburg：Association for Computational Linguistics，2003：121⁃128.}生成文本，生成速度较快，可控性较强。然而，需要手动编写规则和模板，难以扩展到其他领域，生成的文本缺乏多样性。随着神经网络技术的发展，基于神经网络序列生成的方法逐渐成为主流。神经网络序列的生成方法可以端到端自动学习输入数据到输出文本的映射，无需人工构建模板和规则，避免领域依赖性，更易扩展到其他应用。但训练过程依赖大量标注语料，结果也容易受数据集影响。Mei等^［6］提出了一种端到端（end-to-end）基于编码器⁃解码器（encoder-decoder）框架的神经网络模型，利用双向长短时记忆网络（bi-directional long short-term memory，BiLSTM）对数据进行编码。Lebret等^［7］提出了基于条件神经语言模型（conditional neural network models）的神经模型，用于根据维基百科人物传记的事实表格生成人物传记文本。Li等^①在编码器⁃解码器的框架上引入延迟复制机制，先生成文本模板，再填入具体数值。Chen等^［8］采用外部知识来增强数据到文本模型，提高生成文本的真实性。Puduppully等^［9］提出通过训练数据归纳出宏观计划，并将其反馈到文本生成阶段。

在上述研究中，数据建模阶段通常使用的是长短时记忆网络^［10］、门控循环单元（gated recurrent unit，GRU）以及双向门控循环神经网络（bidirectional gated recurrent unit，BiGRU）^［11］等，目的在于挖掘数据中潜在的深层联系，以便更精确反映粉笔字的书写特征，进而提高模型对输入数据的理解能力，并确保生成文本的连贯性和上下文一致性。但是在处理包含复杂关系的数据时，仅仅依赖BiGRU状态的简单拼接可能无法充分捕捉数据中各个键值对之间的复杂关系，难以表达数据中潜在的深层关联。近年来，注意力机制^［12］成为自然语言生成任务中的研究热点。通过引入注意力机制，模型能够动态地分配不同部分的注意力，使得模型能够在生成文本的过程中更灵活地处理不同部分的输入信息，突出与当前步骤相关的重要信息，有助于更好地捕捉数据中的长距离依赖关系，提高模型对输入序列的建模能力。

因此，本文提出在粉笔字书写规范性评价任务的数据建模模块中，引入注意力机制来增强模型对输入数据的理解能力。具体来说，是在双向GRU编码器的基础上增加多头自注意力（multi⁃head self⁃attention）机制，以更深入地挖掘输入数据之间的内在关联，从而生成更加连贯流畅和语义正确的粉笔字书写规范性评价文本。具体工作如下：（1）通过基线模型实现粉笔字书写规范性的自动评价生成，并在模型对输入的结构化数据进行分组规划阶段结合多头自注意力机制，与模型现有的根据阈值作为分组判断的依据相结合，对输入数据进行分组规划；（2）通过将多头自注意力机制放置在模型编码层的不同位置展开实验，验证其对模型性能的影响；（3）通过探究多头自注意力机制层数对模型性能的影响，确定最佳的模型配置。

1 粉笔字书写规范性评价模型定义

文本生成模型的框架如图1所示。首先，输入数据经过编码处理，模型对其进行精细划分来实现有效规划和组织，此阶段至关重要，因为它不仅是简单的数据分组，更是一种对信息结构的深入理解和挖掘。每个分组被视为输入数据的一个独立分支，在此基础上，模型根据每个组中的内容生成描述性文本。当前生成的句子不仅依赖于当前规划的组的内容，还受到之前已经生成的句子的影响，确保了生成文本的内在连贯性和外部一致性，使最终生成的文本内容更丰富、连贯。

对于给定的一组输入数据

x = {d 1, d 2, …, d N}

，其中每一个

d i

均由

{K e y i : V a l u e i}

构成，这些数据既是模型的输入，同时也启发多样性文本的生成。模型的任务不仅在于将这些数据简单地生成文本，更在于创造性地、多样性地生成文本，生成的文本内容

y = s 1, s 2, …, s N

（

s n

是第n个句子）会尽可能多地覆盖输入数据x。以粉笔字书写规范性评价为例，输入数据包含书写粉笔字的特征，在模型保留核心信息的基础上创新和拓展文本。这种生成方式不仅适用于评价粉笔字书写规范性任务，同时也适用其他文本生成。

1.1 融合多头自注意力机制的模型输入

模型改进主要在输入部分，引入了宏观多头自注意力机制，相较于原模型，改进使得模型更灵活，如图2所示。原模型中，输入数据直接通过数据嵌入向量中将数据转化为向量表示，然后利用双向门控循环单元（BiGRU）进行编码。新的模型设计中引入宏观多头自注意力机制，允许模型在处理整体输入序列的同时，更加专注输入序列中的关键部分。宏观级别的多头自注意力机制为输入数据的表征提供了更高层次的抽象。通过对输入数据的关键部分进行集中关注，模型能够更准确捕捉数据中的重要模式和特征，从而为后续的处理和分析提供更为有益的信息。这一改进不仅增强了模型的表征能力，也提高了模型对输入数据语义信息的提取效果。

本研究的方法中，输入数据仍为键值对（key-value）形式的数据，其中每个key-value对被称为

d i

。例如：对于单个汉字“龙”的特征信息，包括重心（一般）、九宫格分布率（较匀称）、笔画1斜率（严重倾斜）、笔画2曲率（严重弯曲）、笔画2拐点（略凸出）等不同属性。输入数据首先被嵌入向量

e (d i)

中，然后通过宏观多头自注意力机制进行处理。这种机制使得模型能捕捉不同特征之间的关联。在多头自注意力机制中，每个输入数据都被赋予了不同的注意力权重，以反映其在整体序列中的重要性，得到的结果用

d i A t t

表示。之后，经过注意力层处理后，数据传入BiGRU编码器，将BiGRU的最终隐藏状态拼接得到最后的向量表示，将其表示为

e n c (x) = [h N ⃗, h 1 ⃖]

，新设计不仅捕捉了特征序列的顺序信息，还考虑了特征间的关联和相互影响。

研究设置了13个注意力头以适应输入序列的维度（130维）。多头机制利用并行计算和多头特征表示，不仅提高了模型的性能和计算效率，同时也允许模型在输入序列的多个子空间中寻找相关性。在多头自注意力机制中，每个注意力头都有独立的参数集，包括查询、键和值矩阵，用于计算注意力权重。权重矩阵反映了模型在不同特征子空间下对输入序列各个位置的关注程度，揭示了位置间的关联性。为更加清晰呈现注意力权重的分布，绘制注意力权重热力图，如图3所示。图3展示了输入序列间的依赖关系，输入序列之间关系的重要程度各不相同。较深颜色表示权重值较高，意味着这两个数据之间的关系更紧密；较浅颜色表示权重值较低，意味着这两个数据之间的依赖程度较低。这种多头自注意力机制的设计为模型提供了更深入、更准确的序列建模能力，为文本生成任务提供有力支持。

1.2 输入数据的内容规划

由于语言的表现力和复杂性，相同的输入内容可以有为多种不同顺序的合理文本表达。为捕捉这种多样性，原模型引入一个全局规划潜变量

z p

，以建立对合理规划多样性的数学模型，不同样本的

z p

可能导致多种不同的规划结果，从而精细地控制内容表达的顺序和结构。这个过程可以表示为

g = a r g m a x g P (g | x, z p)

，（1）

其中，

g = g 1, g 2, …, g N

是一个组序列，每个组

g n

是输入项的子集，这是实现句子

s n

的主要条件。

对于潜在变量

z p

，原模型中采用了高斯分布，推理时，从其先验分布

p θ (z p | x) = 𝒩 (μ p | σ p 2 I)

采样；训练时，从其近似后验分布

q θ' (z p | x, y) = 𝒩 (μ p' | σ p' 2 I)

采样，如公式（2）-（3）：

[μ p; l o g σ p 2] = M L P θ (x)

，（2）

[μ p'; l o g σ p' 2] = M L P θ' (x, y)

。（3）

规划阶段如图1（c）所示。在数据的内容规划阶段，将BiGRU编码器和注意力操作后得到的编码结果、

z p

以及key-value对输入数据作为输入，计划输出一组

g = g 1, g 2, …, g N

。其中

g n

表示第n个句子所要表达的含义，在内容规划阶段将为每一个句子分配相应的key-value对。规划阶段公式为

g n = a r g m a x g n p (g n | g < n, x, z p)

。（4）

在时间步n，对每一个key-value对

(d i)

做二分类预测，判断

d i

是否在

g n

中，公式为

P (d i ∈ g n | g < n, x, z p)

，（5）

P (d i ∈ g n) = σ (v P N t a n h (W p [h i A t t; h n A t t + P + b p]))

，（6）

其中，σ为sigmoid函数，

h i A t t

是输入数据

d i

的向量，

h n A t t + P

为计划解码器的隐藏状态。因此，每个组构成

g n = {d i | P (d i ∈ g n) > 0.5}

。对输入数据规划案例如图4所示，图4（a）表示的是粉笔字所有的书写特征，通过数据规划分组将这些特征进一步分为图4（b）的6个小组。

1.3 粉笔字书写规范性评价文本生成

在规划步骤中，模型已经获取了每个句子所包含的关键信息，这些信息以key-value对的形式呈现。随后为文本生成阶段（图1（d）），在这个阶段将会生成一个长文本y，

y = {s 1, s 2, …, s N}

_。这个长文本句子由N个句子组成。其公式表示如式（7）-（8）：

c = {x, z p}

，（7）

y = a r g m a x y P (y | g, c)

。（8）

按照逐句生成的方式进行操作，公式（8）根据公式

S n = a r g m a x s n P (S n | S < n, g, c)

计算得到。在生成

S n

时关注更多的是

g n

，而不是整个计划g。这一生成过程被设计成分层次的结构，包括句子级生成和单词级生成两个层次。

在句子级生成阶段，本文在高层次上模拟句子间的依赖关系，并通过交互作用控制词级生成，主要关注句子结构和语法特征。该设计旨在确保句子在语法和语境上具有高度的合理性，能够符合文本的整体结构。而在单词级生成阶段，本文进行了更为详细和精细的处理，低层次中将句子进一步分解为单词，并采用逐词生成的策略。每个词汇的选择都受到前文和当前句子上下文的影响，以确保生成的句子内容在词汇和语义上都是精确无误的。这种分层次的生成方式保证了在生成过程中不仅关注整体的句子结构，同时也注重每个词汇的选择，从而实现了文本的高质量生成。图4中（b）和（c）展示了文本生成阶段的一个具体例子。

1.4 损失函数定义

损失函数由以下三部分组成：

（1）

ℒ 1

（

l o g P (y | x)

的负证据下界（evidence lower bound，ELBO））

l o g P (y | x) ≥ E q θ' (z p | x, y) [l o g P (y | x, z p)] - D K L (q θ' (z p | x, y) | | p θ (z p | x))

，（9）

l o g P (y | x, z p) = l o g P (g, y | x, z p) = ∑ n = 1 N l o g P (g n | g < n, x, z p) + l o g P (s n | s < n, g, x, z p)

，（10）

l o g P (s n | s < n, g, x, z p) ≥ E q θ' (z n s | s ≤ n, g, x, z p) [l o g P (s n | s < n, z n s, g, x, z p)] - D K L (q ϕ' (z n s | s ≤ n, g, x, z p) | | p ϕ (z n s | s < n, g, x, z p)) 。

（11）

（2）

ℒ 2

（停止信号预测）

ℒ 2 = ∑ n = 1 N - 1 l o g P n s t o p + l o g (1 - P N s t o p)

。（12）

（3）

ℒ 3

是应用于每个句子的词袋损失的总和。

2 实验与结果

2.1 数据集

实验数据集源自师范生粉笔字自动训练评判系统的手写汉字图像。经分析、请教相关专家的意见及运用图像处理技术^{［13⁃14］}获取最终的特征数据。图5展示了原始图像和经过预处理的粉笔字图像的对比。图片经过分割、二值化与去噪等预处理操作，并进行特征提取，包括全局特征、骨架提取和笔画信息等。这些经过数据推理的特征数据构成了分级的汉字评价数据。

基于此数据集，通过人工介入描述评价数据，构建了手写汉字评价数据集，包含评价文本9 000条，划分为7 000条训练集，1 000条测试集和1 000条验证集。这些评价文本的平均字数为155，平均词数为88。单句最大字数为412，最小字数为59；单句最大词数为116，最小词数为43。数据集构建不仅充分考虑手写汉字评价的多样性和复杂性，同时为后续实验提供充足且具有代表性的训练、测试和验证样本。

通过对汉字评价数据的分析，构建一系列键值对结构的表格，包含粉笔字的书写特征信息，见表1。模型设计综合考虑了全局和局部特征，全局特征包括：整字重心、倾斜度、匀称性、大小、高矮和胖瘦。局部特征包括：笔画重心、弯曲度、拐点、倾斜、走势和长度。这种设计关注书写特征的整体表现，同时准确把握局部细节。如图4所示，粉笔字书写规范性评价文本生成过程实现了全面、准确的评价。

2.2 实验环境与参数设置

硬件环境：GPU为GeForce RTX 2080Ti；CPU为12 vCPU Intel（R） Xeon（R） Platinum 8255C；操作系统为Ubuntu20.04；显存为11 GB；编程语言为Python 3.8以及深度学习框架为TensorFlow 1.15.5+Cuda 11.4。

软件环境：学习率（learn rate）为0.001；epoch为100；batch size为128；dropout为0.1；词嵌入向量维度（embedding dim）为300；注意力头数为13；集束搜索阈值为0.5；编码器解码器（规划阶段）维度为100。

2.3 评价方法

本次粉笔字书写规范性评价任务采用了三种自动评价指标：BLEU（bilingual evaluation understudy）^［15］、ROUGE（recall-oriented understudy for gisting evaluation）^①和METEOR（metric for evaluation of translation with explicit ordering）^②。BLEU-4衡量生成文本与参考文本的相似度，得分越高，表明模型输出的文本越接近于参考文本。ROUGE通过计算生成文本与参考文本之间的重叠单词数来评价文本质量。METEOR结合n-gram匹配和词根、同义词等词汇级别的匹配，评价文本的准确度和流畅度，并引入语义相关性考虑生成文本与参考文本之间的语义精度。以下为三种指标的计算公式。

B L E U = B P × e x p (∑ n = 1 N W n × l o g P n)

，（13）

其中，

W n

为权重，

P n

为n-gram的精确率，BP为惩罚因子。

① LIN C Y. Rouge： A package for automatic evaluation of summaries［C］//Text summarization branches out. Stroudsburg：Association for Computational Linguistics，2004：74-81.

② BANERJEE S， LAVIE A. METEOR：An automatic metric for MT evaluation with improved correlation with human judgments［C］// Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Stroudsburg：Association for Computational Linguistics，2005：65⁃72.

R L C S = L C S (C, S) l e n (S)

，（14）

P L C S = L C S (C, S) l e n (C)

，（15）

F L C S = (1 + β 2) R L C S P L C S R L C S + β 2 P L C S

，（16）

其中，LCS表示生成文本和参考文本的最长公共子序列，S代表参考文本，C代表生成文本，

l e n (S)

表示原本参考文本的长度，

l e n (C)

代表生成文本的长度，

R L C S

表示召回率，

P L C S

代表精确率，

F L C S

表示ROUGE-L，此外

β = P L C S / R L C S

。

F m e a n = P ⋅ R α ⋅ P + (1 - α) ⋅ R

，（17）

p e n = # c h u n k s m

，（18）

M E T E O R = (1 - p e n) ⋅ F m e a n

，（19）

其中，P是准确率，R是召回率，

p e n

为惩罚因子，用来惩罚生成文本与参考文本词序差距过大，

# c h u n k s

为

c h u n k

的数量，

c h u n k

是指匹配的单元词组在两个字符串中都是相邻的，并且具有相同的次序。m是机器翻译中能够被匹配的一元组的数量。

2.4 实验结果

2.4.1 基线模型对比实验

在手写汉字评估数据集上进行对比实验，结果见表2。本文提出的基于多头自注意力机制的端到端文本生成模型在所有对比模型中取得了较好的表现。对比模型S2S^［16］采用编码器⁃解码器结构的简单端到端生成模型，在处理复杂任务和序列处理方面缺乏规划机制，导致性能受限，因此得分较低。而模型S2T^［17］运用自顶向下的方式，解决了S2S模型中逻辑模式遗漏的问题，故生成的评价文本在这三项评价指标上的得分均高于S2S模型。然而，这两个模型都是基于LSTM模型，无法有效处理梯度问题，导致在长文本生成方面的性能并不理想。

对于模型CheckList^①，其检查表用来跟踪输入中的特定内容，确定它们是否被正确引用或参考在生成的文本中，尽管检查表在处理全局一致性的生成任务上有其独特优势，但是检查表的更新过程是自动进行的，每当模型生成一个与检查表中的某元素相关的词，这个元素在检查表中的状态就会被自动更新，表示这个信息点已被处理。但是其自动更新机制让模型在一些复杂任务中难以适应，因为当有多种方式需要引用检查表的一个条目，由于自动更新机制，后生成的文本不会考虑这个条目的信息点，因此会使得后面的描述变得缺乏生动性和丰富性。模型CAVE^［18］利用潜在变量来捕捉对话生成中的多样性，生成满足特定条件的数据，并且可以通过潜在空间进行采样生成数据，意味着即使在相同的条件下，模型也可以生成不同但相关的输出。但是其生成过程主要依赖于设计。由于CAVE和CheckList模型的设计，相较于S2S和S2T模型得分有所提升，这两个模型仍然受到其自身局限影响。

① KIDDON C， ZETTLEMOYER L， CHOI Y. Globally coherent text generation with neural checklist models［C］// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg：Association for Computational Linguistics，2016：329⁃339.

S2S-Pinter^［19］模型增强了传统的序列到序列（seq2seq，S2S）框架并引入指针网络以确保输入数据顺序性，并且无冗余地覆盖所有属性值。但是受制于输入长度的限制和指针网络对词汇表外（oov）词汇处理能力不足，导致逻辑连贯性丧失。模型可能会错误地将不属于特定输入特征的属性值分配给此特征，从而引发生成文本的错误。而在S2S-Link^［4］模型中，该模型借鉴了基于链接的注意力机制的Seq2Seq框架。链接矩阵被参数化来描述输入项类型的概率，同时对输入数据的排列和句子生成的规划进行建模。然而，固定的链接矩阵无法灵活地对上文本生成的内容进行建模，导致其在ROUGE评价上比S2S-Pinter模型得分低，另一方面，由于其是对输入句子的规划进行建模，所以S2S-Link模型在BLEU-4和METEOR的得分要比S2S-Pinter模型得分高。

研究中进一步探讨了多头自注意力机制在模型编码层不同位置对性能的影响。具体而言，比较了将多头自注意力机制放置在BiGRU之前和之后的两种配置。将其放置在BiGRU之前的配置在BLEU-4、ROUGE以及METEOR评价指标上均取得了最佳效果。与放置在BiGRU之后的配置相比，这种配置能更加有效地捕捉输入序列中的关键信息，提高对全局信息的感知能力，使得模型在编码阶段更加灵活捕捉序列中的长距离依赖关系，有效解决了在处理复杂任务时BiGRU可能存在的信息遗漏问题。

本文提出的基于多头自注意力机制的端到端文本生成模型在所有对比模型中的表现最优。多头自注意力机制帮助模型识别并关注到输入序列中的关键部分，对于输入序列中的每一个词赋予一定的权重，有助于模型深入把握句子内部的结构性信息，以及BiGRU能够充分利用权重信息捕捉到输入序列中的前后依赖关系，这使得模型能更全面理解输入数据，提升文本质量，同时保证生成文本的连贯性以及上下文逻辑。

2.4.2 探究注意力层数的影响

为深入研究网络深度即多层多头自注意力机制对模型性能的影响，在实验中设置了不同层数（1层-5层）的多头自注意力机制，图6展示了1层至3层的模型训练过程的损失变化曲线。然而，由于图6不能很好呈现最终模型损失的高低比较，为便于分析，特别将模型训练的最后二十次的损失变化曲线单独呈现，如图7所示。通过对比图7，发现双层多头自注意力机制的损失值要低于其他层数。从理论角度看，模型层数越多应越具有优势，因为多层多头自注意力机制有更多参数和更深的表示，进而提高模型的复杂性和表达能力。然而当模型层数增加至三层以上时（图8），并未实现显著性能提升。相反，模型在训练时下降相对缓慢，还存在反复震荡的问题，这或许暗示着模型的过度复杂化使得训练过程更为困难。因此，可以得出深层次的网络结构在实际应用中并未带来明显的性能提升，反而可能导致训练过程的不稳定性和泛化能力下降。

2.4.3 消融实验

为进一步验证多头自注意力机制的有效性，本文设计了消融实验，结果见表3。从表3可以明显观察到采用多头自注意力机制与双向门控循环单元（BiGRU）的模型在BLEU-4、ROUGE和METEOR三个评价指标上均呈现较高得分。具体而言，该模型在BLEU-4评估中得分为0.68，在ROUGE评估中的得分为0.75，以及在METEOR评估中的得分为0.67。通过将本模型与剔除多头自注意力机制与BiGRU的模型进行对比，可以看出，融合了多头自注意力机制与BiGRU的模型性能明显优越。

3 总结与展望

本文提出一种融合多头自注意力机制的粉笔字书写规范性评价方法，通过结合多头自注意力机制与循环神经网络，解决了模型在数据规划阶段无法完全捕捉每个键值对之间复杂关系的问题。该方法在粉笔字书写规范性评价数据集上取得较好的实验结果，证明多头自注意力机制与BiGRU相结合的可行性，实现了高质量的评价文本生成，成为师范生学习粉笔字书写的重要辅助工具，提供智能化、个性化的书写指导。但是随着社会的进步，导致新出现的术语或专有名词影响模型的性能。为应对这一挑战，未来工作可以考虑引入预训练语言模型，增加生成不同评价内容的可能性，丰富词汇搭配，从而提高文本生成的质量和准确性。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	张凤民.《中小学书法教育指导纲要》简要解读［J］. 书法教育， 2018（1）：88-93.

[2]	袁爱红.图像内容的语义描述与理解［D］. 北京：中国科学院大学（中国科学院西安光学精密机械研究所），2018.

[3]	陈昱宇.面向结构化数据的文本生成技术研究［D］. 哈尔滨：哈尔滨工业大学，2020.

[4]

SHA L， MOU L， LIU T， et al. Order-planning neural text generation from structured data［C］// Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence and Thirtieth Innovative Applications of Artificial Intelligence Conference and Eighth AAAI Symposium on Educational Advances in Artificial Intelligence. Palo Alto：AAAI Press，2018：5414-5421.

[5]	杨璟雅. 基于上下文感知的生物文献图文本生成研究［D］. 武汉：武汉理工大学，2021.

[6]	MEI H， BANSAL M， WALTER M R. What to talk about and how？ Selective generation using LSTMs with coarse-to-fine alignment［J］. arXiv preprint arXiv，2015：1509.00838.

[7]	LEBRET R， GRANGIER D， AULI M. Neural text generation from structured data with application to the biography domain［J］. arXiv preprint arXiv，2016：1603.07771.

[8]	CHEN W， SU Y， YAN X， et al. KGPT： Knowledge-grounded pre-training for data-to-text generation［J］. arXiv preprint arXiv，2020：2010.02307.

[9]	PUDUPPULLY R， LLAPATA M. Data-to-text Generation with Macro Planning［J］. Transactions of the Association for Computational Linguistics， 2021，9：510-527.

[10]	CHENG J， LI D， LAPATA M. Long short-term memory-networks for machine reading［J］. arXiv preprint arXiv，2016：1601.06733.

[11]	SHAO Z， HUANG M， WEN J， et al. Long and diverse text generation with planning-based hierarchical variational model［J］. arXiv preprint arXiv，2019：1908.06605.

[12]	VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all you need［J］. Advances in Neural Information Processing Systems， 2017， 30：5998-6008.

[13]	范勇峰，李成城，林民，等.基于局部信息的手写汉字笔画提取［J］. 内蒙古师范大学学报（自然科学汉文版），2023， 52（2）：181-188.

[14]	李泽瑶，李成城.基于结构知识的手写体汉字部件提取算法［J］. 计算机工程与设计，2023，44（5）：1479-1486.

[15]	PAPINENI K， ROUKOS S， WARD T， et al. BLEU ： A method for automatic evaluation of machine translation［C］// Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. New York：ACM，2002：311-318.

[16]	LIU T， WANG K， SHA L， et al. Table-to-text generation by structure-aware seq2seq learning［C］//Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence. Palo Alto：AAAI Press，2018：4881-4888.

[17]	MA W， NI Z， CAO K， et al. Seq2Tree： A tree-structured extension of LSTM network［C］// Proceedings of the 31st International Conference on Neural Information Processing Systems. New York：Curran Associates，2017：1-5.

[18]	ZHAO T， ZHAO R， ESKENAZI M. Learning discourse-level diversity for neural dialog models using conditional variational autoencoders［J］. arXiv preprint arXiv，2017：1703.10960.