低资源场景下融合教育领域知识的命名实体识别

梁佳 ,  张丽萍 ,  闫盛 ,  赵宇博 ,  王东奇

内蒙古师范大学学报(自然科学版) ›› 2025, Vol. 54 ›› Issue (02) : 170 -179.

PDF (1021KB)
内蒙古师范大学学报(自然科学版) ›› 2025, Vol. 54 ›› Issue (02) : 170 -179. DOI: 10.3969/j.issn.1001-8735.2025.02.008

低资源场景下融合教育领域知识的命名实体识别

作者信息 +

Named Entity Recognition by Integrating Education Domain Knowledge in Low-resource Scenario

Author information +
文章历史 +
PDF (1044K)

摘要

现阶段教育领域命名实体识别面临标注数据缺乏,领域知识性强且知识语义复杂、实体分布不平衡等问题,导致现有模型对命名实体识别任务性能较低。因此提出适用于低资源教育场景下融合教育领域知识的命名实体识别模型LAP-BERT(label adversarial pointer-bidirectional encoder representation from transformer)。首先,将标签解释信息的语义作为教育领域知识融入文本中,解决课程文本数据特征复杂、样本少的问题;其次,结合对抗训练对词向量扰动生成对抗样本并集成为融合层输出,缓解实体分布不平衡问题;最后,采用基于跨度的方式进行解码,用于解决实体边界不唯一的问题。实验结果表明,相较于其他基线模型,LAP-BERT的F1值有所提升,这表明本文方法在低资源教育场景下的命名实体识别任务中具有优势。

Abstract

Currently, named entity recognition in the field of education faces challenges such as a lack of annotated data, intensive domain knowledge with complex semantics, and imbalanced entity distributions, which result in low performance of existing models for named entity recognition tasks. Therefore, this paper proposed label adversarial pointer-bidirectional encoder representation from transformer (LAP-BERT), a named entity recognition model integrating education domain knowledge which was suitable for low-resource education scenarios. Firstly, the semantics of label interpretation information were integrated into the text as educational domain knowledge to address the issues of complex data features and limited samples in course texts. Secondly, adversarial training was combined to generate adversarial samples through word vector perturbations and integrate them into the fusion layer output, alleviating imbalanced entity distributions. Finally, a span-based decoding approach was adopted to solve the problem of non-unique entity boundaries. Experimental results demonstrated that LAP-BERT exhibited an improved F1 score, compared to other baseline models, indicating the advantages of the proposed method for named entity recognition tasks in low-resource education scenarios.

Graphical abstract

关键词

低资源 / 教育领域知识 / 命名实体识别 / 融合标签解释信息 / 对抗训练

Key words

low-resource / education domain knowledge / named entity recognition / integration of label interpretation information / adversarial training

引用本文

引用格式 ▾
梁佳,张丽萍,闫盛,赵宇博,王东奇. 低资源场景下融合教育领域知识的命名实体识别[J]. 内蒙古师范大学学报(自然科学版), 2025, 54(02): 170-179 DOI:10.3969/j.issn.1001-8735.2025.02.008

登录浏览全文

4963

注册一个新账户 忘记密码

教育数字化不仅是将教学内容和资源数字化,更重要的是通过技术手段实现教育模式的创新和教育质量的提升。技术与教育相生相长,每一次科技革命和产业变革都为教育带来跨越式发展1。在 数字化和人工智能的浪潮中,教育领域面临着前所未有的发展机遇。探索智能化教育的新思路,不仅能够提升教学能力和水平,更是实现教育现代化的关键2。各项人工智能技术,如自然语言处理、机器学习等,已成为推动教育创新的重要工具。其中,命名实体识别(named entity recognization, NER)作为自然语言处理领域的基石之一,其重要性日益凸显3
命名实体识别又称实体抽取46,作为自然语言处理的一个重要任务,旨在从文本中识别出具有特定意义的实体,并将其分类为预先定义的命名实体类别,例如人名、地名、组织机构等。在教育领域中,命名实体识别发挥着重要作用,可以从教育文本数据中识别和分类具有特定意义的命名实体,例如课程名称、专业术语、公式以及原理等7。该任务不仅为构建知识图谱提供了坚实基础,而且促进了自适应推荐系统的进步,从而推动教育内容向数字化和智能化的转型8
然而对教育领域来说,由于命名实体识别领域标注数据缺乏,且知识语义复杂,命名实体识别发展较为缓慢。首先,现有的深度学习网络模型训练需要大量标注数据,但在教育领域的低资源场景下,缺乏高质量的标注数据,具有小样本特点。其次,课程文本具有高度的领域性,知识多样且复杂,文本中存在大量结构复杂、边界不唯一的实体,实体类别分布不平衡910
针对上述问题,本文首先构建教育领域下命名实体识别数据集,并将标签类别解释语义融入课程文本表示,从而可以融入更多的教育领域知识、降低模型对训练数据量的依赖程度,解决课程文本数据特征复杂问题;其次,不同类别的实体在文本中出现的频次差异性较大,实体类别标签分布较为不均衡,通过对抗训练构造对抗样本,集成原始嵌入输入模型进行学习,帮助模型修正参数,通过学习对抗样本,模型能更好地识别实体边界,对于样本数较少的实体类别具有较好的泛化性;最后,将序列标注任务转化为预测实体起始位置和结束位置,得到实体标签以及实体边界。

1 相关工作

命名实体识别是自动识别和提取文本特定意义实体,分类为预定义的类别。命名实体识别可采用多种方法解决,通常分为基于规则和词典的方法、基于统计机器学习的方法和基于深度学习的方法三类。基于规则和词典的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、关键字、指示词等,以模式和字符串相匹配为主要手段,该方法大多需要建立知识库和词典11,依赖于具体语言、领域和文本风格,编制过程耗时较长且难以涵盖所有语言现象,容易产生错误,系统可移植性较差。基于统计机器学习的方法能有效解决上述不足,通过构建概率模型预测文本中每个词的实体标记,将命名实体识别问题向序列标注问题转换1213,但是该方法对特征选取的要求较高,对语料库的依赖较大,而可以用来建设和评估命名实体识别系统的大规模通用语料库却较少。

与传统的基于规则和基于机器学习的方法相比,基于深度学习的方法不需要人工制定规则和提取特征,并且在性能上远优于传统方法。基于深度学习的方法中,循环神经网络(recurrent neural network,RNN)为命名实体识别任务常用的模型之一,但该结构存在梯度消失与梯度爆炸的问题14,因此早期实体识别任务的结果并不理想。为解决RNN模型的不足,Hammerton15首次将长短期记忆网络(long short⁃term memory, LSTM)引入命名实体识别任务中,该模型通过添加输入门、遗忘门和输出门来判断数据的取舍。在LSTM的基础上,BiLSTM16被提出,其通过处理文本的上下文内容,增强了对关键实体的识别能力。此外,Lample等17将条件随机场模型(conditional random field, CRF)与神经网络模型结合,成为主流的命名实体识别方法。

Liu等18提出了将BiLSTM-CNN-CRF模型用于中国古代历史文化实体识别,通过使用连续词袋模型训练词向量,使用CNN提取句子中的字符表示向量,将字符表示向量和词向量拼接的结果作为BiLSTM的输入,并采用CRF选择最佳标注序列,以获得最后识别的实体信息,但该模型需要平衡CNN捕捉的局部特征和BiLSTM捕捉的长距离依赖问题,这可能需要精心设计的网络结构和训练策略。此外,上述方法由于主要集中在词、字或词之间的特征提取上,忽略了语境的上下文从而不能表示多义性。针对以上问题,有研究者将基于Transformer的BERT(bidirectional encoder representations from transformers)引入命名实体识别任务,解决一次多义问题。Wei等19提出了一种基于BERT的教育应急领域命名实体识别方法BERT-BiLSTM-CRF,通过在教育紧急情况语料库上训练BERT以获得单词的矢量化表示,再使用BiLSTM获得序列化文本的上下文编码,最后通过CRF对序列进行解码和注释,以获得教育紧急情况中的相应实体。Li等20提出EduBERT-BiLSTM-CRF模型,通过微调BERT模型自适应地捕获教育领域的有效信息,并结合BiLSTM-CRF有效识别教育实体。上述方法虽然取得较好效果,但对数据规模要求较高,并不适用于低资源场景下的命名实体识别任务,并且以上模型未考虑教育领域中数据复杂性和知识分布特点导致的实体分布不均衡问题。此外,由于语义的复杂性,教育领域数据还存在非结构化性强、实体边界不唯一的特点。

综上所述,为探索一种适用于低资源场景下教育领域命名实体识别方法,解决课程文本领域性强、语义复杂以及实体分布不平衡等问题,需提出一个融合标签解释信息和对抗训练模型(label adversarial pointer-bidirectional encoder representation from transformer,LAP-BERT),并且采用基于跨度的方式进行解码,用于解决实体边界不唯一的问题。

2 本文方法

本文提出一种低资源教育领域场景下融合标签解释信息的命名实体识别模型LAP-BERT,整体结构如图1所示,由四部分构成,分别是多维特征提取层、特征融合层、对抗训练层以及基于跨度的解码层。首先,将课程文本和类别解释信息进行预处理,分别输入BERT中,将类别解释语义融入文本特征中,从而融入更多的教育领域知识、降低模型对训练数据量的依赖程度,解决课程文本数据特征复杂问题;其次,不同类别的实体在文本中出现的频次差异性较大,实体类别标签分布较为不均衡,通过对抗训练构造对抗样本,并集成原始嵌入输入到模型进行学习,帮助模型修正参数,通过学习对抗样本,模型能对实体边界进行更好地识别,对于样本数较少的实体类别也具有较好的泛化性;最后,在输出层将序列标注任务转化为预测实体首尾索引在文本中位置的任务,建立实体首尾位置的匹配关系,得到实体标签以及实体边界。模型的复杂性导致计算资源消耗较大,推理效率降低,在此模型基础上,添加混合精度训练,以提升模型的推理效率,降低计算资源的开销。

2.1 问题定义

教育领域命名实体识别任务旨在将教育领域文本中的命名实体抽取出来。本文设给定数据X={x1x2xn },设需要识别的实体类别集合为N={n1n2,…,n|n| },ni ={O,B-CON,I-CON,B-THE,I-THE,B-IMP,I-IMP}。其中O表示句子中非实体部分,B-CON,B-THE,B-IMP表示不同类型实体的开始部分,I-CON,I-THE,I-IMP表示不同类型实体的中间部分和结束部分。为丰富类别的语义,本文对N中每种标签给定一个类别解释Ei,得到集合E={E1E2,…,E|n| }(|n|是实体类别的数量)。对于实体类别“概念”,描述信息为“概念实体指课程知识术语及知识点”。本研究的目的是将代表实体开始部分的B-CON,B-THE,B-IMP和代表实体结束部分的I-CON,I-THE,I-IMP提取出来,从而实现教育领域命名实体的抽取。

2.2 多维特征提取层

为解决教育领域的课程文本数据缺乏且文本特征复杂问题,本文采用BERT对教育领域文本和标签解释信息进行多维特征提取。BERT模型是一种基于深度双向表示的预训练语言表示模型,主要由MLM和NSP两个自监督任务组成。其中,MLM是BERT通过随机遮蔽(masking)输入文本中的一些单词,然后预测这些被遮蔽的单词,迫使模型学习单词的上下文表示。NSP是指BERT训练模型预测两个句子是否是顺序出现的,有助于模型理解句子之间的关系。

BERT将输入文本转换为一系列的token,每个token对应一个词汇表中的单词或特殊符号(如[CLS]用于句子开始,[SEP]用于句子结束),并由三部分组成,分别是标记嵌入向量表示(token embeddings)、位置嵌入向量表示(position embeddings)和片段嵌入向量表示(segment embeddings)。标记嵌入向量表示每个token在词汇表中的语义信息,为模型提供每个token的语义表示;位置嵌入向量表示为每个token添加位置信息,使模型能够利用Transformer结构的多头注意力机制对token的顺序进行建模,位置嵌入向量生成方法如公式(1)-(4)。

EPp,2i=sinp10002id
EP(p,2i+1)=cosp10002id
sin(p+k)=sinpcosk+cospsink
cos(p+k)=cospcosk+sinpsink

其中,p为字在句子中的位置,i为字向量的某一维度,2i为偶数位维度,(2i+1)为奇数位维度,d为字向量的维度。片段嵌入向量表示标记相同句子中的每个token以区分不同的句子。在多维特征提取层分别使用BERT编码课程文本语句X和标签解释信息E,得到各自的token表示,其中,l表示课程文本的长度,m表示标签解释信息的长度,d是编码器的向量维度。对于一个由n个单词组成的类别描述信息的句子S={w1w2,…,wn },在将其输入模型后,首先需要利用BertTokenizer对句子进行分词操作。句子S会被切分为若干个token,并表示为tokens=["[CLS]",token1,token2,…,tokenn,"[SEP]"],其中[CLS]和[SEP]为分类任务的输入表示。在完成分词操作后,输入的每条数据都会被分配到一个固定的input_ids,input_ids是一个整数序列,每个整数对应于词汇表中一个token的ID,其包含了将文本转换为模型可接受的token_ids序列,这个序列是模型接受的输入之一。此外,BertTokenizer还会在处理原始文本数据时生成token_type_ids和attention_mask,其中token_type_ids用于区分不同句子的token,因为本任务为单个句子任务,所以在本方法中token_type_ids被置为0;attention_mask是一个二进制标志序列,指示模型在self⁃attention机制中哪些token应该被注意到(取值为1),哪些token应该被忽略(取值为0)。在获取input_ids、token_type_ids和attention_mask后,这些数据会被送入GPU中,以便模型后续的特征提取和训练使用。

2.3 特征融合层

在经过多维特征提取层,获得了课程文本的向量表示和标签解释信息的向量表示后,采用特征融合层将课程文本的向量和标签解释信息进行融合,期望借助教育领域实体类别解释信息对输入文本表示进行增强,进而解决教育领域数据缺乏与语义复杂问题。特征融合层采用自注意力机制,主要是通过运算得到文本向量与标签解释信息向量之间的关联度,根据关系大小赋予权重,再以权重和的形式计算,得到隐含向量表示。计算公式为

A(Q,K,V)=softmax(QKTdk)V

其中,Q为查询向量,K为键向量,V为值向量。dk 为惩罚因子,防止相乘结果过大,借助softmax进行归一化处理。在LAP-BERT模型中,将多维特征提取层提取出的特征输入融合层,从而得到融合标签解释信息的向量。

在得到标签解释信息的tokenhE 后,计算每个文本表示hxi与每个标签描述语句hej的注意力分数,再把注意力分数作为权重信息,将标签解释信息的语义融入课程文本语句的token中,公式为

axi,ejn=exp(hxihejn)jexp(hxihejn)
hxin=hxi+jaxi,ejnhejn
h˜=tanh(Vhxin+b)

其中,xi 是文本语句X的第i个token,1ilhxi是第i个token生成的隐藏向量,ejn是标签解释信息语句E的第j个token,1jm, nNhejn是第j个token生成的隐藏向量。对tokenxi和所有类别的标签解释信息重复以上运算,得到融合教育知识后的向量h˜xi

2.4 对抗训练层

由于教育领域的课程文本标注较少,并且课程的知识分布具有结构性和复杂性,不同类别的实体在文本中出现的频次差异较大,如法则与概念实体数远超出教学重点难点实体样本,实体标签分布不均衡。为有效解决该问题,通过对抗训练的方式不断向模型输入扰动,学习对抗样本从而使模型达到对数量较少的实体类别也有较好的泛化性,从而提高模型整体的准确率和鲁棒性。对抗训练计算过程为

minθE(x,y)~DmaxΔxΩL(x+Δx,y,θ)

其中,D表示输入样本的分布,x表示输入样本,θ代表模型的参数,y表示标签,Δx代表扰动,Ω表示扰动空间,L为损失函数(loss),对抗训练主要是通过向输入中注入扰动Δx,使损失函数L在扰动Δx满足约束条件下达到最大(max),在每个样本构造出对抗样本x+Δx的情况下,用(x+Δx,y)作为数据对去最小化loss从而更新参数,使得模型达到最好识别效果。

本文采用对抗训练算法FGM生成对抗样本,课程文本语料经过BERT与自注意力层生成整体的嵌入向量,然后根据嵌入向量及epsilon参数,以梯度上升的方式计算出对当前模型p(y|x,θ)最大扰动值Δx,将其与原始嵌入相加得到对抗样本,参与下一步训练。FGM中采用公式(10)实现干扰:

Δx=-εg||g||2

其中,ε是一个可调节的超参数,g是梯度,||g||2指对嵌入矩阵求二范数从而得到一个作为分母的标量,L为当前样本的损失。

2.5 基于跨度的解码层

由于教育领域文本中的实体具有边界不唯一的特性,存在大量嵌套词,例如“线性表的抽象数据类型定义”应作为一个单独的实体,但是其实体跨度为12个字符,且其中还嵌套着“线性表”和“抽象数据类型定义”,传统的数据序列标注模型一般会将其识别为“线性表”和“抽象数据类型定义”,不能准确地识别“线性表的抽象数据类型定义”。因此,在token中融合标签解释信息的语义获得多特征的表示后,通过计算句子中某个类别开始位置或结束位置的概率,确定该类别的实体在句子中的跨度,将序列标注任务转化为预测实体开始位置或结束位置的任务。

实体开始位置预测模块接收来自特征融合层后的输出作为输入,通过线性层将隐藏表示映射到预测命名实体识别任务中实体开始位置的原始预测值,旨在产生每个标签作为实体起始位置的概率。实体结束位置预测模块接收来自特征融合层表示和可能的起始位置标签作为输入,通过线性层将隐藏表示和开始位置标签进行拼接,并映射到预测命名实体任务中实体结束位置的原始预测值。

在获取到实体结束位置的初始预测值之后,通过激活函数tanh引入更多的非线性元素,并可以将取值为(-,+)的数映射到(-1,+1)之间,计算公式为

tanh(x)=ex-e-xex+e-x

通过归一化处理(layer normalization,LN)的方式增强模型的稳定性,并帮助模型在训练过程中保持较稳定的激活值分布。

对抗训练的本质是在模型训练过程中添加负样本进行扰动,这会导致模型的训练时间增长。并且解码层由多个全连接层堆叠导致参数量变大、计算资源开销增加、推理效率降低。因此,为解决计算资源增大的问题,在本模型的基础上引入混合精度训练21。混合精度训练是一种在深度学习中提高训练速度和减少内存占用的技术,其通过使用foat16 dtype 与foat32 dtype的组合来实现。混合精度训练的优点包括在不改变模型或降低模型训练精度的前提下,缩短训练时间,降低存储需求,支持更大的batch_size、更大模型和尺寸更大的输入的训练。

3 实验验证

3.1 数据集介绍

为了获取有价值的课程实体,验证实体识别模型的有效性,构建数据结构课程文本数据集DCNE(data structure course named entity),选取内蒙古师范大学计算机科学技术学院数据结构教学团队主编教材《数据结构(C语言版)》作为数据集来源,共20万字左右,总计3 100条句子,通过领域专家人工标注的方式在教材中标注实体,共标注461个领域实体,其中“概念(CON)”类实体327个,“算法(THE)”类实体98个,“教学重点难点(IMP)”类实体36个,“概念”类实体出现的频次远高出“算法”类实体和“教学重点难点”类实体,不同类别的实体分布不均匀问题尤为突出。通过去停用词、分句等预处理操作对文本进行去噪,并利用BIO标注策略(B表示实体头部,I表示实体中间部分和尾部,O表示文本中非实体部分)进行标注,概念类型的实体对应的标签是B-CON、I-CON,算法类型的实体对应的标签是B-THE、I-THE,教学重点难点类型的实体对应的标签是B-IMP、I-IMP,文本中非实体部分对应的标签为O。经数据标注后,完成数据结构命名实体识别数据集DCNE的构建,将该数据集按 7∶2∶1的比例切分训练集、测试集和验证集。数据标注示例及标签解释见表1

3.2 实验设置

实验CPU型号为Intel Xeon Silver 4214R,GPU型号为RTX 3080 Ti,采用Pytorch2.0.0深度学习框架,Cuda采用11.8版本,编程语言采用Python3.8。实验相关参数设置见表2

3.3 评价指标

本文采用P(precision)、R(recall)和F1值,用于评价LAP-BERT模型的性能。P值表示准确率,即识别出的正确结果与识别出的实体数的比值;R值表示召回率,是识别出的正确实体数与实际应被识别的实体数的比值;F1值是综合考虑精确率和召回率二者的模型性能指标,通过比较F1值综合评价各模型是较为准确的22PRF1值的计算方法如公式(12)-(14)所示。

P=TP/(TP+FP)
R=TP/(TP+FN)
F1=2×P×R/(P+R)

其中,TP是模型正确识别出的实体数;FP表示模型错误预测出的命名实体数;FN表示实际为命名实体而模型错误地预测为非命名实体的数量。

3.4 实验结果分析

3.4.1 超参数实验

超参数实验是模型训练过程的一个重要环节,通常情况下,这些参数不会在训练过程中自动调整,需手动设置。超参数选择对模型的性能有很大影响,包括模型的训练速度、收敛性、容量和泛化能力等23。为了找到最佳的超参数组合,使模型在特定任务上表现最佳,本研究在实验初期设置超参数实验。

超参数包括学习率、batch_size等。学习率是重要的超参数之一,它以一种复杂的方式控制着模型的有效容量,选择合适的学习率不仅可以加快模型的收敛,避免陷入局部最优,减少迭代的次数,同时还可以提高模型的效率。batch_size是样本批次容量,决定模型下降的方向,因此,针对学习率和batch_size对模型的超参数进行调整。将处理后的数据送入模型中,观察模型训练过程中的损失函数在训练周期的变化,将epochs设置为30。考虑到不同的batch_size和学习率对模型性能造成的影响,将batch_size分别设置为4、8、16、32,学习率设置为0.001、1×10-4、1×10-5、2×10-5,获得各参数下模型的F1值,得到结果如图2所示。

图2可知,当batch_size=16,学习率为2×10-5时,模型整体表现最佳,F1值达到84.15%。对学习率的设置进行分析,发现当学习率设置太大时,模型收敛性能变差,在训练过程中难以获得有用信息进行预测。当batch_size太小时,可能会导致模型不收敛,随着batch_size的增大,处理相同数据量的速度加快,batch_size越大,所需要的epoch越多,所以当batch_size增大到某个值时,模型的性能增强达到峰值,在batch_size继续增大时模型性能逐渐下降,影响模型的整体性能。

3.4.2 对比模型

为验证LAP-BERT模型的有效性,将其与以下模型进行比较。

(1) BiLSTM-CRF24采用预训练得到字向量,经BiLSTM捕获序列特征,CRF预测标签序列的实体识别任务经典序列标注模型BiLSTM-CRF。

(2) BERT-CRF25为基于预训练的BERT模型,结合了BERT的双向编码能力和CRF,可以更好地捕捉标签之间依赖关系的优点,通过BERT完成文本嵌入生成向量后由CRF进行标签解码。

(3) BERT-BiLSTM-CRF25是一种用于自然语言处理任务的深度学习模型组合,集合了预训练的BERT模型、双向LSTM网络和条件随机场,有效提升了对文本的语义理解和序列标注能力。

(4) NFLAT26在FLAT模型的基础上,可以对不同长度的字、词序列建模,减少冗余计算,改进了相对编码位置,进而增强模型的性能。

为验证本文提出的模型在教育领域的命名实体识别任务上具有更优的性能,在数据集DCNE上进行对比实验。实验选取命名实体识别任务的主流模型与本文模型识别效果进行对比,对比结果见表3

表3可知,BERT-CRF模型取得80.39%的F1值,BiLSTM-CRF模型取得79.40%的F1值,通过BiLSTM-CRF模型和BERT-CRF模型实验结果验证了BERT在命名实体识别任务中的性能。BERT-CRF模型F1值相较于BERT-BiLSTM-CRF模型的F1值低1.75%,证明了BiLSTM在特征提取中的重要性。此外,BERT-BiLSTM-CRF模型的实验结果也证明,BERT完成文本嵌入生成向量后,通过BiLSTM进行特征提取,最后使用CRF进行标签解码,这一过程的命名实体识别效果优于其他两个模型。通过对比分析,LAP-BERT模型表现最佳,其F1值高于其他模型,说明该模型适用于低资源场景下教育领域的命名实体识别任务。实验结果也表明,本文模型在未融合其他特定的外部特征下,通过对抗训练增加微量干扰,将标签解释信息融入教育领域文本中,并采用基于跨度的解码方式,提升了模型对于命名实体的识别能力。

3.4.3 消融实验

为验证标签解释信息的有效性以及在模型中引入对抗训练的必要性,本文设计了如下LAP-BERT的变体,进行消融实验。实验结果见表4

变体1(w/o LA):去掉标签解释信息模块,标签解释信息包含了丰富的教育领域知识,涵盖了包含实体的定义、属性、上下文等关键信息。实验结果表明,LAP-BERT模型通过将这些标签解释信息集中到文本表示中,降低了教育领域文本的复杂性和领域性,帮助模型更好地理解复杂语义信息,有效提升了模型的实体识别能力。

变体2(w/o AD):为验证对抗训练FGM算法的有效性,去掉对抗训练模块实验结果,F1值下降,这表明去掉对抗训练模块后,首先实体类别数量不均衡导致模型性能降低,其次是由于模型鲁棒性降低、泛化能力变差。

变体3(w/o MPT):为验证混合精度训练的必要性和有效性,去掉混合精度训练。实验结果表明混合精度训练能够在不降低模型性能的基础上减少模型的训练时间,进而减少显存占用和计算资源的开销。

表4可知,在模型LAP⁃BERT的基础上去掉融合标签解释信息模块,F1值下降1.09%,这是由于标注数据少,样本领域性强导致模型不能很好地理解教育领域知识;去掉对抗训练模块,F1值下降1.40%,这是由于实体分布不均匀,样本鲁棒性降低、泛化性变差引起的;去掉混合精度训练后,训练时间明显增加,可以说明混合精度训练可以在不降低模型性能的基础上减少模型的训练时间。消融实验结果表明LAP⁃BERT模型不仅更注重教育领域专业知识,还从语义层面增加了对命名实体的识别能力,使其更准确地理解实体在教育领域中的语义含义,更好地识别实体的边界和类型,提高在教育的命名实体识别任务的精确性和准确性。

4 结语

为了解决教育领域的命名实体识别任务标注数据缺乏,且文本知识具有领域性、知识多样且复杂、实体类别分布不平衡等问题,本文标注近20万字的课程文本数据,构建一个小型的数据集,并提出LAP-BERT模型,该模型通过将类别解释语义融入文本特征中、结合对抗训练,并采用基于跨度的方式建立实体首尾位置的匹配关系,提升了命名实体识别的效果,验证了该模型对实体识别的有效性。本文所提出的方法在命名实体识别的准确率、召回率、F1等指标上均取得较好的效果,证明该方法的有效性和可行性,对教育领域以及其他低资源场景中的命名实体识别技术的发展和应用具有参考意义。但是,教育领域数据仍然具有高度复杂性,命名实体识别的准确率仍有较大的提升空间,后期会对模型继续进行优化调整,将更多的语言先验知识融入该任务中,尝试从外部知识库中提取更多形式的知识并嵌入模型。此外,可以考虑采用边界平滑的方式训练模型从而缓解由数据稀少导致的过度自信问题。

参考文献

[1]

吴岩.开辟新赛道,寻求新突破,教育 数字化引领高等教育新发展[EB/OL].(2023-12-16)[2024-09-01].

[2]

杨宗凯. 高等教育数字化发展: 内涵、阶段与实施路径[J]. 中国高等教育2023(2): 16-20.

[3]

吴永和, 刘博文, 马晓玲. 构筑“人工智能+教育” 的生态系统[J]. 远程教育杂志201735(5): 27-39.

[4]

CAO P FCHEN Y BLIU Ket al. Adversarial transfer learning for Chinese named entity recognition with self-attention mechanism[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels: Association for Computational Linguistics, 2018: 182-192.

[5]

LI JSUN A XHAN J Let al. A survey on deep learning for named entity recognition[J]. IEEE Transactions on Knowledge and Data Engineering202234(1): 50-70.

[6]

TRIEU H LMIWA MANANIADOU S. Named entity recognition for cancer immunology research using distant supervision[C]//Proceedings of the 21st Workshop on Biomedical Language Processing. Dublin: Association for Computational Linguistics, 2022: 171-177.

[7]

赵宇博, 张丽萍, 闫盛, . 个性化学习中学科知识图谱构建与应用综述[J]. 计算机工程与应用202359(10): 1-21.

[8]

孙丽郡,孟繁军,徐行健.课程知识图谱构建技术研究综述[J].计算机学报202447(6): 1244-1287.

[9]

李猛, 李艳玲, 林民. 命名实体识别的迁移学习研究综述[J]. 计算机科学与探索202115(2): 206-218.

[10]

任义, 苏博, 袁帅. 教育领域下多维度特征命名实体识别方法[J]. 计算机工程202450(10): 110-118.

[11]

LI Y L. Research and application of deep learning in image recognition[C]//2022 IEEE 2nd International Conference on Power, Electronics and Computer Applications (ICPECA). Shenyang: IEEE, 2022: 994-999.

[12]

冯元勇, 孙乐, 李文波, . 基于单字提示特征的中文命名实体识别快速算法[J]. 中文信息学报200822(1): 104-110.

[13]

向晓雯. 基于条件随机场的中文命名实体识别[D]. 厦门: 厦门大学, 2006.

[14]

LAURIOLA ILAVELLI AAIOLLI F. An introduction to deep learning in natural language processing: Models, techniques, and tools[J]. Neurocomputing2022470: 443-456.

[15]

HAMMERTON J.Named entity recognition with long short-term memory[C]//Proceedings of the seventh conference on Natural language learning at HLT-NAAC L 2003.Edmonton: ACL, 2003:172-175.

[16]

HE WXU YYU Q. BERT-BiLSTM-CRF Chinese Resume Named Entity Recognition Combining Attention Mechanisms[C]//Proceedings of the 4th International Conference on Artificial Intelligence and Computer Engineering.Dalian: ACM, 2023: 542-547.

[17]

LAMPLE GBALLESTEROS MSUBRAMANIAN Set al.Neural architectures for named entity recognition[J].arXiv preprint arXiv2016:1603.01360.

[18]

LIU YWEI SHUANG Het al. Naming entity recognition of citrus pests and diseases based on the BERT-BiLSTM-CRF model[J]. Expert Systems with Applications2023234: 121103.

[19]

WEI KWENn B. Named entity recognition method for educational emergency field based on BERT[C]//2021 IEEE 12th International Conference on Software Engineering and Service Science (ICSESS). Beijing: IEEE, 2021: 145-149.

[20]

LI NSHEN QSONG Ret al. MEduKG: A deep-learning-based approach for multi-modal educational knowledge graph construction[J]. Information202213(2): 91.

[21]

MICIKEVICIUS PNARANG SALBEN Jet al. Mixed precision training[J]. arXiv preprint arXiv2017:1710.03740.

[22]

刘晓明,李丞正旭,吴少聪,.文本分类算法及其应用场景研究综述[J].计算机学报202447(6):1244-1287.

[23]

YANG LSHAMI A. On hyperparameter optimization of machine learning algorithms: Theory and practice[J]. Neurocomputing2020415: 295-316.

[24]

ZHAO WLIU J. Application of knowledge map based on BiLSTM-CRF algorithm model in ideological and political education question answering system[J]. Mobile Information Systems20222022:4139323.

[25]

LIU SYANG HLI J Yet al. Preliminary study on the knowledge graph construction of Chinese ancient history and culture[J]. Information202011(4): 186.

[26]

AN YXIA X YCHEN X Let al. Chinese clinical named entity recognition via multi-head self-attention based BiLSTM-CRF[J]. Artificial Intelligence in Medicine2022127: 102282.

[27]

WU SSONG X NFENG Z Het al. NFLAT: Non-flat-lattice transformer for Chinese named entity recognition[J]. arXiv preprint arXiv2022: 2205.05832.

基金资助

内蒙古自治区自然科学基金资助项目“面向编程教育个性化学习的智能教育服务关键技术研究”(2023LHMS06009)

“基于知识追踪与学习者画像的编程习题个性化推荐方法”(2024MS06020)

内蒙古自治区教育科学研究“十四五”规划资助项目“基于知识图谱的信息技术课程学习指导模式构建”(2023NGHZXZH119)

“‘互联网+’背景下的智能化导学模型研究”(NGJGH2023234)

AI Summary AI Mindmap
PDF (1021KB)

169

访问

0

被引

详细

导航
相关文章

AI思维导图

/