融合图嵌入和BERT嵌入的文本分类模型

常慧霞; 李孝忠

doi:10.13364/j.issn.1672-6510.20230195

天津科技大学学报 ›› 2025, Vol. 40 ›› Issue (01) : 72 -80. DOI: 10.13364/j.issn.1672-6510.20230195

融合图嵌入和BERT嵌入的文本分类模型

常慧霞, 李孝忠

作者信息 +

Author information +

文章历史 +

PDF (906K)

摘要

文本分类作为自然语言领域中的重要任务之一，广泛应用于问答系统、推荐系统以及情感分析等相关任务中。为了提取文本数据中的复杂语义特征信息并捕获全局的图信息，提出一种融合图嵌入和BERT(bidirectionalencoderrepresentationfromTransformers)嵌入的文本分类模型。该模型引入双级注意力机制考虑不同类型节点的重要性以及同一类型不同相邻节点的重要性，同时采用BERT预训练模型获得包含上下文信息的嵌入并解决一词多义的问题。该模型把所有单词和文本均视为节点，为整个语料库构建一张异构图，将文本分类问题转化为节点分类问题。将双级注意力机制与图卷积神经网络进行融合，双级注意力机制包含类型级注意力和节点级注意力。类型级注意力机制捕获不同类型的节点对某一节点的重要性，节点级注意力机制可以捕获相同类型的相邻节点对某一节点的重要性。将BERT模型获得的文本中局部语义信息与经图卷积神经网络得到的具有全局信息的图嵌入表示相结合，得到最后的文本嵌入表示，并完成文本分类。在4个广泛使用的公开数据集上与7个基线模型进行对比实验，结果表明本文模型提高了文本分类的准确性。