融合双语信息的汉语篇章主次识别方法

李艳翠; 郭鹏程; 苗国义

南京师大学报（自然科学版） ›› 2026, Vol. 49 ›› Issue (2) : 74 -84.

融合双语信息的汉语篇章主次识别方法

李艳翠, 郭鹏程, 苗国义

作者信息 +

Author information +

文章历史 +

PDF

摘要

在主次识别中，汉语句子间的显式衔接手段较少，因此其主次识别具有极大的挑战性.英语大多用明确的主从结构或连接词来表示句子的主次关系，而现有方法在训练模型时没有利用英语信息.与现有方法在训练模型时单独使用中文数据不同，提出的方法在训练模型时使用平行双语数据.对双语文本编码时使用多语言预训练模型，在得到的编码上应用多头注意力机制，捕获显式或隐含于句中的主从信息.在汉语篇章树库(Chinese Discourse Treebank, CDTB)上的实验显示，提出的模型和方法比之前最好的GMN-Nu模型在宏平均F1值和微平均F1值上提高了8.7%和6.1%;相较于仅使用预训练模型和单语数据训练的方法，融合双语信息的主次识别方法对于mBERT、mT5、XLM-R 3种模型在微平均F1值上分别提高了1.6%、3.5%、1.3%.在汉英篇章结构平行语料库(Chinese-English Discourse Treebank, CEDT)上的实验显示，融合双语信息的主次识别方法比单语言的主次识别方法在微平均F1值和宏平均F1值上分别提升了10.2%和5.8%.