融合双语信息的汉语篇章主次识别方法

李艳翠, 郭鹏程, 苗国义

南京师大学报(自然科学版) ›› 2026, Vol. 49 ›› Issue (2) : 74 -84.

PDF
南京师大学报(自然科学版) ›› 2026, Vol. 49 ›› Issue (2) : 74 -84.

融合双语信息的汉语篇章主次识别方法

    李艳翠, 郭鹏程, 苗国义
作者信息 +

Author information +
文章历史 +
PDF

摘要

在主次识别中,汉语句子间的显式衔接手段较少,因此其主次识别具有极大的挑战性.英语大多用明确的主从结构或连接词来表示句子的主次关系,而现有方法在训练模型时没有利用英语信息.与现有方法在训练模型时单独使用中文数据不同,提出的方法在训练模型时使用平行双语数据.对双语文本编码时使用多语言预训练模型,在得到的编码上应用多头注意力机制,捕获显式或隐含于句中的主从信息.在汉语篇章树库(Chinese Discourse Treebank, CDTB)上的实验显示,提出的模型和方法比之前最好的GMN-Nu模型在宏平均F1值和微平均F1值上提高了8.7%和6.1%;相较于仅使用预训练模型和单语数据训练的方法,融合双语信息的主次识别方法对于mBERT、mT5、XLM-R 3种模型在微平均F1值上分别提高了1.6%、3.5%、1.3%.在汉英篇章结构平行语料库(Chinese-English Discourse Treebank, CEDT)上的实验显示,融合双语信息的主次识别方法比单语言的主次识别方法在微平均F1值和宏平均F1值上分别提升了10.2%和5.8%.

关键词

篇章分析 / 主次识别 / 预训练模型 / 双语信息

Key words

引用本文

引用格式 ▾
融合双语信息的汉语篇章主次识别方法[J]. 南京师大学报(自然科学版), 2026, 49(2): 74-84 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/