领域专有平行语料库的敏捷构建方法

李铭, 张克亮

厦门大学学报(自然科学版) ›› 2025, Vol. 64 ›› Issue (04) : 586 -596.

PDF
厦门大学学报(自然科学版) ›› 2025, Vol. 64 ›› Issue (04) : 586 -596. DOI: CNKI:SUN:XDZK.0.2025-04-004

领域专有平行语料库的敏捷构建方法

    李铭, 张克亮
作者信息 +

Author information +
文章历史 +
PDF

摘要

[目的]针对领域平行语料库数量不足,构建困难的问题,研究能够敏捷构建满足垂直领域模型训练要求的领域平行语料库的方法.[方法]在构建的通用大规模跨领域平行语料库的基础上提出了领域专有平行语料库的自动构建方法.该方法结合语言学理论概念层次网络与词向量模型构建目标领域核心词汇,并依此抽取目标领域平行句对,从而实现领域专有平行语料库敏捷构建.[结果]以军事领域为例,进行领域专有平行语料库构建与领域机器翻译的测试结果表明:相较于使用关键词对比、预训练模型与语言大模型等方法,本文方法所构建的领域平行语料库具有更高的F1值.使用该方法生成语料所训练的机器翻译模型在该领域的翻译结果相比于上述方法与商业翻译引擎具有更高的双语互译评估(BLEU)值.[结论]本文所提方法能够有效复用现有的高质量开源语料资源,并在数小时之内完成最贴合目标领域的平行语料库的构建,从而提升领域机器翻译的效果.

关键词

领域专有平行语料库 / 概念层次网络 / 句对抽取算法 / 语义距离计算

Key words

引用本文

引用格式 ▾
领域专有平行语料库的敏捷构建方法[J]. 厦门大学学报(自然科学版), 2025, 64(04): 586-596 DOI:CNKI:SUN:XDZK.0.2025-04-004

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

148

访问

0

被引

详细

导航
相关文章

AI思维导图

/