汉语-印尼语平行语料自动对齐方法研究

郑铿涛, 林楠铠, 付颖雯, 王连喜, 蒋盛益

广西师范大学学报(自然科学版) ›› 2019, Vol. 37 ›› Issue (01) : 89 -97.

PDF
广西师范大学学报(自然科学版) ›› 2019, Vol. 37 ›› Issue (01) : 89 -97. DOI: 10.16088/j.issn.1001-6600.2019.01.010

汉语-印尼语平行语料自动对齐方法研究

    郑铿涛, 林楠铠, 付颖雯, 王连喜, 蒋盛益
作者信息 +

Author information +
文章历史 +
PDF

摘要

双语平行语料库是多语种自然语言处理的重要资源,已被广泛地应用于机器翻译、机助人译、翻译知识抽取与跨语言信息检索等领域中。本文针对汉语-印尼语平行语料的自动对齐与可比语料的自动提取问题,提出了基于锚点和词典相结合的段落对齐方法,并在此基础上采用基于置信区间的长度模型实现句子对齐,同时,为了快速提高汉语-印尼语平行语料库的构建效率,还提出了基于跨语言文档相似度的可比语料提取方法。实验结果表明,本文提出的平行语料对齐方法和可比语料提取方法的准确率较传统方法有显著的提高,说明本文提出方法是有效的、可行的。

关键词

平行语料 / 语料库构建 / 可比语料 / 段落对齐 / 句对齐

Key words

引用本文

引用格式 ▾
汉语-印尼语平行语料自动对齐方法研究[J]. 广西师范大学学报(自然科学版), 2019, 37(01): 89-97 DOI:10.16088/j.issn.1001-6600.2019.01.010

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

87

访问

0

被引

详细

导航
相关文章

AI思维导图

/