基于松弛平方交叠率的分词词典无监督优选方法

王琳, 刘伍颖

南京大学学报(自然科学) ›› 2025, Vol. 61 ›› Issue (02) : 293 -299.

PDF
南京大学学报(自然科学) ›› 2025, Vol. 61 ›› Issue (02) : 293 -299. DOI: 10.13232/j.cnki.jnju.2025.02.010

基于松弛平方交叠率的分词词典无监督优选方法

    王琳, 刘伍颖
作者信息 +

Author information +
文章历史 +
PDF

摘要

分词是自然语言处理中的一项基础研究.针对词典规模影响分词效果这个科学问题,提出了平方交叠率(SOR)和松弛平方交叠率(RSOR)两种新量度,并验证了其有效性.平方交叠率的数值是词典交叠率和语料交叠率的乘积,而松弛平方交叠率是无监督学习下平方交叠率的松弛版本.这两种量度都反映了分词词典和待分词语料之间的适合程度.在越南语分词实验中的结果表明,基于松弛平方交叠率的无监督优选方法能在无需人工标注的前提下,选出最适合的越南语分词词典来达到最优的分词效果.

关键词

松弛平方交叠率 / 平方交叠率 / 分词词典 / 无监督优选 / 越南语

Key words

引用本文

引用格式 ▾
基于松弛平方交叠率的分词词典无监督优选方法[J]. 南京大学学报(自然科学), 2025, 61(02): 293-299 DOI:10.13232/j.cnki.jnju.2025.02.010

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

47

访问

0

被引

详细

导航
相关文章

AI思维导图

/