面向检索服务的词干提取与相关排序优化研究

朱艳, 张敬伟, 杨青, 胡晓丽, 单美静

桂林电子科技大学学报 ›› 2022, Vol. 42 ›› Issue (05) : 354 -365.

PDF
桂林电子科技大学学报 ›› 2022, Vol. 42 ›› Issue (05) : 354 -365. DOI: 10.16725/j.cnki.cn45-1351/tn.2022.05.010

面向检索服务的词干提取与相关排序优化研究

作者信息 +

Author information +
文章历史 +
PDF

摘要

新一代信息技术的兴起以及互联网产业的飞速发展使得数据量呈爆炸式增长。为满足数十亿用户从海量数据中快速获取有效信息的需求,提升搜索引擎的检索质量以及查询效率具有重要意义,同时也面临挑战。一方面,用户的查询词日益复杂,语言词汇形态变异的特点导致检索词变得多样化,而现有词干提取算法普遍存在词干提取不足、词干提取准确率不高等问题;另一方面,在海量数据中检索到满足用户查询要求的文档结果是一项非常耗时的任务,而现有将文档划分到多个服务器处理查询延迟的方法常常会出现尾延迟问题。针对以上问题,在文本预处理阶段,设计了词形规范化算法APS,对规则函数进行重编码,优化了特征词提取;在相关排序阶段,设计了基于一次一得分查询处理策略的随时排序算法SAR,在给定时间预算处理完指定数量倒排段后能够提前终止查询过程,大大减少了查询评估时间。在多个真实数据集上进行了实验,验证了APS算法对于提高词干提取准确率的有效性以及SAR算法对于控制查询延迟的真实性。

关键词

词干提取算法 / 随时排序算法 / 文本预处理 / SAAT / 相关排序

Key words

引用本文

引用格式 ▾
朱艳, 张敬伟, 杨青, 胡晓丽, 单美静 面向检索服务的词干提取与相关排序优化研究[J]. 桂林电子科技大学学报, 2022, 42(05): 354-365 DOI:10.16725/j.cnki.cn45-1351/tn.2022.05.010

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

14

访问

0

被引

详细

导航
相关文章

AI思维导图

/