基于查询日志分析的中文网页关键词抽取方法

王晓艳, 王珍珍

广西师范大学学报(自然科学版) ›› 2015, Vol. 33 ›› Issue (02) : 42 -48.

PDF
广西师范大学学报(自然科学版) ›› 2015, Vol. 33 ›› Issue (02) : 42 -48. DOI: 10.16088/j.issn.1001-6600.2015.02.007

基于查询日志分析的中文网页关键词抽取方法

    王晓艳, 王珍珍
作者信息 +

Author information +
文章历史 +
PDF

摘要

以全文索引为基础的网页搜索引擎检索相关度偏低。针对这一问题,本文提出了一种基于查询日志分析的中文网页关键词抽取方法。该方法利用用户对网页与查询词的相关性判断来选择关键词。为了量化用户的相关性判断,提出了单位篇幅停留时间、逆向点击率、排名补偿因子3个指标,并对其进行综合加权。在查询串分词、同义词识别及多义词消歧、关键短语组配方面,也做了特殊处理。实验结果表明:抽取关键词的准确率较高,综合性能也高于TF.IDF和SVM方法。该方法能得到较满意的关键词抽取效果。

关键词

抽取 / 关键短语组配 / 同义词识别 / 多义词消歧

Key words

引用本文

引用格式 ▾
基于查询日志分析的中文网页关键词抽取方法[J]. 广西师范大学学报(自然科学版), 2015, 33(02): 42-48 DOI:10.16088/j.issn.1001-6600.2015.02.007

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

68

访问

0

被引

详细

导航
相关文章

AI思维导图

/