PDF
摘要
以全文索引为基础的网页搜索引擎检索相关度偏低。针对这一问题,本文提出了一种基于查询日志分析的中文网页关键词抽取方法。该方法利用用户对网页与查询词的相关性判断来选择关键词。为了量化用户的相关性判断,提出了单位篇幅停留时间、逆向点击率、排名补偿因子3个指标,并对其进行综合加权。在查询串分词、同义词识别及多义词消歧、关键短语组配方面,也做了特殊处理。实验结果表明:抽取关键词的准确率较高,综合性能也高于TF.IDF和SVM方法。该方法能得到较满意的关键词抽取效果。
关键词
抽取
/
关键短语组配
/
同义词识别
/
多义词消歧
Key words
基于查询日志分析的中文网页关键词抽取方法[J].
广西师范大学学报(自然科学版), 2015, 33(02): 42-48 DOI:10.16088/j.issn.1001-6600.2015.02.007