一种去除重复URL的算法

苏国荣, 杨岳湘, 邓劲生

广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (01) : 122 -126.

PDF
广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (01) : 122 -126. DOI: 10.16088/j.issn.1001-6600.2010.01.039

一种去除重复URL的算法

    苏国荣, 杨岳湘, 邓劲生
作者信息 +

Author information +
文章历史 +
PDF

摘要

通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进行了实验并和其他策略进行了比较,实验证明该应用策略能够在误判率较低的情况下取得较好的去重效果。

关键词

布隆过滤器 / 散列函数 / URL / 网页去重

Key words

引用本文

引用格式 ▾
一种去除重复URL的算法[J]. 广西师范大学学报(自然科学版), 2010, 28(01): 122-126 DOI:10.16088/j.issn.1001-6600.2010.01.039

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

75

访问

0

被引

详细

导航
相关文章

AI思维导图

/