PDF
摘要
通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进行了实验并和其他策略进行了比较,实验证明该应用策略能够在误判率较低的情况下取得较好的去重效果。
关键词
布隆过滤器
/
散列函数
/
URL
/
网页去重
Key words
一种去除重复URL的算法[J].
广西师范大学学报(自然科学版), 2010, 28(01): 122-126 DOI:10.16088/j.issn.1001-6600.2010.01.039