基于朴素贝叶斯模型和PageRank算法的电网事故主题爬虫算法

谢树泳, 刘之亮

河南师范大学学报(自然科学版) ›› 2025, Vol. 53 ›› Issue (02) : 124 -130.

PDF
河南师范大学学报(自然科学版) ›› 2025, Vol. 53 ›› Issue (02) : 124 -130. DOI: 10.16366/j.cnki.1000-2367.2023.12.26.0001

基于朴素贝叶斯模型和PageRank算法的电网事故主题爬虫算法

    谢树泳, 刘之亮
作者信息 +

Author information +
文章历史 +
PDF

摘要

为了减少电网人身安全事故,利用数据挖掘技术构建和分析事故多维数据,建立准确的预警模型十分必要.其中一个极具挑战性的问题是如何在海量网页中自动化采集人身事故样本数据.提出一种朴素贝叶斯模型与PageRank结合的主题爬虫算法.首先采用中文文本分割和设置关键词词频的方法对数据预处理,进行特征选择后,构建并训练朴素贝叶斯分类模型,从而实现电网事故分类准确度的显著提升.然后利用PageRank算法对精确分类后的网页进行主题相关性排序,有效避免普通爬虫方法中出现的主题漂移问题.实验结果表明,不论是在相同时间还是相同页面数的条件下,该方法的页面收获率均高于单独使用朴素贝叶斯分类器或PageRank的收获率,即本方法能够在大量网页中更高效、准确地爬取电网事故信息.

关键词

电网安全 / 人身事故 / 朴素贝叶斯模型 / PageRank算法 / 主题爬虫

Key words

引用本文

引用格式 ▾
基于朴素贝叶斯模型和PageRank算法的电网事故主题爬虫算法[J]. 河南师范大学学报(自然科学版), 2025, 53(02): 124-130 DOI:10.16366/j.cnki.1000-2367.2023.12.26.0001

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

60

访问

0

被引

详细

导航
相关文章

AI思维导图

/