基于Hadoop的新闻数据分析与可视化

闫常娜, 陶冶

信息记录材料 ›› 2026, Vol. 27 ›› Issue (4) : 111 -113+172.

PDF
信息记录材料 ›› 2026, Vol. 27 ›› Issue (4) : 111 -113+172. DOI: 10.16009/j.issn.1009-5624.2026.04.036

基于Hadoop的新闻数据分析与可视化

    闫常娜, 陶冶
作者信息 +

Author information +
文章历史 +
PDF

摘要

随着大数据的应用越来越广泛,新闻数据分析亟须能够处理多源异构的信息系统。为解决中小新闻机构因缺少数据全流程处理手段造成的低效采集与大量重复计算的问题,本文首先建立了以Hadoop生态为基础的新闻数据全生命周期管理系统,采用集中式爬虫与分布式处理相融合的方式,利用Python、分布式文件系统(HDFS)以及HBase完成数据采集与分布式存储;其次,提出规则驱动和统计模型相结合的轻量化分析方法,依托Spark与动态词库实现热点追踪、主题分类以及地域关联分析;最后,运用Data Ease构建可视化平台,给出适用于区域舆情监测的具有时效性、可解释性的即用型解决方案。测试结果表明:该系统可实现单日接近1.3万条新闻数据的高效采集,军事关键词提取准确率达92.7%,可视化数据延迟8 s完成渲染更新。

关键词

Hadoop / 新闻数据分析 / 数据可视化 / HBase / Spark

Key words

引用本文

引用格式 ▾
基于Hadoop的新闻数据分析与可视化[J]. 信息记录材料, 2026, 27(4): 111-113+172 DOI:10.16009/j.issn.1009-5624.2026.04.036

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/