基于扩展标记树的网页正文抽取

夏天

广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (01) : 133 -137.

PDF
广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (01) : 133 -137. DOI: 10.16088/j.issn.1001-6600.2011.01.020

基于扩展标记树的网页正文抽取

    夏天
作者信息 +

Author information +
文章历史 +
PDF

摘要

本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取。实验结果表明:该方法可以实现常规文章类网页的高精度抽取,并具有良好的适应性。

关键词

网页正文抽取 / 扩展标记树 / 近邻优先遍历

Key words

引用本文

引用格式 ▾
基于扩展标记树的网页正文抽取[J]. 广西师范大学学报(自然科学版), 2011, 29(01): 133-137 DOI:10.16088/j.issn.1001-6600.2011.01.020

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

93

访问

0

被引

详细

导航
相关文章

AI思维导图

/