基于CRFs的新闻网页主题内容自动抽取方法

张春元

广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (01) : 138 -142.

PDF
广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (01) : 138 -142. DOI: 10.16088/j.issn.1001-6600.2011.01.021

基于CRFs的新闻网页主题内容自动抽取方法

    张春元
作者信息 +

Author information +
文章历史 +
PDF

摘要

针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法。该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特征和相邻块间类别转移特征,通过CRFs模型对数据序列进行类别标注来实现网页主题内容的抽取。实验表明,该方法对新闻网页主题内容的抽取具有较高检准率和较强适应能力,引入块间关联特性可改善新闻网页主题内容的抽取。

关键词

Web信息抽取 / 条件随机场 / 网页分块

Key words

引用本文

引用格式 ▾
基于CRFs的新闻网页主题内容自动抽取方法[J]. 广西师范大学学报(自然科学版), 2011, 29(01): 138-142 DOI:10.16088/j.issn.1001-6600.2011.01.021

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

76

访问

0

被引

详细

导航
相关文章

AI思维导图

/