PDF
摘要
针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法。该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特征和相邻块间类别转移特征,通过CRFs模型对数据序列进行类别标注来实现网页主题内容的抽取。实验表明,该方法对新闻网页主题内容的抽取具有较高检准率和较强适应能力,引入块间关联特性可改善新闻网页主题内容的抽取。
关键词
Web信息抽取
/
条件随机场
/
网页分块
Key words
基于CRFs的新闻网页主题内容自动抽取方法[J].
广西师范大学学报(自然科学版), 2011, 29(01): 138-142 DOI:10.16088/j.issn.1001-6600.2011.01.021