基于隐马尔科夫模型的文本分类

刘晓飞; 邸书灵

doi:10.13319/j.cnki.sjztddxxbzrb.2013.01.001

石家庄铁道大学学报（自然科学版） ›› 2013, Vol. 26 ›› Issue (01) : 101 -105+110. DOI: 10.13319/j.cnki.sjztddxxbzrb.2013.01.001

基于隐马尔科夫模型的文本分类

刘晓飞, 邸书灵

作者信息 +

Author information +

文章历史 +

PDF

摘要

文本分类经过多年的发展,已经产生了很多成熟高效的算法。将隐马尔科夫模型用于文本分类,对每个文本类构建一个隐马尔科夫模型,χ2检验获得类别特征词集,其状态转移表示按照一指定顺序对类别特征词集进行遍历,状态输出符号为特征词的词频,隐马尔科夫模型的状态转移过程隐含的表示了属于该类的文本的形成过程。具有最大概率的HMM分类器就是所属的类别。该算法不仅将特征词考虑进去,而且还将词频信息融入隐马尔科夫模型中,实验结果表明该方法分类效率较高。