PDF
摘要
文本分类经过多年的发展,已经产生了很多成熟高效的算法。将隐马尔科夫模型用于文本分类,对每个文本类构建一个隐马尔科夫模型,χ2检验获得类别特征词集,其状态转移表示按照一指定顺序对类别特征词集进行遍历,状态输出符号为特征词的词频,隐马尔科夫模型的状态转移过程隐含的表示了属于该类的文本的形成过程。具有最大概率的HMM分类器就是所属的类别。该算法不仅将特征词考虑进去,而且还将词频信息融入隐马尔科夫模型中,实验结果表明该方法分类效率较高。
关键词
文本分类
/
隐马尔科夫模型
/
信息增益
/
χ2检验
/
泊松分布
Key words
刘晓飞, 邸书灵
基于隐马尔科夫模型的文本分类[J].
石家庄铁道大学学报(自然科学版), 2013, 26(01): 101-105+110 DOI:10.13319/j.cnki.sjztddxxbzrb.2013.01.001