PDF
摘要
根据科技文献的结构特点搭建了一个四层挖掘模式,并结合K-medoids算法提出了一个特征选择方法.该选择方法首先依据科技文献的结构将其分为4个层次,然后通过K-medoids算法聚类对前3层逐层实现特征词提取,紧接着再使用Aprori算法找出第4层的最大频繁项集,并作为第4层的特征词集合.同时,由于K-medoids算法的精度受初始中心点影响较大,为了改善该算法在特征选择中的效果,论文又对K-medoids算法的初始中心点选择进行优化.实验结果表明,结合优化K-medoids的四层挖掘模式在科技文献分类方面有较高的准确率.
关键词
文本分类
/
特征选择
/
K-medoids算法
Key words
基于改进K-medoids算法的科技文献特征选择方法[J].
华中师范大学学报(自然科学版), 2015, 49(04): 541-545 DOI:10.19603/j.cnki.1000-1190.2015.04.012