PDF
摘要
根据科技文献的结构特点,论文提出了一种四层挖掘模式,并结合K-means算法和Apriori算法,构建一个新的特征词提取方法——MultiLM-FE方法.该方法首先依据科技文献的结构将其分为4个层次,然后通过K-means聚类对前3层逐层实现特征词提取,最后再使用Aprori算法找出第4层的最大频繁项集,并作为第4层的特征词集合.该方法能够解决K-means算法不能自动确定最佳聚类初始点的问题,减少了聚类过程中信息损耗,这使得该方法能够在文献语料库中更加准确地找到特征词,较之以前的方法有很大提升,尤其是在科技文献方面更为适用.实验结果表明,该方法是可行有效的.
关键词
科技文献
/
特征提取
/
K-means算法
/
Apriori算法
Key words
基于K-Means和Apriori算法的多层特征提取方法[J].
华中师范大学学报(自然科学版), 2015, 49(03): 357-362 DOI:10.19603/j.cnki.1000-1190.2015.03.007