面向多标签隐性知识的文本数据挖掘算法

邓乔夫; 李骁娅; 郭校君

沈阳工业大学学报 ›› 2025, Vol. 47 ›› Issue (05) : 594 -601.

面向多标签隐性知识的文本数据挖掘算法

邓乔夫, 李骁娅, 郭校君

作者信息 +

Author information +

文章历史 +

PDF

摘要

【目的】随着社交软件用户群体的不断扩大，越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理，已成为当前研究的热点问题。本文基于深度主题特征提取模型，提出了一种面向多标签隐性知识的数据挖掘算法，以提升文本分类的准确性和数据挖掘的效率。【方法】针对多标签文本数据中隐性知识的显性化问题，基于SECI理论对文本信息中的隐性知识进行显性化转换，并利用循环神经网络的短时记忆能力提高隐性知识的转换效率。在此基础上，考虑到文本信息的复杂性，分别从局部特征和全局特征两个维度进行分析，并采用特征融合策略提高数据挖掘的准确性。由于文本信息前后文关联性较强，利用基于长短期记忆网络(LSTM)模型的门控机制，提取文本的上下文信息，以捕捉文本中的序列依赖关系；采用潜在狄利克雷分配(LDA)模型，对文本的主题结构进行建模，从而避免因人工标注标准差异导致的模型训练偏差；通过特征拼接的方式，并结合LDA主题模型和LSTM模型提取的局部及全局特征，以降低特征提取过程中信息丢失的风险；引入主题控制器，通过缩小推理范围，提高文本特征提取的有效性；构建基于高斯解码器的上下文主题层，计算词汇在特定主题下的条件概率矩阵，并利用高斯混合解码器优化文本主题建模，提高文本内容的扩充能力；使用Softmax函数计算各标签的概率，实现多标签文本分类。【结果】对比实验中，使用困惑度作为模型训练的评估指标。结果表明，本文模型的困惑度优于对照组(LDA主题模型与LSTM模型),验证了LDA与LSTM结合的特征拼接策略可有效发挥两种模型的优势。此外，与NVDM、LSTM、LDA和VAETM模型进行对比，以准确率和查全率为评估指标，本文模型在准确率和查全率方面分别提升了5.05%和2.75%,表明其在多标签文本分类任务中的有效性与优越性。【结论】对比实验结果表明，本文模型能够显著提升文本分类的性能，相比LDA主题模型和LSTM模型，在处理多标签文本时表现更优；能够高效挖掘多标签文本数据中的隐性知识，为文本分类、语义分析和信息检索等任务提供了一种高效、精准的解决方案。