基于改进模糊均值聚类的汉语文本数据分类方法

霍亮

doi:10.20033/j.1003-7241.(2026)06-0154-06

自动化技术与应用 ›› 2026, Vol. 45 ›› Issue (6) : 154 -158. DOI: 10.20033/j.1003-7241.(2026)06-0154-06

计算机通信技术

基于改进模糊均值聚类的汉语文本数据分类方法

霍亮

作者信息 +

Classification method of Chinese text data based on improved fuzzy mean clustering

Huo Liang

Author information +

文章历史 +

PDF (1124K)

摘要

针对大数据环境下汉语文本数据分类中模糊边界难以界定、隶属度函数静态固化导致分类精度与效率不足的问题,提出基于改进模糊均值聚类的汉语文本数据分类方法。该方法对原始汉语文本数据进行预处理与特征归一化,构建模糊特征矩阵;采用改进模糊C均值算法迭代优化隶属度函数,并引入三角模糊集生成分类规则,有效刻画类别间的模糊过渡区域;在此基础上,进一步动态更新隶属度函数以适应数据分布的变化,计算模糊协方差矩阵并建立判别函数,完成分类决策。通过在IBM多属性人群数据集上的实验验证,该方法分类正确率最高达99.86%,数据浓缩率最高达97.62%,错分率始终低于0.6%,且性能随数据量增加下降平缓,具有良好的稳定性与抗噪性,满足汉语文本数据分类的实际需求。

Abstract

To address the issues of indistinct boundaries and static membership functions in Chinese text data classification under big data environments, leading to insufficient classification accuracy and efficiency, an improved fuzzy mean clustering-based Chinese text data classification method is proposed. This method preprocesses and normalizes the original Chinese text data to construct a fuzzy feature matrix. It employs an improved fuzzy C-means algorithm to iteratively optimize the membership function and introduces triangular fuzzy sets to generate classification rules, effectively characterizing the fuzzy transition zones between categories. Building on this, the membership function is further dynamically updated to adapt to changes in data distribution. A fuzzy covariance matrix is calculated, and a discriminant function is established to complete the classification decision. Experimental validation on the IBM multi-attribute population dataset demonstrates that this method achieves a maximum classification accuracy of 99.86%, a data condensation rate of up to 97.62%, and consistently maintains a misclassification rate below 0.6%. Additionally, its performance declines gradually with increasing data volume, exhibiting excellent stability and noise resistance, thereby meeting the practical requirements of Chinese text data classification.

关键词

模糊均值聚类 / 映射关系 / 模糊特征矩阵 / 欧氏距离 / 隶属度函数

Key words

fuzzy mean clustering / mapping relation / fuzzy feature matrix / euclidean distance / membership function

引用本文

引用格式 ▾

霍亮. 基于改进模糊均值聚类的汉语文本数据分类方法[J]. 自动化技术与应用, 2026, 45(6): 154-158 DOI:10.20033/j.1003-7241.(2026)06-0154-06

登录浏览全文

4963

注册一个新账户忘记密码

参考文献

[1] 苟和平, 景永霞, 韩强. 结合注意力机制的BiLSTM文本分类研究[J]. 洛阳理工学院学报(自然科学版), 2025, 35(4):82-87.
[2] 赵旻, 刘凯, 鄢达铸, 等. 结合文本分类的业务自动化系统设计与应用[J]. 自动化技术与应用, 2025, 44(7):186-188.
[3] 邓治文, 张龙健, 李锦辉, 等. 基于双通道和注意力机制的多特征融合的文本情感分类模型[J]. 软件工程, 2025, 28(12):1-5.
[4] 张鸿彦. 基于特征聚类与降维的新闻文本智能分类算法[J]. 信息技术与信息化, 2024(4):106-109.
[5] 文博, 高盛祥, 张勇丙. 基于注意力自适应迁移的零样本跨语言文本分类方法[J]. 昆明理工大学学报(自然科学版), 2025, 50(4):95-106.
[6] 金晨曦, 韩坤. 基于多特征融合和数据增强的警情文本智能分类方法[J]. 智能计算机与应用, 2025, 15(12):88-93.
[7] 徐胜超, 吕峻闽. 基于大语言模型的潜在语义文本分类技术[J]. 网络新媒体技术, 2025, 14(6):67-74.
[8] 张朋飞, 程俊, 张治坤, 等. 满足本地差分隐私的混合噪音感知的模糊C均值聚类算法[J]. 电子与信息学报, 2025, 47(3):739- 757.
[9] 赵凤萍, 韩党琴. 高敏感数据模糊C均值聚类方法优化仿真[J]. 计算机仿真, 2025, 42(6):363-367.
[10] 张冬冬, 王静. 基于空间模糊C均值算法的MRI图像分割[J]. 自动化技术与应用, 2024, 43(6):15-18,59.
[11] 刘辉舟, 倪妍妍, 齐红涛, 等. 基于特征识别与FCM的电力服务数据处理方法[J]. 电子设计工程, 2025, 33(2):72-76.
[12] 田成诗, 袁宏俊, 相瑞兵. 基于联系数投影的三角模糊数组合预测模型及其应用[J]. 运筹与管理, 2024, 33(1):115-122.
[13] 宋燕, 李元昊, 李明. 融合稀疏自表示和残差驱动的自适应模糊C均值聚类[J]. 控制与决策, 2024, 39(4):1333-1341.
[14] 张妮, 杨阿庆, 韩立锋. 多源异构数据模糊C均值聚类挖掘方法仿真[J]. 计算机仿真, 2025, 42(4):347-351.
[15] 吕侃, 陶奕, 顾捷飞, 等. 基于随机森林的中医电子病历数据分类系统设计[J]. 自动化技术与应用, 2024, 43(8):133-135.

AI Summary AI Mindmap

PDF (1099KB)

访问

被引

详细

导航

Received
2025-05-28
Issue Date
2026-06-11

摘要

Abstract

关键词

Key words

引用本文

参考文献

AI思维导图