数据增强的联合标签清洗方法

刘昕雨, 姜高霞, 王文剑

小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (08) : 1901 -1909.

PDF
小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (08) : 1901 -1909. DOI: 10.20009/j.cnki.21-1106/TP.2024-0296

数据增强的联合标签清洗方法

    刘昕雨, 姜高霞, 王文剑
作者信息 +

Author information +
文章历史 +
PDF

摘要

标签噪声可能对监督学习模型的泛化能力产生较大影响.噪声过滤通过删减噪声样本来提升数据质量,是解决标签噪声问题的有效方法.然而,目前大多数标签噪声过滤算法会将一些潜在的有价值样本错误地标记为噪声,这种过度清洗会导致样本信息缺失.针对此问题,本文提出一种基于数据增强的联合标签清洗方法(Combined Label Cleaning Method based on Data Augmentation, CCDA),该方法通过多次在数据集上进行特征加噪增强、特征划分增强和组合增强,使用多次增强后预测结果的信息熵和一致性来评估样本的稳定性.将最不稳定的样本交由专家标注进行主动清洗修正标签值;将最稳定的样本利用模型预测的集成结果自动清洗.通过主动与自动方式联合实施针对性标签清洗,以较小的人工标记代价有效降低了标签噪声对模型性能的影响,提高了模型的泛化能力.实验结果表明,与所比较的方法相比,本文所提CCDA方法在不同噪声环境下都取得了更高的分类准确率,而且人工修正标记代价小.

关键词

标签噪声 / 噪声过滤 / 稳定性 / 联合清洗 / 数据增强

Key words

引用本文

引用格式 ▾
数据增强的联合标签清洗方法[J]. 小型微型计算机系统, 2025, 46(08): 1901-1909 DOI:10.20009/j.cnki.21-1106/TP.2024-0296

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

52

访问

0

被引

详细

导航
相关文章

AI思维导图

/