基于鲁棒子空间聚类算法的多来源数据集成处理方法

江明泽, 李伟, 董丹

吉林大学学报(信息科学版) ›› 2026, Vol. 44 ›› Issue (03) : 625 -631.

PDF
吉林大学学报(信息科学版) ›› 2026, Vol. 44 ›› Issue (03) : 625 -631. DOI: 10.19292/j.cnki.jdxxp.2026.03.005

基于鲁棒子空间聚类算法的多来源数据集成处理方法

    江明泽, 李伟, 董丹
作者信息 +

Author information +
文章历史 +
PDF

摘要

针对在多来源数据集成中,数据可能分布在不同的子空间中,且数据不平衡度较高的问题,为提高数据的分析效率,提出基于鲁棒子空间聚类算法的多来源数据集成处理方法。首先,通过改进数据平衡算法,计算最大类的采样数目及类平均采样数目,利用合成少数类过采样技术获取相对平衡子集,解决数据分布不均衡的问题;然后,通过Dice coefficient相似度度量的方式,计算多来源数据的余弦相似性,通过评估不同来源数据间的相似性,解决数据异构性和冗余问题;最后,在建立自表示性亲和图揭示数据内在关联性的基础上,利用鲁棒子空间聚类算法识别不同数据的特征子空间,通过引入鲁棒性机制,能抵抗噪声和冗余特征的影响,并计算数据的隶属度,根据隶属度实现数据集成处理。实验结果表明,该方法能实现对多来源数据集成处理,提高数据分析效率,保证数据一致性和可靠性。

关键词

鲁棒子空间聚类算法 / 多来源数据 / 余弦相似性 / 数据集成处理 / 高维特征空间

Key words

引用本文

引用格式 ▾
江明泽, 李伟, 董丹. 基于鲁棒子空间聚类算法的多来源数据集成处理方法[J]. 吉林大学学报(信息科学版), 2026, 44(03): 625-631 DOI:10.19292/j.cnki.jdxxp.2026.03.005

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/