大数据子抽样方法综述

高艳苹, 杨罗敬, 周永道

四川大学学报(自然科学版) ›› 2025, Vol. 62 ›› Issue (06) : 1283 -1297.

PDF
四川大学学报(自然科学版) ›› 2025, Vol. 62 ›› Issue (06) : 1283 -1297. DOI: 10.19907/j.0490-6756.240317

大数据子抽样方法综述

作者信息 +

Author information +
文章历史 +
PDF

摘要

在大数据时代,数据量呈现指数增长.随着数据集规模变得越来越庞大.对完整数据集进行统计和分析越来越困难,不仅要求高性能计算,还导致成本剧增.对此问题,可行应对方法之一是通过挑选小部分的关键数据来实现与完整数据集相近的效果.子抽样就是这样一种重要方法 .子抽样方法为统计和分析大数据集提供了一个解决方案,使研究人员能够专注于最相关、最有信息量的数据点,有效减轻完整数据集分析所需的计算负担和成本.目前,该方法已成为统计学、机器学习和数据科学等不同领域研究者的关注焦点.本文从子抽样方法是否依赖于统计模型的角度出发综述了依赖和不依赖于模型的子抽样方法的发展现状.对依赖模型的子抽样方法,本文介绍了适用于线性模型、广义线性模型及非线性模型的部分子抽样算法,每种算法均有其独特优势和局限性.本文还介绍了几种不依赖于模型的子抽样算法.这些算法不依赖于特定的模型假设,处理不同类型数据和问题时具有更大灵活性和适应性,适用更广泛场景.为评估这些算法的性能,本文对均匀随机子抽样、并行数据驱动子抽样、基于信息的最优子抽样及孪生子抽样等四种算法进行了仿真.通过展示算法性能,本文为在实际应用中研究者该如何选择合适的子抽样算法提供了依据.

关键词

子抽样方法 / 依赖于模型的子抽样 / 不依赖于模型的子抽样 / 统计推断

Key words

引用本文

引用格式 ▾
高艳苹, 杨罗敬, 周永道. 大数据子抽样方法综述[J]. 四川大学学报(自然科学版), 2025, 62(06): 1283-1297 DOI:10.19907/j.0490-6756.240317

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

1

访问

0

被引

详细

导航
相关文章

AI思维导图

/