一种高效的分布式FDR假阳性控制算法

刘旭泽, 王慧颖, 褚良宇, 赵宇海

东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (05) : 37 -45.

PDF
东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (05) : 37 -45.

一种高效的分布式FDR假阳性控制算法

    刘旭泽, 王慧颖, 褚良宇, 赵宇海
作者信息 +

Author information +
文章历史 +
PDF

摘要

为了解决大数据挖掘中多重假设检验导致的假阳性问题,以及控制伪发现率(false discovery rate,FDR)理论结果计算过程极其耗时的问题,针对理论FDR值的计算效率问题,提出了一种分布式假阳性控制算法DPFDR(distributed permutation testing-based false discovery rat, DPFDR).该算法首先基于条件频繁模式树(conditional frequent pattern tree,CFP)方法进行代表模式挖掘,利用代表模式对模式空间进行压缩.然后,根据代表模式对相应任务的工作量进行预估,按照工作量进行数据划分,并通过负载均衡策略将任务分配到各计算结点上.最后,通过合并、排序各结点的计算结果,获得有效的FDR假阳性控制阈值.真实数据集上的一系列实验结果表明,提出的DPFDR算法能极大提升FDR假阳性控制阈值的计算效率.

关键词

假阳性 / 数据挖掘 / 分布式计算 / 伪发现率 / 显著性阈值

Key words

引用本文

引用格式 ▾
一种高效的分布式FDR假阳性控制算法[J]. 东北大学学报(自然科学版), 2025, 46(05): 37-45 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

77

访问

0

被引

详细

导航
相关文章

AI思维导图

/