基于超大人群二代测序数据的关联性分析方法评价

蒋昀珂, 沈思鹏, 陈峰

中国卫生统计 ›› 2025, Vol. 42 ›› Issue (03) : 401 -405.

PDF
中国卫生统计 ›› 2025, Vol. 42 ›› Issue (03) : 401 -405.

基于超大人群二代测序数据的关联性分析方法评价

作者信息 +

Author information +
文章历史 +
PDF

摘要

目的 本研究旨在评价二代测序数据中关联性分析方法。以往运用于全基因组关联性研究(genome-wide association study, GWAS)中的方法能否在全外显子测序数据中有良好的精确度,对于未来测序数据的挖掘有重要的意义。方法 利用英国生物样本库(UK biobank, UKB)45万人全外显子测序数据,模拟不同病例占比、不同亲缘关系占比的数据集,采用BOLT-LMM,SAIGE,fastGWA-GLMM和REGENIE四种常见的关联性分析算法对各种情景下的数据集进行模拟试验,评价指标主要是一类错误、运行时间和内存占用。根据不同情景下模拟试验结果,寻找效果最优的方法。结果 SAIGE和REGENIE在各种情况下均能较好的控制一类错误,计算效率也较高。面对亲缘关系占比高,亲缘关系复杂的数据时,fastGWA-GLMM表现较差。BOLT-LMM不适用于二元表型,不推荐用于实际工作。结论 综合比较,基于广义混合模型的SAIGE和基于机器学习的REGENIE适用于二代测序数据关联性分析。

关键词

关联性分析 / 二代测序 / 混合效应模型 / 模拟试验 / 效果评价

Key words

引用本文

引用格式 ▾
蒋昀珂, 沈思鹏, 陈峰 基于超大人群二代测序数据的关联性分析方法评价[J]. 中国卫生统计, 2025, 42(03): 401-405 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

7

访问

0

被引

详细

导航
相关文章

AI思维导图

/