PDF
摘要
目的 本研究旨在评价二代测序数据中关联性分析方法。以往运用于全基因组关联性研究(genome-wide association study, GWAS)中的方法能否在全外显子测序数据中有良好的精确度,对于未来测序数据的挖掘有重要的意义。方法 利用英国生物样本库(UK biobank, UKB)45万人全外显子测序数据,模拟不同病例占比、不同亲缘关系占比的数据集,采用BOLT-LMM,SAIGE,fastGWA-GLMM和REGENIE四种常见的关联性分析算法对各种情景下的数据集进行模拟试验,评价指标主要是一类错误、运行时间和内存占用。根据不同情景下模拟试验结果,寻找效果最优的方法。结果 SAIGE和REGENIE在各种情况下均能较好的控制一类错误,计算效率也较高。面对亲缘关系占比高,亲缘关系复杂的数据时,fastGWA-GLMM表现较差。BOLT-LMM不适用于二元表型,不推荐用于实际工作。结论 综合比较,基于广义混合模型的SAIGE和基于机器学习的REGENIE适用于二代测序数据关联性分析。
关键词
关联性分析
/
二代测序
/
混合效应模型
/
模拟试验
/
效果评价
Key words
蒋昀珂, 沈思鹏, 陈峰
基于超大人群二代测序数据的关联性分析方法评价[J].
中国卫生统计, 2025, 42(03): 401-405 DOI: