PDF
摘要
[目的]本文提出一种基于长测序数据的单染色体组装方法,旨在更加准确高效组装出完整的基因组。[方法]利用GALA中的染色体分离算法,将初步组装中的contigs按染色体进行聚类,然后提取测序数据中的reads进行单染色体组装。受到测序数据质量和预组装结果的影响,有时contigs的聚类结果不够完美,导致后续单染色体组装难度增加。为了克服这一问题,提出了一种基于共线性分析辅助聚类的方法。该方法利用同物种或亲缘关系较近物种的参考基因组与GALA聚类生成的scaffolding groups进行共线性分析,根据比对结果将属于同一条染色体的scaffolding groups进行合并,使scaffolding groups中的序列长度与整条染色体相当,再根据合并后的结果提取reads进行单染色体组装。[结果]这套方法被应用在水稻(Oryza sativa)和桃金娘(Rhodomyrtus tomentosa)基因组组装,利用ONT的水稻测序数据组装出了长度379.89 Mb, N50为30.54 Mb,包含12条完整端粒到端粒的染色体。基于HiFi测序数据组装出总长度485.54 Mb,包含11条染色体,N50为46.71 Mb,不存在任何gap的桃金娘基因组。[结论]本文提出的组装方法不仅组装出准确完整的基因组,而且对不同种类的测序数据具有很强的适用性,为后续开展基因组学相关研究提供了可靠数据资源。
关键词
基因组组装
/
长测序数据
/
单染色体组装
/
无间隙
/
共线性分析
Key words
基于共线性长测序数据的单染色体组装方法[J].
南京农业大学学报, 2025, 48(04): 969-976 DOI: