基于共线性长测序数据的单染色体组装方法

李梦然; 甘祥超

南京农业大学学报 ›› 2025, Vol. 48 ›› Issue (04) : 969 -976.

基于共线性长测序数据的单染色体组装方法

李梦然, 甘祥超

作者信息 +

Author information +

文章历史 +

摘要

[目的]本文提出一种基于长测序数据的单染色体组装方法，旨在更加准确高效组装出完整的基因组。[方法]利用GALA中的染色体分离算法，将初步组装中的contigs按染色体进行聚类，然后提取测序数据中的reads进行单染色体组装。受到测序数据质量和预组装结果的影响，有时contigs的聚类结果不够完美，导致后续单染色体组装难度增加。为了克服这一问题，提出了一种基于共线性分析辅助聚类的方法。该方法利用同物种或亲缘关系较近物种的参考基因组与GALA聚类生成的scaffolding groups进行共线性分析，根据比对结果将属于同一条染色体的scaffolding groups进行合并，使scaffolding groups中的序列长度与整条染色体相当，再根据合并后的结果提取reads进行单染色体组装。[结果]这套方法被应用在水稻(Oryza sativa)和桃金娘(Rhodomyrtus tomentosa)基因组组装，利用ONT的水稻测序数据组装出了长度379.89 Mb, N50为30.54 Mb,包含12条完整端粒到端粒的染色体。基于HiFi测序数据组装出总长度485.54 Mb,包含11条染色体，N50为46.71 Mb,不存在任何gap的桃金娘基因组。[结论]本文提出的组装方法不仅组装出准确完整的基因组，而且对不同种类的测序数据具有很强的适用性，为后续开展基因组学相关研究提供了可靠数据资源。