基于机器学习的茶树DNA聚类算法

杨小平; 倪萍; 诸葛天秋; 罗跃新; 郭春雨; 庞月兰; 吴雨婷

doi:10.13624/j.cnki.issn.1001-7445.2024.0386

广西大学学报（自然科学版） ›› 2024, Vol. 49 ›› Issue (02) : 386 -399. DOI: 10.13624/j.cnki.issn.1001-7445.2024.0386

基于机器学习的茶树DNA聚类算法

杨小平, 倪萍, 诸葛天秋, 罗跃新, 郭春雨, 庞月兰, 吴雨婷

作者信息 +

Author information +

文章历史 +

PDF

摘要

为了研究茶树基因序列的聚类问题，设计一种基于累计方差贡献率进行改进的核主成分分析(KPCA)与k均值(k-means)++聚类算法相结合的降维聚类算法(KPCA-k-means++)。将基因库数据集筛选分组后，利用k-mers算法提取基因数据的数据特征，根据累计方差贡献率的占比大于85%的标准确定降维主元个数对KPCA进行降维改进并采用k-means++算法对降维后数据聚类，通过CH(Calinski-Harabaze Index)指标和响应时间分析聚类结果。结果表明：在单独聚类、KPCA-聚类、改进PCA-聚类、改进KPCA-聚类4种处理方式中，改进KPCA-k-means++算法在不同处理方式和不同样本数的对比下，CH指标均为最高，与未改进时相比平均高出33%。在响应时间方面，改进KPCA-k-means++算法与同样改进PCA-k-means++算法在不同聚类数和样本数的对比下响应时间均较短。改进KPCA-k-means++算法能够保证对于茶树的基因序列的聚类准确率和聚类速度，表现出极好的聚类稳定性。