基于机器学习的茶树DNA聚类算法

杨小平, 倪萍, 诸葛天秋, 罗跃新, 郭春雨, 庞月兰, 吴雨婷

广西大学学报(自然科学版) ›› 2024, Vol. 49 ›› Issue (02) : 386 -399.

PDF
广西大学学报(自然科学版) ›› 2024, Vol. 49 ›› Issue (02) : 386 -399. DOI: 10.13624/j.cnki.issn.1001-7445.2024.0386

基于机器学习的茶树DNA聚类算法

    杨小平, 倪萍, 诸葛天秋, 罗跃新, 郭春雨, 庞月兰, 吴雨婷
作者信息 +

Author information +
文章历史 +
PDF

摘要

为了研究茶树基因序列的聚类问题,设计一种基于累计方差贡献率进行改进的核主成分分析(KPCA)与k均值(k-means)++聚类算法相结合的降维聚类算法(KPCA-k-means++)。将基因库数据集筛选分组后,利用k-mers算法提取基因数据的数据特征,根据累计方差贡献率的占比大于85%的标准确定降维主元个数对KPCA进行降维改进并采用k-means++算法对降维后数据聚类,通过CH(Calinski-Harabaze Index)指标和响应时间分析聚类结果。结果表明:在单独聚类、KPCA-聚类、改进PCA-聚类、改进KPCA-聚类4种处理方式中,改进KPCA-k-means++算法在不同处理方式和不同样本数的对比下,CH指标均为最高,与未改进时相比平均高出33%。在响应时间方面,改进KPCA-k-means++算法与同样改进PCA-k-means++算法在不同聚类数和样本数的对比下响应时间均较短。改进KPCA-k-means++算法能够保证对于茶树的基因序列的聚类准确率和聚类速度,表现出极好的聚类稳定性。

关键词

核主成分分析 / 累计方差贡献率 / k均值聚类算法 / 基因聚类

Key words

引用本文

引用格式 ▾
基于机器学习的茶树DNA聚类算法[J]. 广西大学学报(自然科学版), 2024, 49(02): 386-399 DOI:10.13624/j.cnki.issn.1001-7445.2024.0386

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

25

访问

0

被引

详细

导航
相关文章

AI思维导图

/