基于刺突蛋白序列和机器学习方法预测冠状病毒宿主多分类

辽宁大学学报(自然科学版) ›› 2023, Vol. 50 ›› Issue (04) : 312 -317.

PDF
辽宁大学学报(自然科学版) ›› 2023, Vol. 50 ›› Issue (04) : 312 -317. DOI: 10.16197/j.cnki.lnunse.2023.04.004

基于刺突蛋白序列和机器学习方法预测冠状病毒宿主多分类

作者信息 +

Author information +
文章历史 +
PDF

摘要

严重急性呼吸综合征冠状病毒2(SARS-COV-2)在2019年年底引起了新型冠状病毒肺炎(COVID-19)的全球大流行,冠状病毒跨物种传播到多种哺乳动物包括人类.因此,快速准确地预测冠状病毒宿主分类对于未来控制和防治流行病具有重要意义.本文从NCBI(National center for biotechnology information)病毒数据库收集刺突蛋白序列,使用CD-HIT软件去除重复数据得到3 216条序列,将其按照宿主分类分为6种样本,按照收集时间排序后以8∶2比例划分为训练集和测试集,使用分布描述符(CTDD)以及自然语言模型Seq2Vec来编码刺突蛋白序列特征,应用多种机器学习方法训练预测分类模型,并进行模型评估.在预测人类宿主方面,Seq2Vec-GCNN作为最佳模型其准确率高达99.37%,而在预测其他宿主分类时CTDD-RF表现极佳,准确率分别为猪类95.82%,禽类95.96%,骆驼98.33%,蝙蝠92.06%,其他哺乳动物94.01%.结果表明,使用机器学习方法基于刺突蛋白序列构建预测冠状病毒宿主分类模型是切实有效的.

关键词

机器学习 / 冠状病毒 / 刺突蛋白

Key words

引用本文

引用格式 ▾
基于刺突蛋白序列和机器学习方法预测冠状病毒宿主多分类[J]. 辽宁大学学报(自然科学版), 2023, 50(04): 312-317 DOI:10.16197/j.cnki.lnunse.2023.04.004

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

41

访问

0

被引

详细

导航
相关文章

AI思维导图

/