基于随机森林预测蛋白质变体折叠速率

张非凡, 张颖, 马莹雪, 吕军

内蒙古大学学报(自然科学版) ›› 2025, Vol. 56 ›› Issue (02) : 174 -186.

PDF
内蒙古大学学报(自然科学版) ›› 2025, Vol. 56 ›› Issue (02) : 174 -186. DOI: 10.13484/j.nmgdxxbzk.20250208

基于随机森林预测蛋白质变体折叠速率

    张非凡, 张颖, 马莹雪, 吕军
作者信息 +

Author information +
文章历史 +
PDF

摘要

蛋白质单点突变引起的折叠速率变化的准确预测,对于探索序列如何编码折叠这一蛋白质折叠的基本问题有积极意义。搜集了1329个由实验测定的蛋白质单点突变体折叠速率数据,并采用AlphaFold2预测了所有变体的结构数据。为了比较不同模型之间的预测性能,选出其中190个变体作为盲测集,其余作为训练集。按照突变位点所处一级结构位置(N端、中间和C端)、二级结构位置(螺旋、股和其他)以及三级结构位置(暴露、埋藏和部分埋藏)的不同,将变体蛋白分别归类到27个类别中。提取了残基的物化性质、取代得分以及接触势等1325个序列和结构特征。首先基于随机森林算法在每个类别的训练集上对特征进行重要性排序,并分别选择最优的3个特征,进一步将这些选出的特征再次输入到随机森林回归模型对变体相对于野生型的折叠速率改变量进行预测。结果表明,在盲测集上预测值与实验值之间的皮尔逊相关系数为0.403,平均绝对误差为0.613,优于现有的最好模型。

关键词

蛋白质单点突变 / 折叠速率 / 氨基酸性质 / 结构性质 / 随机森林算法

Key words

引用本文

引用格式 ▾
基于随机森林预测蛋白质变体折叠速率[J]. 内蒙古大学学报(自然科学版), 2025, 56(02): 174-186 DOI:10.13484/j.nmgdxxbzk.20250208

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

91

访问

0

被引

详细

导航
相关文章

AI思维导图

/