SS-DCNN：基于深度学习预测Na+和K+配体结合残基的优化模型

姚雨倩; 胡秀珍; 陈少华; 唐本俊

doi:10.13785/j.cnki.nmggydxxbzrkxb.2025.06.011

内蒙古工业大学学报（自然科学版） ›› 2025, Vol. 44 ›› Issue (06) : 569 -576. DOI: 10.13785/j.cnki.nmggydxxbzrkxb.2025.06.011

数理科学

SS-DCNN：基于深度学习预测Na⁺和K⁺配体结合残基的优化模型

作者信息 +

SS-DCNN: deep learning-based prediction of Na⁺ and K⁺ ligands binding residues optimization model

Author information +

文章历史 +

PDF (5794K)

摘要

$N a +$ 和 $K +$ 配体与蛋白质相结合在生命活动中起着重要的作用，因此，准确预测 $N a +$ 和 $K +$ 配体结合残基具有重要意义。然而 $N a +$ 和 $K +$ 配体结合残基的样本数较少，在提高 $N a +$ 和 $K +$ 配体的预测精度方面面临挑战。从片段水平层面和单残基水平层面上选取特征，并将这2个层面上的特征进行融合，以确保信息的完整性。将SMOTE算法和Self-Attention机制与DCNN算法相结合，提出一种新的集成算法SS-DCNN，有效解决了DCNN算法对小样本预测精度不高和难以捕捉全局特征的局限性。结果表明：将 $N a +$ 和 $K +$ 配体的融合特征输入到SS-DCNN算法中，得到5-交叉检验的MCC值分别达到0.848 8和0.740 9，独立检验的MCC值分别达到0.169 5和0.190 2，预测结果优于DCNN模型及前人的预测结果。

Abstract

Binding of $N a +$ and $K +$ ligands to proteins is crucial for biological processes, making accurate prediction of their binding sites essential. However, the limited number of known binding residues poses a challenge for improving prediction accuracy. To address this, we selected features from both fragment and single-residue levels, ensuring comprehensive information. In this study, we integrated the SMOTE algorithm, Self-Attention mechanism, and DCNN algorithm to propose a new integrated algorithm, SS-DCNN. This effectively overcomes the limitations of DCNN, which struggles with low accuracy for small samples and capturing global features. When the fused features of $N a +$ and $K +$ ligands were input into SS-DCNN, the MCC values for 5-cross-validation reached 0.848 8 and 0.740 9, and for independent tests, 0.169 5 and 0.190 2, respectively, outperforming the DCNN model and previous predictions.

Graphical abstract

关键词

结合残基 / 融合特征 / Self-Attention机制 / SS-DCNN算法

Key words

binding residues / fusion features / Self-Attention mechanism / SS-DCNN algorithm

引用本文

引用格式 ▾

[Author(id=1234175632625242290, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, orderNo=0, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=1910068302@qq.com, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1234175632683962556, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, authorId=1234175632625242290, language=EN, stringName=Yuqian YAO, firstName=Yuqian, middleName=null, lastName=YAO, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Science, Inner Mongolia University of Technology, Hohhot 010051, China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1234175632730099905, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, authorId=1234175632625242290, language=CN, stringName=姚雨倩, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=内蒙古工业大学理学院，内蒙古呼和浩特 010051, bio={"content":"

姚雨倩（1999—），女，2023级硕士研究生，主要从事生物数学研究。E-mail: 1910068302@qq.com

"}, bioImg=null, bioContent=

姚雨倩（1999—），女，2023级硕士研究生，主要从事生物数学研究。E-mail: 1910068302@qq.com

, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1234175632549744805, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, xref=null, ext=[AuthorCompanyExt(id=1234175632566522024, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, companyId=1234175632549744805, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Science, Inner Mongolia University of Technology, Hohhot 010051, China), AuthorCompanyExt(id=1234175632579104939, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, companyId=1234175632549744805, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=内蒙古工业大学理学院，内蒙古呼和浩特 010051)])]), Author(id=1234175632772042952, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, orderNo=1, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=hxz@imut.edu.cn, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1234175632830763217, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, authorId=1234175632772042952, language=EN, stringName=Xiuzhen HU, firstName=Xiuzhen, middleName=null, lastName=HU, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Science, Inner Mongolia University of Technology, Hohhot 010051, China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1234175632876900566, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, authorId=1234175632772042952, language=CN, stringName=胡秀珍, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=内蒙古工业大学理学院，内蒙古呼和浩特 010051, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1234175632549744805, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, xref=null, ext=[AuthorCompanyExt(id=1234175632566522024, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, companyId=1234175632549744805, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Science, Inner Mongolia University of Technology, Hohhot 010051, China), AuthorCompanyExt(id=1234175632579104939, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, companyId=1234175632549744805, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=内蒙古工业大学理学院，内蒙古呼和浩特 010051)])]), Author(id=1234175632923037918, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, orderNo=2, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1234175632981758183, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, authorId=1234175632923037918, language=EN, stringName=Shaohua CHEN, firstName=Shaohua, middleName=null, lastName=CHEN, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Science, Inner Mongolia University of Technology, Hohhot 010051, China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1234175633027895531, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, authorId=1234175632923037918, language=CN, stringName=陈少华, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=内蒙古工业大学理学院，内蒙古呼和浩特 010051, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1234175632549744805, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, xref=null, ext=[AuthorCompanyExt(id=1234175632566522024, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, companyId=1234175632549744805, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Science, Inner Mongolia University of Technology, Hohhot 010051, China), AuthorCompanyExt(id=1234175632579104939, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, companyId=1234175632549744805, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=内蒙古工业大学理学院，内蒙古呼和浩特 010051)])]), Author(id=1234175633074032880, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, orderNo=3, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1234175633132753144, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, authorId=1234175633074032880, language=EN, stringName=Benjun TANG, firstName=Benjun, middleName=null, lastName=TANG, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Science, Inner Mongolia University of Technology, Hohhot 010051, China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1234175633178890494, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, authorId=1234175633074032880, language=CN, stringName=唐本俊, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=内蒙古工业大学理学院，内蒙古呼和浩特 010051, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1234175632549744805, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, xref=null, ext=[AuthorCompanyExt(id=1234175632566522024, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, companyId=1234175632549744805, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Science, Inner Mongolia University of Technology, Hohhot 010051, China), AuthorCompanyExt(id=1234175632579104939, tenantId=1045748351789510663, journalId=1189533430846771232, articleId=1234175630498730948, companyId=1234175632549744805, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=内蒙古工业大学理学院，内蒙古呼和浩特 010051)])])] 姚雨倩,胡秀珍,陈少华,唐本俊. SS-DCNN：基于深度学习预测Na⁺和K⁺配体结合残基的优化模型[J]. 内蒙古工业大学学报（自然科学版）, 2025, 44(06): 569-576 DOI:10.13785/j.cnki.nmggydxxbzrkxb.2025.06.011

登录浏览全文

4963

注册一个新账户忘记密码

在生物体中，蛋白质是维持生命活动的核心分子，不仅为生物体提供必要的结构框架，还参与调控多种生理功能，包括新陈代谢、免疫反应和物质转运等。这些功能的实现通常需要蛋白质与特定的配体相互作用。例如，Na⁺与相应蛋白酶结合后，能够激活相关酶蛋白基因的转录，维持细胞的稳定状态，并精确调控酶的活性，从而影响生物体的代谢速率和物质转化方向^[1]。K⁺在神经冲动传导过程中与特定蛋白质相互作用，维持细胞膜电位的稳定，确保信号在细胞间准确传递^[2]，因此，精确地预测Na⁺和K⁺配体的结合位点对于理解蛋白质复合物的结构与功能有着重要的影响。

近年来，众多研究者深入探讨了金属离子配体结合残基的识别问题，发现特征选取和算法选择对预测精度有影响。2005年，Lin等^[3]提出一种基于滑动窗口方法对特征进行提取，使用二级结构、亲水性和溶剂暴露区域的倾向性等，基于人工神经网络算法预测离子配体的结合位点，Ca²⁺、K⁺、Mn²⁺和Na⁺配体的准确度(Acc)值达到了99.0%，使用的是线性预测编码(liner predictive coding，LPC)数据集，样本数的限制，此后对Na⁺和K⁺配体研究较少。直到2016年，Hu等^[4]对BioLip数据库中离子配体的结合位点进行预测，其中，包括Na⁺和K⁺配体，选取的特征为氨基酸、二级结构、相对溶剂可及性和二面角，使用支持向量机(support vector machine，SVM)算法，在5-交叉检验下，Na⁺和K⁺配体的Acc值都大于74.09%，Matthews相关系数(MCC)都达到了0.146以上。2020年，Hu等^[5]采用梯度提升机(gradient boosting machine，GBM)算法并对其进行参数优化，其中，在5-交叉检验下，Na⁺和K⁺配体的Acc值都大于85.0%，MCC值都大于0.7。在独立检验下，Acc值都大于72.4%，MCC值都大于0.094 1。同年，Liu等^[6]对二面角进行重分类，利用随机森林(random forest，RF)算法预测Na⁺和

K ⁺

配体的结合残基，其中，5-交叉检验结果的Acc值都达到了80.2%，MCC值都达到了0.614。在独立检验下，Acc值都大于52.3%，MCC值都达到了0.076。2021年，Wang等^[7]添加了能量特征，将其输入SVM算法并对参数进行优化，在5-交叉检验下，Na⁺和K⁺配体的Acc值都大于75%，MCC值都大于0.5。在独立检验下，Na⁺和K⁺配体的Acc值都大于70.6%，MCC值都大于0.118。2022年，Xu等^[8]使用了GBM算法并进行参数优化，添加了关联信息特征，其中，得到5-交叉检验下的Na⁺和K⁺配体的Acc值都大于79%，MCC值都大于0.5。独立检验下的Acc值都大于56%，MCC值都大于0.103。

尽管已有大量研究在金属离子配体结合残基的预测方面都取得了显著进展；但由于这2种离子配体的样本数少造成预测精度不高，且上述研究大多集中在片段水平上进行特征提取，因此较少考虑单残基水平上的信息。算法上大多应用传统的SVM、RF和GBM算法等。本文中在前人研究的基础上，基于片段水平特征，考虑单残基水平特征并将二者融合。此外，引入深度卷积神经网络(deep convolutional neural network，DCNN)算法，利用合成少数类过采样算法(synthetic minority over-sampling technique，SMOTE)对不平衡数据进行扩充，添加自注意力(Self-Attention)机制对DCNN算法难以捕捉全局特征的局限性进行改进。基于SS-DCNN算法预测Na⁺和K⁺配体结合残基时，预测的结果均好于前人。

1 材料与方法

1.1 数据下载与样本整理

BioLiP (https://zhanggroup.org/BioLiP)数据库是一个专门针对生物学相关配体-蛋白质相互作用的结构数据库，本文从BioLiP数据库选取

N a +

和

K +

配体作为研究对象。为了获得高质量数据集，利用Perl程序筛选出分辨率大于0.3 nm和长度大于50个残基的蛋白质序列，将获取的蛋白质链数据信息以Fasta格式文件形式导入CD-HIT程序，控制序列的相似性在30%以下^[9]，分别得到78、53条蛋白质链。本文中将数据集划分为训练集（占比80%）和独立检验集（占比20%）。为了全面捕捉金属离子配体的结合残基及其周围残基的信息，采用滑动窗口方法对本文中的蛋白质序列进行片段截取^[10-13]。为确保每个氨基酸都能被预测到，在每条蛋白质链的两端各补充了(L-1)/2个伪氨基酸X，其中L表示片段长度^{[9, 11, 13]}。如果截取的片段中心是结合残基，则该片段被归为正集片段；否则，归为负集片段^{[9, 13]}。

N a ⁺

和

K ⁺

配体的正负样本数据集具体见表1。从表1可以看出，Na⁺和K⁺配体的正样本数量较少，而负样本数量分别是正样本数量的约56、35倍，表明Na⁺和K⁺配体的正负样本数量存在严重不平衡。

1.2 研究方法

1.2.1 位点保守性信息的提取方法

位置权重矩阵用于描述在特定序列位置上氨基酸出现的频率，可以很好地反映位点保守性信息^[11-12]。公式如下：

w i, j = l n p i, j p 0, j

(1)

p i, j = n i, j + N i q N i + N i

(2)

式中：

p i, j

为位点

i

的氨基酸

j

相应出现的概率；

p 0, j

为氨基酸

j

相对应的背景概率；

n i, j

为位点

i

的氨基酸

j

的出现次数；

N i

为位点

i

出现的总氨基酸的数目；

q

为分类数^[7]，取值为21（表示20种氨基酸以及伪氨基酸

X

）。通过正负训练2个样本，可以构建对应的标准评分矩阵。对于任一序列片段，均能生成一个2L维的特征向量^{[6, 9]}。

1.2.2 倾向性因子提取方法

在配体与残基的结合过程中，残基本身的特性对结合过程起着关键作用，包括氨基酸的偏好性、物化特征的偏好性等，因此，本文中采用倾向性因子的方法来提取相关特征^{[9, 13]}。倾向性因子的公式为

F s t = p s t p t

(3)

式中：

p s t = n s t N s

，为第

s

种的氨基酸处于结合残基或非结合残基的概率；

p t = N t N l

，为残基是结合残基或者是非结合残基的总体概率^{[11, 13]}；

s (s = 1, 2, ⋯, 20)

是指第

s

种的氨基酸；

t (t = 1, 2)

为结合残基以及非结合残基；

N s

为第

s

种氨基酸在所有的残基中的总出现次数^{[11, 13]}；

N t

结合残基的总数或者是非结合残基的总数^{[11, 13]}；

n s t

是第

s

种的氨基酸处于结合残基或者非结合残基的总数^{[11, 13]}；

N l

则是所有残基的总数^[13]。

1.2.3 SS-DCNN算法

DCNN是一种深度学习框架下的算法，由输入层、卷积层、池化层、全连接层和输出层组成，能够有效提取输入数据的局部特征，这种层次化特征学习使得DCNN对处理大样本数据具有优势^[14-15]。由于本文中样本数较少，使用DCNN算法不具优势，且负样本数较大，因此，引入SMOTE方法处理正负集不平衡的数据集，扩增数据样本。

SMOTE算法是一种常见的过采样算法，通过在少数类样本之间创建合成样本来增加少数类的数量，从而达到样本平衡^[16-17]。SMOTE算法通过在最近邻的少数类样本之间进行插值来生成新的样本，计算公式如式(4)所示，这种算法扩充的数据有助于改善数据的平衡性。

x n e w = x i + μ (x i + x j), μ ∈ [0, 1]

(4)

式中：

x i

和

x j

为2个少数类样本；

μ

为0~1之间的随机数。

融合SOMTE算法和DCNN算法，得到新的集成算法S-DCNN，但S-DCNN算法在处理数据时，难以捕捉全局特征，存在一定局限性^[17]。为了解决这一问题，本文引入Self-Attention机制来优化S-DCNN算法。Self-Attention机制的工作原理如下：Self-Attention在处理每个元素时须要考虑所有其他元素的影响，从而更好地捕捉元素之间的关系，通过计算各元素之间的相似度得分，并据此调整每个元素的重要性权重来实现^[18-19]，从而增强模型对全局特征信息的捕捉能力。

Self-Attention机制的核心理论如下：假设输入序列为

X = [x 1, x 2, ⋯, x n]

，其中

x i

表示序列中的第

i (i = 1, 2, ⋯, n)

个元素的特征向量，通过线性变换将输入序列映射到查询(

Q = X W Q

)、键(

K = X W K

)和值(

V = X W V

)空间，其中

W Q

、

W K

和

W V

是可学习的权重矩阵。通过点积计算查询和键之间的相似度得分，再使用Softmax函数对注意力得分进行归一化，得到注意力权重，根据注意力权重对值进行加权求和，得到每个元素的输出：

o u t p u t = s o f t m a x Q K T d k V

(5)

式中：

Q

、

K

和

V

分别为查询、键和值；

d k

是键向量的维度。通过式(5)对关键特征进行精筛，从而改善特征。

将Self-Attention机制与S-DCNN算法相结合，提出新的集成算法SS-DCNN。通过在S-DCNN算法中添加Self-Attention机制模块，使模型能够同时提取局部特征和全局特征信息。利用SS-DCNN算法预测

N a +

和

K +

配体结合残基，SS-DCNN算法的框架图如图1所示，该算法分为4个步骤：

1) 为了解决

N a +

和

K +

配体的正负集样本不平衡问题，利用SMOTE算法对样本进行扩充。

2) 为解决DCNN模型提取特征的局限性，将Self-Attention放到全连接层前，并提取关键特征，构建SS-DCNN模型。

3) 采用5-交叉检验方法计算训练集的评价指标值，确保模型训练的稳健性，得到预测模型。

4) 在预测模型中输入检验集进行独立检验，验证预测模型的可靠性和实用性。

1.2.4 评价指标

敏感性(Sn)是阳性的样本被正确预测的数量占阳性样本实际总数量的比例^[7]，特异性(Sp)是阴性的样本被正确预测的数量占阴性样本实际总数量的比例^[11]，准确度(Acc)是正确预测的样本数占总样本数的比例^[11-13]，Matthews相关系数(MCC)能够全面地反映分类模型的性能^{[11, 13, 20]}。具体公式如下：

S n = T P T P + F N

(6)

S p = T N T N + F P

(7)

A c c = T P + T N T P + T N + F P + F N

(8)

M C C = T P × T N - F P × F N (T P + F P) (T P + F N) (T N + F P) (T N + F N)

(9)

式中：

T P

为配体的结合残基能够被正确识别的数目^[13]；

T N

为配体的非结合残基能够被正确识别的数目^{[10, 13]}；

F P

为配体的结合残基错误识别的数目；

F N

为配体的非结合残基错误识别的数目^{[8-9, 13]}。

AUC (area under the curve)值是受试者的工作特征(ROC)曲线下的面积，作为数值能够对ROC曲线做定量比较，ROC曲线的横坐标对应FPR值，纵坐标对应TPR值^{[13, 20]}，公式如下：

T P R = S n = T P T P + F N

(10)

F P R = 1 - S n = F P T N + F P

(11)

2 研究内容

为了避免信息丢失，从片段水平和单残基水平2个层面选取特征。在片段水平上，选取氨基酸^[6-7]、关联信息^[8-9]、二面角^[6]、二级结构^{[12, 21]}以及相对溶剂可及性^{[6, 21]}为特征参数。其中，根据前人分析，将氨基酸关联特征分为10类作为特征参数^[8-9]。二面角、二级结构信息以及相对溶剂可及性信息利用Anglor软件^[21](https://github.com/PDB-REDO/dssp)得到。预测的phi角分为2类^[6]：

- 180 °,

- 75 °

和

(- 75 °, 180 °]

。预测的psi角分为3类^[6]：

N a +

配体分类区间为

- 180 °, 0 ° 、 0 °, 105 °

和

105 °, 180 °

，

K +

配体分类区间为

- 180 °, 0 ° 、 0 °, 135 °

和

135 °,

180 °

。根据预测的二级结构信息将20种氨基酸分为α-螺旋、β-折叠和无规卷曲3类^{[9, 11, 13]}。相对溶剂可及性在本文中分4类^[5]：

0, 0.2

归为第Ⅰ类，

0.2, 0.45

归为第Ⅱ类，

0.45, 0.6

归为第Ⅲ类，

0.6, 0.85

归为第Ⅵ类。利用式(1)分别提取关联信息、phi角、psi角、二级结构和相对溶剂可及性的2L维位点保守性信息，q的取值分别为11、3、4、4、5。同时提取其组分信息，组分信息是指片段中氨基酸出现的频数^{[9, 19]}。

在单残基水平上，选取氨基酸、电荷、能量及亲疏水的倾向性因子以及9个正交因子作为特征参数，对单残基特征进行统计分析。

2.1 倾向性因子统计分析

2.1.1 氨基酸的倾向性因子统计分析

按照式(3)，对氨基酸倾向性因子进行详细的统计分析，相关结果见图2。图2(a)表明，在

N a +

配体结合残基中，氨基酸D、N、S、G、H、C和E偏好使用较多，而氨基酸W、F、A、I、R、V和K偏好使用较少。从图2(b)中可以看出对于

K +

配体的结合残基来说，氨基酸D、G、S、N、T、Y、E和H使用较多，而氨基酸F、Q、L、K、I、A和V在结合残基上偏好使用的较少。对于

N a +

和

K +

配体的非结合残基来说，20种氨基酸的分布相对均匀，没有表现出明显的偏好性。

2.1.2 氨基酸电荷倾向性因子的统计分析

由于金属离子带正电，易与蛋白质带负电的残基相结合，因此本文中选取了电荷特征参数^{[9, 13]}，并根据水解后氨基酸的带电情况把20种氨基酸划分为3类^{[11, 13]}：带正电氨基酸

K, R, H

、带负电氨基酸

D, E

、不带电氨基酸

N, Q, P, L, I, V, A, M, F, S, T,

Y, W, C, G

。

按照式(3)，对于电荷的倾向性因子的详细分析结果如图3所示，其中正电氨基酸、负电氨基酸和其他氨基酸分别用字母B、J和O来表示。从图3可看出，带负电氨基酸是

N a +

和

K +

配体的结合残基所偏好使用的。而对于

N a +

和

K +

配体的非结合残基，带正电、带负电和不带电氨基酸出现得较为均匀。

2.1.3 氨基酸能量信息的倾向性因子的统计分析

蛋白质基本结构由蛋白质的氨基酸序列决定，其空间构象最终会根据热力学驱动，形成能量最低时的稳定状态，因此，本文中引入氨基酸的能量信息作为特征参数，并根据氨基酸的拉普拉斯能量值将其分为5类^[7]：第Ⅰ类

C, E, Q, S, T

、第Ⅱ类

D, H,

V

、第Ⅲ类

A, L, M, W

、第Ⅳ类

F, N, R, Y

、第Ⅴ类

G, I, K, P

。

依据式(3)，对这5类氨基酸能量的倾向性因子进行统计分析，结果如图3所示。从图中可看出，

N a +

配体的结合残基倾向使用第Ⅱ类能量，而

K +

配体的结合残基更倾向于使用第Ⅰ类和第Ⅱ类能量。而对于

N a +

和

K +

配体的非结合残基来说，这五类能量则出现得较为均匀。

2.1.4 氨基酸亲疏水信息的倾向性因子的统计分析

因为蛋白质表面暴露在外的残基能够与金属离子配体结合，且这些残基通常具有亲水性，所以本文中选取了亲疏水性作为特征参数^{[9, 13]}，依据氨基酸的亲水性以及疏水性，把20种氨基酸分为4类：强亲水性的氨基酸

(E, N, Q, R, D, K, H)

记为①，弱亲水性的氨基酸

(Y, W, S, T)

记为②，强疏水性的氨基酸

(V, A, M, L, I, F)

记为③，其他氨基酸(

C, P, G

)记为④。

本文中对这4类氨基酸的亲疏水倾向性因子进行了详细的统计分析，结果如图3所示。分析表明，亲疏水性在结合残基以及非结合残基的分布上存在明显差异。对于

N a +

和

K +

配体结合残基，强亲水性氨基酸更偏好在结合残基上出现，而对非结合残基而言，强亲水、强疏水、弱亲水以及其他氨基酸分布得较为均匀。

2.2 选择正交因子

在蛋白质结构预测和功能分析中，正交因子是一种重要的特征表示方法，正交因子通过对氨基酸的多种物理化学性质进行统计分析，提取出相互独立且具有代表性的特征，从而为蛋白质序列的分析提供丰富的信息。本文中选择9个正交因子(9-factor)作为特征参数^[22]。

3 结果验证与讨论

3.1 5-交叉检验的预测结果

将片段水平上的特征参数、单残基水平上的特征参数以及其融合特征参数，分别输入到DCNN算法、S-DCNN算法和SS-DCNN算法中预测Na⁺和K⁺配体的结合残基，其5-交叉检验预测结果见表2第1行数据。由于Na⁺和K⁺配体的正负集样本存在严重的不平衡，其输入到DCNN算法里的结果表现并不理想，Sn值几乎接近0，因此，本文中没有把DCNN算法所得结果列出来。

从特征上来说，预测

N a +

和

K +

配体结合残基时，融合特征的预测精度好于单残基水平和片段水平特征下的预测精度，且SS-DCNN算法的预测精度好于S-DCNN算法的预测精度。具体而言，对于

N a +

配体来说，采用SS-DCNN算法时，融合特征相较于单残基水平和片段水平特征下的4项评价指标值均有所提高，Sn值分别提高了36.89%和8.31%、Sp值分别提高了27.47%和7.92%，Acc值分别提高了32.18%和8.08%，MCC值分别提高了0.442 5和0.162 3。同样地，对于S-DCNN算法也有相似的结果。

从算法上来说，在融合特征下的SS-DCNN算法结果好于S-DCNN算法，Sn值、Sp值、Acc值和MCC值相对于S-DCNN算法分别提高了9.37%、9.14%、9.26%和0.178 2。从图4可以看出，

N a +

和

K +

配体在单残基水平特征、片段水平特征和融合特征下的SS-DCNN算法结果表现最好。由上述结果可知，添加Self-Attention机制能够有效弥补S-DCNN算法在提取特征方面的局限性，对于优化S-DCNN算法是有益的。

为了更好地说明SS-DCNN算法预测

N a +

和

K +

配体结合残基是最优的，将预测结果与其他较为前沿的预测结果进行比较，发现

N a +

和

K +

配体在S-DCNN和SS-DCNN算法下的Sp值、Acc值和MCC值均优于Xu^[8]、Wang^[7]和Liu^[6]的预测结果。

N a +

在SS-DCNN算法下的Sn值相较于Xu^[8]、Wang^[7]和Liu^[6]分别提高了约10%、11%和3%，

K +

在SS-DCNN算法下的Sn值相较于Xu^[8]、Wang^[7]和Liu^[6]分别提高了约12%、14%和3%。

3.2 独立检验的预测结果

对已建立的模型做独立检验，将检验集输入到S-DCNN和SS-DCNN的训练模型中预测

N a +

和

K +

配体的结合残基，结果见表2第2行。

从表2可看出，在融合特征下的SS-DCNN算法中，

N a +

和

K +

配体的Sn值和Acc值都在73%以上，MCC值分别达到0.169 5和0.190 2。与单残基水平和片段水平特征下的独立检验预测结果比较发现，融合特征下的预测结果均有所提升，Sn值提高了11.50%以上、Acc值提高了7.50%以上、MCC值提高了0.043 7以上。这2种金属离子配体在SS-DCNN算法上相较于S-DCNN算法的独立检验的预测结果均有所提高，在融合特征下的Sn值和Acc值都提高了6%以上。为了更加清晰地展示添加Self-Attention机制能够有效弥补S-DCNN算法在提取特征方面的局限性，对于优化S-DCNN算法是有益的，本文给出了ROC曲线（图5）。从图5可以看出，SS-DCNN模型下的

N a +

和

K +

配体的ROC曲线下面积最大，意味着SS-DCNN模型表现出更优秀的分类性能。其中，横坐标FP表示假阳性率，纵坐标TP表示真阳性率。

为了便于比较，笔者将Xu等^[8]、Wang等^[7]和Liu等^[6]的独立检验预测结果也列于表2中。可以发现，对于

N a +

和

K +

配体来说，融合特征下的SS-DCNN算法的Sp值、Acc值及MCC值比Liu等^[6]预测结果都有所提升，其Sn值和MCC值均好于Xu等^[8]和Wang等^[7]。

4 结论

本文中分别提取单残基水平和片段水平上的特征，将这2个层面的特征信息进行融合，使得信息更加全面。同时利用SMOTE算法和Self-Attention机制优化DCNN算法，构建了集成算法SS-DCNN，既解决了小样本数据不平衡问题，又弥补了提取全局特征的局限性问题。融合特征下的SS-DCNN算法得到的5-交叉检验以及独立检验的预测结果最好，同时好于前人的预测结果，因此，SS-DCNN优化模型可以作为预测

N a +

和

K +

配体结合位点的有价值的工具，并且此方法还可以推广到准确识别药物分子的结合靶点，促进有前景的药物候选分子的筛选。例如，其可以提取药物和靶点的特征，在分子药物设计和靶点预测方面具有显著的应用潜力。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	LEV B, CHENNATH M, CRANFIELD C G, et al. Involvement of the alpha-subunit N-terminus in the mechanism of the Na⁺, K⁺-ATPase[J]. Biochimica et Biophysica Acta (BBA): Molecular Cell Research, 2023, 1870(7): 119539.

[2]	GULATI A, KOKANE S, PEREZ-BOEREMA A, et al. Structure and mechanism of the K⁺/H⁺ exchanger KefC[J]. Nature Communications, 2024, 15(1): 4751.

[3]	LIN C T, LIN K L, YANG C H, et al. Protein metal binding residue prediction based on neural networks[J]. International Journal of Neural Systems, 2005, 15(1/2): 71-84.

[4]	HU X Z, DONG Q W, YANG J Y, et al. Recognizing metal and acid radical ion-binding sites by integrating ab initio modeling with template-based transferals[J]. Bioinformatics, 2016, 32(21): 3260-3269.

[5]	HU X Z, FENG Z X, ZHANG X J, et al. The identification of metal ion ligand-binding residues by adding the reclassified relative solvent accessibility[J]. Frontiers in Genetics, 2020, 11: 214.

[6]	LIU L, HU X Z, FENG Z X, et al. Recognizing ion ligand-binding residues by random forest algorithm based on optimized dihedral angle[J]. Frontiers in Bioengineering and Biotechnology, 2020, 8: 493.

[7]	WANG S, HU X Z, FENG Z X, et al. Recognition of ion ligand binding sites based on amino acid features with the fusion of energy, physicochemical and structural features[J]. Current Pharmaceutical Design, 2021, 27(8): 1093-1102.

[8]	XU S, HU X Z, FENG Z X, et al. Recognition of metal ion ligand-binding residues by adding correlation features and propensity factors[J]. Frontiers in Genetics, 2021, 12: 793800.

[9]	徐爽. 添加新的特征参数识别蛋白质-金属离子配体结合残基[D]. 呼和浩特: 内蒙古工业大学, 2021.

[10]	HAO S X, HU X Z, FENG Z X, et al. Prediction of metal ion ligand binding residues by adding disorder value and propensity factors based on deep learning algorithm[J]. Frontiers in Genetics, 2022, 13: 969412.

[11]	杨彩芸, 胡秀珍, 尤肖肖, 等. 添加能量和倾向性因子识别蛋白质-金属离子配体结合残基[J]. 内蒙古工业大学学报(自然科学版), 2022, 41(2): 105-114.

[12]	YOU X X, HU X Z, FENG Z X, et al. Recognizing protein-metal ion ligands binding residues by random forest algorithm with adding orthogonal properties[J]. Computational Biology and Chemistry, 2022, 98: 107693.

[13]	陈少华, 胡秀珍, 胡慧敏, 等. 融合单残基信息的U-RF算法识别 S O 4 2 - 和 P O 4 3 - 配体结合位点[J]. 内蒙古大学学报(自然科学版), 2024, 55(2): 183-192.

[14]	XIA T, ZHAO B, LI B, et al. MRI-based radiomics and deep learning in biological characteristics and prognosis of hepatocellular carcinoma: opportunities and challenges[J]. Journal of Magnetic Resonance Imaging, 2024, 59(3): 767-783.

[15]	SHAIKH S, RAHU A G, RAHU M U R. Identifying DNA-binding proteins using local features DPC-PSSM and AB-PSSM with primary sequences based on 2DCNN[DB/OL]. (2024-03-09)[2025-02-15].

[16]	王秀玉, 吴晓鸰, 冯永晋. 融合过-欠采样与GAN的网络入侵检测方法[J]. 小型微型计算机系统, 2025, 46(2): 449-455.

[17]	HADDADI S J, FARSHIDVARD A, SILVA F D S, et al. Customer churn prediction in imbalanced datasets with resampling methods: a comparative study[J]. Expert Systems With Applications, 2024, 246: 123086.

[18]	ZHANG Y, LIU C Q, LIU M J I, et al. Attention is all you need:utilizing attention in AI-enabled drug discovery[J]. Briefings in Bioinformatics, 2023, 25(1): bbad467.

[19]	PAPANASTASIOU G, DIKAIOS N, HUANG J H, et al. Is attention all you need in medical image analysis? A review[J]. IEEE Journal of Biomedical and Health Informatics, 2024, 28(3): 1398-1411.

[20]	胡慧敏, 胡秀珍, 郝四喜, 等. 基于氨基酸关联的蛋白质-ATP配体结合残基的预测[J]. 内蒙古工业大学学报(自然科学版), 2023, 42(5): 410-415.

[21]	PEARCE R, LI Y, OMENN G S, et al. Fast and accurate ab initio protein structure prediction using deep learning potentials[J]. PLoS Computational Biology, 2022, 18(9): e1010539.

[22]	WANG G, SUN Q, WEI M, et al. Plastic film residue reshaped protist communities and induced soil nutrient deficiency under field conditions[J]. Agronomy, 2025, 15(2): 419.