一种用于优化分子属性预测的双层模型轻量化方法

许心怡 ,  张堃然 ,  沐勇 ,  吴建盛

南京大学学报(自然科学) ›› 2025, Vol. 61 ›› Issue (06) : 953 -962.

PDF (918KB)
南京大学学报(自然科学) ›› 2025, Vol. 61 ›› Issue (06) : 953 -962. DOI: 10.13232/j.cnki.jnju.2025.06.006

一种用于优化分子属性预测的双层模型轻量化方法

作者信息 +

A two⁃level model lightweighting method for efficient molecular property prediction

Author information +
文章历史 +
PDF (939K)

摘要

分子属性预测在新药研发和材料设计等诸多科学领域中具有重要作用.由于分子天然可以表示为图结构,许多基于图的模型被广泛应用于该任务.随着分子空间的迅速扩展,基于图的方法正面临巨大的计算挑战,模型轻量化对于提升预测速度和效率至关重要.然而,现有的解决方案仍然较为有限,难以在保持预测性能的同时显著提高推理效率.提出一种新颖的双层模型轻量化方法LW⁃MPP,首先引入一种新的知识蒸馏框架,将大规模基于图的模型转换为更小更高效的基于SMILES的模型;其次,应用一种训练后剪枝技术,结合掩码搜索和重排序方法,进一步优化模型的推理效率.在大规模PCQM4M⁃LSC数据集上的基准测试结果表明,与传统基于图的模型相比,提出的方法实现了3.82~17倍的推理加速,同时保持了接近最优的性能,并优于大多数基于SMILES⁃Transformer的模型.当应用于MoleculeNet中小规模数据集的特定下游任务时,提出的模型在大多数情况下均实现了最佳的预测准确率.

Abstract

Molecular property prediction is a fundamental task in various scientific domains,including drug discovery and material design. Given that molecular structures are naturally represented as graphs,numerous graph⁃based models have been developed to tackle this problem. However,as the molecular space continues to expand,these approaches face significant computational challenges,necessitating the development of lightweight models to enable faster and more efficient predictions. Despite this pressing need,effective solutions remain scarce. In this paper,we propose a novel two⁃level model lightweighting approach,named LW⁃MPP (Lightweighting Method for Efficient Molecular Property Prediction). First,we introduce a new knowledge distillation framework that converts large graph⁃based models into smaller SMILES (Simplified Molecular Input Line Entry System)⁃based models. Second,we apply a post⁃training pruning technique,which leverages masked search and reordering methods to further optimize model inference. Benchmark results on the large⁃scale PCQM4M⁃LSC (Predicting Quantum Mechanical Properties of Molecular Data⁃Large Scale Challenge) dataset demonstrate that our approach achieves a 3.82~17 times speedup in inference compared to traditional graph⁃based models,while maintaining near⁃optimal performance. Furthermore,our model outperforms most SMILES⁃Transformer⁃based models. When applied to specific downstream tasks with small⁃scale datasets from MoleculeNet,our model consistently achieves the best predictive accuracy in most cases.

Graphical abstract

关键词

分子性质预测 / 模型轻量化 / 知识蒸馏 / 训练后剪枝 / 推理加速

Key words

molecular property prediction / model lightweighting / knowledge distillation / post⁃training pruning / inference acceleration

引用本文

引用格式 ▾
许心怡,张堃然,沐勇,吴建盛. 一种用于优化分子属性预测的双层模型轻量化方法[J]. 南京大学学报(自然科学), 2025, 61(06): 953-962 DOI:10.13232/j.cnki.jnju.2025.06.006

登录浏览全文

4963

注册一个新账户 忘记密码

分子属性预测(Molecular Property Prediction)是计算化学和药物设计等领域的一个重要任务,旨在通过机器学习或物理模拟的方法,预测某个分子的物理、化学、生物学性质,从而在许多例如药物筛选和药物设计的下游应用中发挥重要作用.分子表征是分子属性预测的基础1.为了准确建模分子的属性,首先需要对分子进行有效的表征,即将分子的结构、组成和特性转化为模型可以理解的数字表示.
传统上,分子的拓扑结构适合以图结构数据的形式进行表征,其中,原子对应图的节点,化学键对应边2,这一表征方式直观且符合分子的天然结构.然而,由于图数据的不规则性,传统的卷积神经网络(Convolutional Neural Network,CNN)3难以直接应用于分子图建模.为了有效处理不规则的图结构,开发了一系列专门用于图结构数据的深度学习模型,其中最重要的是图神经网络(Graph Neural Network,GNN)4.GNN通过在图上执行卷积操作,能保留和利用分子图的拓扑信息,从而克服传统CNN在处理图数据时的局限性.Gilmer et al5的消息传递神经网络(Message Passing Neural Network,MPNN)框架将多个GNN模型统一归纳,将前向传播过程划分为消息传递与读出两个阶段,为后续研究奠定了基础.然而,MPNN在分子动力学模拟任务中的表现受限,主要是由于其难以保证势能面(Potential Energy Surface)的连续性,因此,SchNet6引入了连续滤波卷积层,使分子的势能面能够随坐标连续变化,在分子动力学任务中表现更优.随后,Gasteiger et al7的DimeNet进一步改进了分子间相互作用的建模方式,弥补了以往GNN仅依赖原子间距离的局限性,使经验势函数(Empirical Potential Function)的拟合更精确.在此基础上,Liu et al8的SphereNet提供了一种通用的3D图网络框架,更符合分子的物理属性,从而提升分子建模的准确性.
综上,这些基于GNN的方法不断优化分子表征学习,逐步提升了分子属性预测的精度,推动了虚拟筛选与分子动力学等相关应用的发展.
2017年Vaswani et al9的Transformer是一种基于自注意力机制的深度学习模型,已在自然语言处理领域取得了极大成功,并逐渐在图像处理10、生命科学11等多个领域展示了强大的应用潜力.近年来,研究人员探索了Transformer在分子属性预测任务中的适用性,提出了一系列创新模型,以提高分子表征的准确性和计算效率.Ying et al12的Graphormer模型是一种基于Trans⁃former架构的GNN,通过引入距离编码增强自注意力机制,极大地优化了分子图的拓扑结构解析,在多个分子预测任务中刷新了性能基准.Zhang et al13将图Transformer中的节点采样优化策略构建为一个对抗性的赌博问题,成功解决了因模型对分子图的表示仅关注局部邻居而忽视了图中的长距离依赖关系问题.Li et al14的自监督分子表征学习框架KPGT利用未标记的大规模分子图库及外部化学知识,增强了模型对新分子结构的泛化能力.Jiang et al15的基于药效团约束的异质性分子图Transformer模型PharmHGT,整合了功能亚结构和化学反应的关键信息,显著优化了分子属性的预测性能.
尽管Graphormer在分子预测等任务中的表现优异,但也存在一些问题和挑战.分子数据库通常以SMILES (Simplified Molecular Input Line Entry System)格式存储,而Graphormer需要将SMILES转换为图结构数据,这一过程的时间开销较高.此外,在处理大规模分子图时,Graphormer的计算成本极高,不仅导致训练时间大幅增加,还影响推理效率.同时,随着分子图规模的增长,模型的内存需求也急剧上升,因而在资源受限的环境下训练和推理变得困难.面对这些挑战,采用新的方式对Graphormer模型进行加速变得至关重要,其中,常见的方法有通过知识蒸馏和模型剪枝减小模型的规模,还有通过更高效的模型微调策略来降低训练成本和时间等.
ST⁃KD (SMILES Transformer Knowledge Distillation)是一种针对分子表征学习的知识蒸馏方法16,旨在将基于Graphormer提取的分子表征知识迁移到端到端的SMILES Transformer,避免了SMILES转换为分子图时的额外计算开销,使模型能直接从SMILES序列学习分子特征,从而提升分子属性预测的计算效率.2015年Hinton et al17引入知识蒸馏,这一概念已经成为提升深度学习模型效率和性能的重要手段.然而ST⁃KD仍然存在若干挑战,需要进一步优化以提升模型的轻量化程度和推理效率.首先,现有的知识蒸馏方法在模型压缩方面仍存在改进空间,尤其是在减少冗余参数和优化计算复杂度方面.其次,经过知识蒸馏的模型仍然包含许多冗余的结构单元,这会影响模型的推理速度.因此,进一步的模型轻量化优化是必要的,其中,训练后剪枝(Post⁃Training Pruning)18是一种有效的策略,通过剪除模型中对预测贡献较小的权重,从而减少计算量并降低存储需求,有助于减小模型规模并提升推理效率.
本文通过结合跨模态知识蒸馏和训练后剪枝的方法,提出一种用于优化分子属性预测的双层模型轻量化方法LW⁃MPP (a Two⁃Level Model Lightweighting Method for Efficient Molecular Property Prediction).首先通过基于图的模型Graphormer进行跨模态分子表征知识蒸馏,使基于SMILES序列的轻量级Transformer小模型能够深度模仿大模型的自注意力模块进行训练,实现从分子图表示到分子SMILES表示的跨模态分子表征蒸馏.然后,通过训练后剪枝方法,在保持模型精度不变的情况下,大幅减少分子推理时间,以满足在大型化合物数据库上进行高通量分子表示生成的实际需求.本研究中,LW⁃MPP与已有的ST⁃KD框架虽然同属于由Graphormer到SMILES Transformer的跨模态蒸馏范式,但在多个关键环节上存在本质差异.首先,ST⁃KD主要侧重于表征级或输出级的蒸馏,更多地依赖于教师模型的整体语义表示或者预测结果作为软目标,导致ST⁃KD中间层的对齐相对有限;LW⁃MPP采用特征蒸馏的思路,在教师与学生的对应Transformer编码层之间显式对齐注意力关系与值关系,从而实现更结构化的知识迁移.在输入处理方面,ST⁃KD直接以原始SMILES作为学生模型输入,而LW⁃MPP通过引入SMILES预处理模块,显式地补全原子与键信息,使跨模态对齐更加合理.在训练目标上,LW⁃MPP除了任务监督损失外,还引入了注意力关系损失与值关系损失,形成更强的结构化约束,显著提升了学生模型对图结构信息的建模能力.在PCQM4M⁃LSC数据集19上的测试结果表明,与传统基于图的模型相比,本文方法实现了3.82~17倍的推理加速,同时保持了接近最优的预测性能.在MoleculeNet数据集20上的测试结果表明,本文方法在大多数情况下均实现了最佳的预测准确率,进一步验证了其在分子表征学习中的有效性和广泛适用性,为分子属性预测提供了一种高效且准确的解决方案.

1 方法

1.1 总体描述

本研究结合跨模态分子表征知识蒸馏和训练后剪枝方法,提出一种面向分子属性预测的双层模型轻量化方法LW⁃MPP.LW⁃MPP主要包含两个阶段:蒸馏阶段和剪枝阶段.整体架构如图1所示,图中输入的SMILES序列以分子C=CCO为例.

蒸馏阶段包含教师模型和学生模型两个部分,采用PCQM4M⁃LSC分子库作为原始数据集.教师模型部分,使用RDKIT工具包21从分子的SMILES序列表示中提取原子特征和化学键特征,以生成分子图表示作为Transformer编码层的输入.学生模型部分,不规则的SMILES序列通过SMILES预处理模块转换为统一的表示形式,该部分能够解析并嵌入原始SMILES中省略的原子和化学键结构信息.通过将原子和化学键的标记嵌入与位置嵌入相加,模型能够构造新的输入表示形式,该信息将会输入学生模型中的Transformer编码层.其中,原子的表示通过嵌入编码并加上该原子的位置编码来实现,化学键的表示通过嵌入编码并加上连接该化学键的原子的位置编码来实现.从教师模型和学生模型中分别选取对应的Transformer编码层,并应用注意力关系迁移和值关系迁移的方法,逐层执行跨模态分子表征的知识蒸馏.

剪枝阶段中,对已经在下游任务数据集上微调过的学生模型进行训练后剪枝.Transformer的编码器块由多头注意力层和前馈网络组成,包含大量的参数及相关的浮点运算.本阶段使用的面向Transformer训练后剪枝算法通过修剪多头注意力层的头部结构或者前馈网络的滤波器来实现轻量化,从而优化模型的计算效率和资源利用率.首先,将掩码变量全部初始化为1,然后通过基于Fisher矩阵22的掩码搜索方法和掩码重排方法生成并优化剪枝后的掩码变量.在此过程中,多头注意力层的头部结构或者前馈网络的滤波器对应的掩码变量被设置为零,表示模型中对应的注意力头部和滤波器权重将被剪除.

1.2 知识蒸馏

本研究主要采用基于特征的知识蒸馏,又称为特征蒸馏,其核心在于教师模型与学生模型之间的特征表示迁移.与传统的基于最终输出的知识蒸馏不同,特征蒸馏不只关注教师模型的输出信息,更关注模型内部中间层的特征信息23,通过使学生模型更深层次地模仿教师模型的行为促进其在特征提取和表示方面的性能提升.基于特征的知识蒸馏架构如图2所示.

本文提出的分子表征知识蒸馏算法选用基于分子图输入的Graphormer模型作为教师模型,简称“GT模型”;选用自定义的基于SMILES表示输入的轻量级SMILES Transformer模型作为学生模型,简称ST模型.目前基于SMILES的模型性能不佳的主要原因是SMILES中编码的二维结构信息缺乏结构相关监督,导致模型难以充分学习和理解分子的内部结构和键连接关系.

与基于图表示的方法相比,SMILES字符串在捕捉分子拓扑结构和空间信息方面存在局限性.许多基于SMILES的模型无法直接使用先进的深度学习架构,这些架构的局限性也可能导致模型性能不佳.由于教师模型能够直接从分子图中提取分子结构的关键特征,因此在知识蒸馏过程中,学生模型通过学习教师模型的注意力关系和值关系,能获得教师模型从分子图中提取的集中式知识.这种方式使学生模型SMILES Transformer能更好地理解分子的结构信息,并在几乎不损失计算效率的情况下,显著提升其性能.

1.3 训练后剪枝

针对Transformer模型提出一种训练后剪枝方法,主要对多头自注意力机制MHA (Multi⁃Head Attention)的注意力头和前馈网络FFN (Feed⁃Forward Network)的滤波器进行结构化剪枝.通过引入可学习的稀疏掩码变量,动态选择保留或删除特定组件.初始时,所有掩码变量设为1,不影响模型输出;剪枝后,部分掩码变量变为0,可以减少计算量.

为了优化剪枝方案,采用Fisher信息矩阵来衡量注意力头和滤波器的重要性,并基于对角线近似方法进行掩码搜索,从而选择对模型性能影响最小的剪枝策略.此外,为了进一步优化剪枝效果,使用块对角线近似方法来捕捉掩码变量之间的相互作用,并采用贪婪算法进行掩码重排,确保剪枝后模型的推理效率和准确性.训练后剪枝的整体方法如图3所示.

2 结果与讨论

2.1 实验环境及数据集

2.1.1 PCQM4M⁃LSC数据集

PCQM4M⁃LSC是一个由PubChemQC项目整理而成的大规模量子化学数据集,专用于分子属性预测,包含超过380万个分子24.该数据集的任务是根据二维分子图预测HOMO⁃LUMO能隙,并以平均绝对误差(Mean Absolute Error,MAE)作为评估指标.HOMO⁃LUMO能隙是分子中最实用的量子化学性质之一,通常通过密度泛函理论(Density Functional Theory,DFT)25计算来获得,然而DFT的计算需要耗费大量时间,所以获取HOMO⁃LUMO能隙数据的效率不高,因此,从二维分子图预测量子化学性质的方式尤为重要.本研究在PCQM4M⁃LSC数据集上进行了知识蒸馏实验.

2.1.2 MoleculeNet数据集

MoleculeNet20是一个专门为分子机器学习设计的基准数据集集合,包含多个公共数据集,涵盖了多种任务和数据类型,支持分子性质预测、药物活性预测、毒性评估等多种应用.选取MoleculeNet中的QM9,QM8,QM7,FreeSolv和BACE数据集作为分子属性预测下游任务的测试数据集.

2.1.3 实验环境及评价指标

基于Pytorch深度学习框架,软件环境为CUDA 11.6,Python 3.9.11,操作系统为Ubuntu 18.04.6 LTS.硬件环境为CPU为12核的Intel(R) Xeon(R) Silver 4214 CPU@2.20 GHz,GPU为NVIDIA GeForce RTX3090 24 GB.针对不同的基准数据集,涵盖多个分子性质预测任务.其中,PCQM4M⁃LSC,QM9,QM8和QM7主要用于回归任务,BACE数据集用于分类任务.各数据集采用不同的评价指标来衡量模型性能.本文使用的数据集的概览见表1.

2.2 PCQM4M⁃LSC数据集上的性能

为了验证本方法的有效性,选取若干具有代表性的基于图的方法和基于SMILES的方法,在相同的实验条件下与本文方法进行对比,以确保比较的公平性和结果的可靠性.每个实验都在相同实验设置下,设置不同的随机数种子进行三次验证,取平均值作为最后实验结果.由于在PCQM4M⁃LSC数据集上缺乏测试集标签,本实验仅在训练集和验证集上比较模型性能.表2汇总了基于图的模型和基于SMILES的模型在PCQM4M⁃LSC数据集上的性能表现.

根据表2的结果可知,本文的分子表征知识蒸馏方法在教师模型Graphormer的指导下,学生模型学习到了更多细粒度的分子结构信息,实验结果显著超过了其他基于SMILES的模型,比最佳GNN基线GIN⁃VIRTUAL更好,证明本文的知识蒸馏方法可以弥补基于SMILES的模型与基于图的模型之间的性能差距.尽管学生模型在性能上还没有达到教师模型Graphormer的水平,但目前的进展充分展示了基于SMILES的模型在分子表征和预测任务中的广泛潜力.由此可见,基于SMILES的方法在化学信息学领域中具有重要的应用前景,值得进一步深入探索和开发.

2.3 MoleculeNet数据集上的性能

为了探索本研究提出的分子表征Transformer模型加速算法的迁移学习能力,对上一步在PCQM4M⁃LSC数据集上通过知识蒸馏训练的模型进行了微调.本轮实验选取MoleculeNet的QM9,QM8,QM7,FreeSolv和BACE数据集进行下游任务性能对比.将数据集按8∶1∶1的比例随机分割,分别作为训练集、验证集和测试集.在所有数据集中使用与PCQM4M⁃LSC数据集相同的模型超参数,并使用在PCQM4M⁃LSC验证集上表现最优的检查点来初始化模型权重.

表3的结果显示,本文方法在Molecule⁃Net中流行的分子特性预测数据集(如QM9,QM8和QM7)上表现出卓越的性能,超越了Graphormer和MoLFormer⁃XL.在FreeSolv和BACE数据集上,本文方法与基于图的模型表现相当.与ST⁃BASE和ST⁃KD相比,本文方法在所有后续的分子属性预测任务中都获得了显著的性能提升,证实了知识蒸馏方法的有效性.

尽管在PCQM4M⁃LSC数据集上被Graphormer教师模型超越,但在分子属性预测任务中,本文方法在QM系列数据集上的表现更佳,在FreeSolv和BACE上略逊一筹,表明基于SMILES的模型在某些任务上比基于图的模型更适合.在模型大小及计算效率方面,MoLFormer⁃XL需要在16个NVIDIA V100 GPU上进行208 h的预训练,且参数规模至少为81 M,而本文模型的参数量仅为21.5 M,只需使用两个NVIDIA RTX 3090 GPU进行80 h的训练,其中包括教师模型Graphormer的训练.因此,本文方法LW⁃MPP更轻量化,训练更高效,在QM8和QM9上取得了更好的结果.

2.4 知识蒸馏的消融实验

通过消融实验进一步探讨LW⁃MPP架构中每个组件在PCQM4M⁃LSC数据集上的知识蒸馏实验中的重要性,结果如表4所示.由表可见,经过SMILES预处理,模型的MAE由0.2062下降到0.1808,说明通过SMILES预处理,输入序列由结构良好的标记和有意义的输入嵌入组成,提高了模型性能.还可以看出,两种类型的知识迁移都对学生模型的训练过程有贡献,将注意力关系迁移和值关系迁移相结合,LW⁃MPP的性能得到了进一步优化.消融实验证实了LW⁃MPP各个组件的重要性以及这些组件相互作用的必要性,为SMILES Transformer的性能提升作出了重要贡献.

2.5 剪枝的消融实验

在分子属性预测数据集上的迁移学习实验的基础上,进一步对微调后的模型进行训练后剪枝,并评估剪枝算法的性能.首先,对不同剪枝水平的效果进行详细分析,在QM7,QM8,QM9和BACE四个数据集上分别应用不同剪枝水平的模型进行实验.随后,将这些剪枝模型的实验结果与教师模型Graphormer及其蒸馏后的学生模型的性能进行比较.实验结果如图4所示,绿色实线表示教师模型Graphormer的性能,红色实线表示蒸馏后的学生模型的性能,蓝色实线表示不同相对浮点数运算量下剪枝后模型的性能.由图可见,随着相对浮点数运算量的下降,即随着剪枝的参数量的增加,模型的性能开始逐渐下降.当相对浮点数运算量为0.9时,AUC从0.88提升到0.893,随后又开始下降.模型性能提升的原因可能是剪枝过程去除了部分冗余参数,降低了模型的复杂度,从而减轻了模型对训练数据的过度拟合程度,最终提高了模型在测试集上的泛化能力.相对浮点数运算量为0.7时,剪枝后的模型在性能上接近甚至优于教师模型Graphormer,并且与蒸馏后的学生模型相比,没有出现明显的性能下降.但当相对浮点数运算量减少至小于0.6时,剪枝模型的性能开始显著下降,表明训练后剪枝方法在一定范围内具有有效性和鲁棒性.剪枝技术能够在适度削减模型规模的同时保持其性能,但若削减过度则可能导致模型性能下降.因此,在实际应用中,需要根据具体情况对剪枝程度进行权衡和调整,以实现最佳的性能和效果.

为了进一步研究基于Fisher矩阵的掩码搜索和掩码重排在模型性能中的重要性,还在QM9,QM8,QM7,FreeSolv和BACE数据集上进行了训练后剪枝方法的消融实验.根据图4的实验结果,选取相对浮点数运算量等于0.7时的剪枝模型实验的结果作为消融实验的基准结果,因为这一模型既减少了模型参数,又保持了较高的性能水平.

表5展示了训练后剪枝方法的消融实验结果.可以看出,在所有五个分子属性预测数据集中,和随机剪枝方法相比,使用掩码搜索方法能提升模型性能.此外,在QM8,QM7,FreeSolv和BACE数据集中进一步结合掩码重排,也使模型性能得到了额外提升.然而在QM9数据集上,尽管Multi⁃MAE从0.9185增加到0.9227,模型的性能却略有下降,这可能是剪枝参数导致模型泛化能力下降,影响了QM9数据集上子任务的表现.

综上,掩码搜索和掩码重排在剪枝过程中均发挥了重要作用,在有效减少模型参数的同时,提升或维持了模型的性能水平.

3 结论

本文提出一种用于优化分子属性预测的双层模型轻量化方法,旨在解决基于SMILES表示的小型模型在学习分子图内部结构时面临的准确性和速度的挑战.通过跨模态分子表征知识蒸馏技术,模型能够深入模仿教师模型Graphormer的自注意力模块进行训练,从而获得与结构相关的监督信息,学习分子图的内部结构知识.此外,本文还采用了训练后剪枝方法,在保持模型精度不变的前提下,进一步减少浮点运算次数,显著降低了分子推理时间,满足了大型化合物数据库中高通量分子表示生成器的实际需求.实验结果验证了本文方法中的知识蒸馏阶段和训练后剪枝阶段的有效性,特别是注意力关系迁移和值关系迁移在知识蒸馏方法中的关键作用.此外,掩码搜索和掩码重排方法的引入进一步提升了剪枝模型的性能.这些结果表明,本文方法在提升模型效率和准确性方面具有显著的潜力.

尽管提出的加速算法已显示出一定的有效性,但在实际应用中,模型的计算复杂度和参数调整仍然是需要克服的挑战.因此,使用自动化的超参数优化技术来找到最优的模型配置,或开发更先进的剪枝算法以减少模型复杂性而不损失性能,都是未来优化和创新的方向.

参考文献

[1]

Hamilton W L. Graph representation learning. The 1st Edition. Cham:Springer,2020.

[2]

Li ZJiang M JWang Set al.Deep learning methods for molecular representation and property prediction. Drug Discovery Today202227(12):103373.

[3]

Lecun YBottou LBengio Yet al. Gradient⁃based learning applied to document recognition. Proceedings of the IEEE199886(11):2278-2324.

[4]

Scarselli FGori MTsoi A Cet al. The graph neural network model. IEEE Transactions on Neural Networks200920(1):61-80.

[5]

Gilmer JSchoenholz S SRiley P Fet al. Neural message passing for quantum chemistry∥Proceedings of the 34th International Conference on Machine Learning. Volume 70. Sydney,Australia:JMLR.org,2017:1263-1272.

[6]

Schütt K TKindermans P JSauceda H Eet al. SchNet:A continuous⁃filter convolutional neural network for modeling quantum interactions∥Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach,CA,USA:Curran Associates Inc.,2017:992-1002.

[7]

Gasteiger JGroß JGünnemann S. Directional message passing for molecular graphs. https://arxiv.org/abs/2003.03123,2022-04-05.

[8]

Liu YWang L MLiu Met al. Spherical message passing for 3D graph networks. https://arxiv.org/abs/2102.05013,2022-11-24.

[9]

Vaswani AShazeer NParmar Net al. Attention is all you need∥Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach,CA,USA:Curran Associates Inc.,2017:6000-6010.

[10]

Dosovitskiy ABeyer LKolesnikov Aet al. An image is worth 16×16 words:Transformers for image recognition at scale. https://arxiv.org/abs/2010.11929,2021-06-03.

[11]

Jumper JEvans RPritzel Aet al. Highly accurate protein structure prediction with AlphaFold. Nature2021596(7873):583-589.

[12]

Ying C XCai T LLuo S Jet al. Do transformers really perform badly for graph representation?∥Advances in Neural Information Processing Systems. Vol. 34. New York,NY,USA:Curran Associates,2021:28877-28888.

[13]

Zhang Z XLiu QHu Q Yet al. Hierarchical graph transformer with adaptive node sampling. Advances in Neural Information Processing Systems2022,35:21171-21183.

[14]

Li HZhao DZeng J Y. KPGT:Knowledge⁃guided pre⁃training of graph transformer for molecular property prediction∥Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York,NY,USA:Association for Computing Machinery,2022:857-867.

[15]

Jiang Y HJin S TJin X Ret al. Pharmacophoric⁃constrained heterogeneous graph transformer model for molecular property prediction. Communications Chemistry20236(1):60.

[16]

Zhu W HLi Z YCai L Set al. Stepping back to SMILES transformers for fast molecular represen⁃tation inference. https://arxiv.org/abs/2112.13305,2021-12-26.

[17]

Hinton GVinyals ODean J. Distilling the knowledge in a neural network. https://arxiv.org/abs/1503.02531,2015-03-09.

[18]

Kwon WKim SMahoney M Wet al. A fast post⁃training pruning framework for transformers. Advances in Neural Information Processing Systems2022,35:24101-24116.

[19]

Hu W HFey MRen H Yet al. OGB⁃LSC:A large⁃scale challenge for machine learning on graphs. https://arxiv.org/abs/2103.09430,2021-10-20.

[20]

Wu Z QRamsundar BFeinberg E Net al. MoleculeNet:A benchmark for molecular machine learning. Chemical Science20189(2):513-530.

[21]

Bento A PHersey AFélix Eet al. An open source chemical structure curation pipeline using RDKit. Journal of Cheminformatics202012(1):51.

[22]

Ly AMarsman MVerhagen Jet al. A tutorial on fisher information. Journal of Mathematical Psychology2017,80:40-55.

[23]

Romero ABallas NKahou S Eet al. FitNets:Hints for thin deep nets. https://arxiv.org/abs/1412.6550,2015-03-27.

[24]

Nakata MShimazaki T. PubChemQC project:A large⁃scale first⁃principles electronic structure database for data⁃driven chemistry. Journal of Chemical Information and Modeling201757(6):1300-1308.

[25]

Wilson SMcWeeny RBernath P F. Handbook of molecular physics and quantum chemistry. The 1st Edition. Hoboken:Wiley,2003.

[26]

Kipf T NWelling M.Semi⁃supervised classification with graph convolutional networks. https://arxiv.org/abs/1609.02907,2017-02-22.

[27]

Xu KHu W HLeskovec Jet al. How powerful are graph neural networks? https://arxiv.org/abs/1810.00826,2019-02-22.

[28]

Morgan H L. The generation of a unique machine description for chemical structures:A technique developed at chemical abstracts service. Journal of Chemical Information and Modeling19655(2):107-113.

[29]

Xiong Z PWang D YLiu X Het al. Pushing the boundaries of molecular representation for drug discovery with the graph attention mechanism. Journal of Medicinal Chemistry202063(16):8749-8760.

[30]

Ross JBelgodere BChenthamarakshan Vet al. Do large scale molecular language representations capture important structural information? https://doi.org/10.48550/arXiv.2106.09553,2022-12-14.

基金资助

国家自然科学基金(61872198)

国家自然科学基金(62371245)

AI Summary AI Mindmap
PDF (918KB)

40

访问

0

被引

详细

导航
相关文章

AI思维导图

/