专利名称:一种基于表示学习和图神经网络的药物靶标亲和力预测方法
专利类型:发明专利
专利申请号:CN202210418625.4
专利申请(专利权)人:大连海事大学
权利人地址:辽宁省大连市高新园区凌海路1号
专利发明(设计)人:张益嘉,邓杰进,鲁明羽
专利摘要:本发明一种基于表示学习和图神经网络的药物靶标亲和力预测方法,涉及生物医学和自然语言技术交叉领域。本发明将输入的药物和蛋白质数据转换为两种不同的形式,即二维矩阵结构和三维图结构,从而可以利用不同结构信息,充分提取信息,更好地对结果进行预测;使用注意力层融合四种信息,通过分析每一部分的权重,了解不同部分的重要性,提升预测性能。本发明解决了当前药物靶标亲和力预测任务中大多数只关注输入数据的部分结构信息的问题,并且使用注意力机制进行融合,更好地解释每一部分数据信息的重要性,从而大大提升药物靶标亲和力预测的性能。
主权利要求:
1.一种基于表示学习和图神经网络的药物靶标亲和力预测方法,其特征在于,所述方法包括:S1、数据表示:分别将药物和蛋白质序列通过嵌入层表示成二维向量结构,同时将药物通过RDKit工具、蛋白质通过Pconsc4转换为三维空间图结构;
S2、数据特征信息提取:分别将药物和蛋白质的二维向量结构表示的数据通过基于卷积神经网络的第一特征提取模型提取第一特征信息和第二特征信息;所述第一特征提取模型包括:若干层卷积神经网络CNN和一层长短期记忆网络LSTM;
分别将药物和蛋白质的三维图结构表示的数据通过基于图神经网络的第二特征提取模型提取第三特征信息和第四特征信息;所述第二特征提取模型包括若干层图神经网络GCN;
S3、特征信息融合:将提取到第一特征信息、第二特征信息、第三特征信息和第四特征信息通过注意力层进行特征信息融合;
S4、药物靶标亲和力预测:特征信息融合之后,经过全连接层进行药物靶标亲和力值预测。
2.根据权利要求1所述的一种基于表示学习和图神经网络的药物靶标亲和力预测方法,其特征在于,所述第二特征提取模型中,每一层GCN后使用PairNorm防止过拟合。
3.根据权利要求1所述的一种基于表示学习和图神经网络的药物靶标亲和力预测方法,其特征在于,分别将药物和蛋白质序列通过嵌入层表示成二维向量结构,包括:分别对药物和蛋白质序列使用整数编码,将整数作为类别来表示输入;
将编码的序列通过嵌入层表示为二维向量结构。
4.根据权利要求1所述的一种基于表示学习和图神经网络的药物靶标亲和力预测方法,其特征在于,分别将药物和蛋白质序列通过嵌入层表示成二维向量结构,包括:分别对药物和蛋白质序列使用标签编码,每个标签都由相应的整数表示,将整数作为类别来表示输入;
将编码的序列通过嵌入层表示为二维向量结构。
5.根据权利要求3或4所述的一种基于表示学习和图神经网络的药物靶标亲和力预测方法,其特征在于,将编码的序列通过嵌入层表示为二维向量结构,包括:设置一个固定长度来获得有效表示;当长度超过最大长度的序列时进行截断,较短的序列用零填充。
6.根据权利要求1所述的一种基于表示学习和图神经网络的药物靶标亲和力预测方法,其特征在于,将提取到第一特征信息、第二特征信息、第三特征信息和第四特征信息通过注意力层进行特征信息融合,包括:通过Softmax标准化四个特征表示信息,以获得每个特征的权重;
通过学习四个特征的权重,融合四个特征表示,得到最终的嵌入表示。 说明书 : 一种基于表示学习和图神经网络的药物靶标亲和力预测方法技术领域[0001] 本发明涉及自然语言处理技术领域,特别是涉及一种基于表示学习和图神经网络的药物靶标亲和力预测方法。背景技术[0002] 随着药物研发技术的发展,以基因组学、蛋白质组学和系统学为代表的多种手段已经广泛应用于新药的研发当中。但是目前新药研发仍然面临着周期漫长、耗资巨大,并且成功率低。[0003] 随着计算机技术的快速发展,利用计算机技术辅助药物研发成为一个很有前景的研究领域。将深度学习技术引入药物靶标亲和力预测,能够大大提高新药的研发效率。如果能够识别所研究药物与某些靶蛋白之间的关联,就可以避免从海量蛋白质数据中筛选候选靶标,从而缩短研发时间。发明内容[0004] 本发明的目的是提供一种基于表示学习和图神经网络的药物靶标亲和力预测方法,药物靶标亲和力就是药物和靶标(蛋白质)之间的结合强度,解决了当前药物靶标亲和力预测中只关注输入数据的部分结构。例如有的方法只关注三维结构信息,有的只关注二维结构信息,不能充分提取数据信息的问题。并且本发明提高了预测的性能,更有利于药物研发的效率。[0005] 为此,本发明提供了以下技术方案:[0006] 一种基于表示学习和图神经网络的药物靶标亲和力预测方法,具体步骤如下:[0007] S1、数据表示:分别将药物和蛋白质序列通过嵌入层表示成二维向量结构,同时将药物通过RDKit工具、蛋白质通过Pconsc4转换为三维空间图结构;[0008] S2、数据特征信息提取:分别将药物和蛋白质的二维向量结构表示的数据通过基于卷积神经网络的第一特征提取模型提取第一特征信息和第二特征信息;所述第一特征提取模型包括:若干层卷积神经网络CNN和一层长短期记忆网络LSTM;[0009] 分别将药物和蛋白质的三维图结构表示的数据通过基于图神经网络的第二特征提取模型提取第三特征信息和第四特征信息;所述第二特征提取模型包括若干层图神经网络GCN;[0010] S3、特征信息融合:将提取到第一特征信息、第二特征信息、第三特征信息和第四特征信息通过注意力层进行特征信息融合;[0011] S4、药物靶标亲和力预测:特征信息融合之后,经过全连接层进行药物靶标亲和力值预测。[0012] 进一步地,所述第二特征提取模型中,每一层GCN后使用PairNorm防止过拟合。[0013] 进一步地,分别将药物和蛋白质序列通过嵌入层表示成二维向量结构,包括:[0014] 分别对药物和蛋白质序列使用整数编码,将整数作为类别来表示输入;[0015] 将编码的序列通过嵌入层表示为二维向量结构。[0016] 进一步地,分别将药物和蛋白质序列通过嵌入层表示成二维向量结构,包括:[0017] 分别对药物和蛋白质序列使用标签编码,每个标签都由相应的整数表示,将整数作为类别来表示输入;[0018] 将编码的序列通过嵌入层表示为二维向量结构。[0019] 进一步地,将编码的序列通过嵌入层表示为二维向量结构,包括:[0020] 设置一个固定长度来获得有效表示;当长度超过最大长度的序列时进行截断,较短的序列用零填充。[0021] 进一步地,将提取到第一特征信息、第二特征信息、第三特征信息和第四特征信息通过注意力层进行特征信息融合,包括:[0022] 通过Softmax标准化四个特征表示信息,以获得每个特征的权重;[0023] 通过学习四个特征的权重,融合四个特征表示,得到最终的嵌入表示。[0024] 本发明的优点和积极效果:本发明提出了多通道输入方法,将输入数据同时表示为二维向量结构和三维空间拓拓扑结构,同时对同一数据的两种不同表示形式进行特征信息提取,然后通过注意力层进行数据的特征融合,最后通过全连接层对亲和力进行预测。通过多通道输入的方法,能够充分利用数据的二维信息和三维信息,从而能够更好得对药物靶标亲和力进行预测。利用注意力层计算每一部分特征信息的权重,针对数据不同结构的重要性对数据进行融合,能够提高预测的性能。附图说明[0025] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。[0026] 图1为本发明实施例中一种基于表示学习和图神经网络的药物靶标亲和力预测方法的流程示意图;[0027] 图2为本发明实施例中药物靶向亲和力预测模型的原理图。具体实施方式[0028] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。[0029] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。[0030] 本发明提供了一种基于表示学习和图神经网络的药物靶标亲和力预测方法。首先对输入数据进行预处理,分别将药物和蛋白质的序列结构转换为二维向量结构和三维空间拓扑结构。然后分别对转换后的数据使用神经网络进行特征提取,并且将提取到的特征通过注意力层进行特征融合。最后将融合后的特征向量通过全连接层进行亲和力值的预测。[0031] 如图1所示,本发明提供的一种基于表示学习和图神经网络的药物靶标亲和力预测方法,具体包括以下步骤:[0032] S1、数据预处理。[0033] 其中,数据包括药物数据和蛋白质数据;数据预处理包括:药物和蛋白质二维向量结构表示、药物的空间拓扑结构表示和蛋白质的拓扑结构表示。将同一数据表示为两种不同结构的目的是为了充分提取数据中的特征信息。[0034] 具体地:[0035] S11、药物和蛋白质二维向量结构表示:[0036] 使用整数/标签编码,将整数作为类别来表示输入。每个标签都由相应的整数(‘C’:1,’=’:2,’N’:3等)表示。例如药物SMILES序列字符串的表示:[CN=C=O]=[13631635];蛋白质序列“AACGFED”可表示为[AACGFED]=[1126543]。然后将编码的序列通过嵌入层表示为二维向量结构。[0037] 由于数据的长度不同,所以设置一个固定长度来获得有效表示。当长度超过最大长度的序列进行截断,较短的序列用零填充。这样的长度设置降低了计算复杂性,并保留了足够的有效信息。[0038] S12、药物的空间拓扑结构表示:[0039] 利用RDKit工具基于药物的SMILES(Simplifiedmolecularinputlineentrysystem,简化分子线性输入规范,是一种用ASCII字符串明确描述分子结构的规范)串构建一个分子图。RDKit是一个用于化学信息学的开源工具包,基于对化合物2D和3D分子操作,利用机器学习方法进行化合物描述符生成、指纹生成、化合物结构相似性计算、2D和3D分子展示等。该图以原子为节点,以键为边。为了保证图能够充分考虑卷积过程中节点的特征,在图的构造中加入了自循环,以提高药物分子的特征性能。共价键连接构成药物分子图的原子。不同的原子和结构将表现出不同的分子特性,并通过与外部世界的连接相互作用。因此,充分考虑到这些不同原子之间的关系,使用图形卷积有效地提取分子的表示。[0040] S13、蛋白质的拓扑结构表示:[0041] 使用Pconsc4构建蛋白质的图形结构。Pconsc4用于预测接触图,这是一种快速、简单、开源且高效的方法。Pconsc4的输出是残基对是否接触的概率,设置阈值0.5以获得形状(L,L)的接触图,其中L是节点数(残基)。结果与蛋白质的邻接矩阵精确对应。在得到的邻接矩阵中,蛋白质的空间信息得到了很好的保存,图卷积神经网络(GNN)可以有效地提取蛋白质的空间信息。对于蛋白质图,蛋白质结构包含大量的空间信息,这对于蛋白质与分子的结合亲和力至关重要。通过结构预测方法得到的蛋白质接触图可以提取每个残基的信息。[0042] S2、特征信息提取。[0043] S21、药物二维结构的特征提取。[0044] 药物序列经过嵌入层馈送到下层。利用卷积神经网络(CNN)和长短期记忆网络(LSTM)的组合模块来提取药物的二维特征。如图2所示,CNN的结构结合LSTM来学习药物序列信息。学习序列通过几个CNN层的特征表示,CNN中的每个滤波器与该层的输入进行卷积,用来对局部知识进行编码。[0045] 此外,药物序列可以表示为时间序列。因此,像LSTM这样的递归神经网络可以更好地提取序列信息。首先将序列输入CNN层,然后输入LSTM提取其中间层特征,这样可以降低LSTM的训练难度。CNN‑LSTM组合已成功应用于多个领域。[0046] S22、蛋白质二维结构的特征提取。[0047] 蛋白质的二维结构特征信息提取的方式和药物的二维结构相同。[0048] S23、药物拓扑结构信息提取。[0049] 图卷积网络(GCN)是深入学习图的最常用方法,目前已应用于计算机药物发现,包括定量结构‑活性、性质关系预测、相互作用预测、合成预测等。[0050] 对于GCN,每一层将由方程(1)进行卷积:[0051][0052] 其中,D对角度矩阵,A为邻接矩阵,W为权重矩阵,l为权重参数,σ为激活函数,H为每一层的特征。[0053] 考虑到GCN可能存在过度平滑问题,本发明中引入了PariNorm。除了最后一层之外,在传播后向每一层添加配对正则化。PairNorm是图卷积输出的标准化。处理后,节点之间的总距离保持不变。属于同一类的节点在卷积层之后更加平滑,节点之间的距离变小。属于不同类别的节点之间的距离变大,避免了过度平滑的问题。[0054] S24、蛋白质拓扑结构信息提取。[0055] 蛋白质结构包含大量的空间信息,这对于蛋白质与分子的结合亲和力至关重要。本发明利用Pconsc4构建了蛋白质的图结构,并用Pconsc4预测了接触图。然后,从接触图中获得蛋白质的图形结构。得到的邻接矩阵很好地保存了蛋白质的空间信息。由于图结构是由残差作为节点构建的,因此需要围绕残差选择特征。本发明中,54位特征用于描述剩余节点,因此节点特征的形状为(L,54)。通过对邻接矩阵和节点特征进行GNN处理,获得蛋白质的空间拓扑信息。[0056] 同样,在将蛋白质转化为图形结构表示后,通过几个GCN层提取蛋白质的空间拓扑信息,以获得最终蛋白质的三维特征信息。[0057] S3、特征信息融合。[0058] 由于不同的输入表示提取的信息对最终输出结果的贡献程度不同,因此本发明中将对模型的关注/注意力结合起来,通过注意力层进行特征信息融合,以进一步提高模型的预测性能。[0059] 通过Softmax标准化四个特征表示信息,以获得每个特征的权重,如公式(2)所示:[0060][0061] 其中,pi为提取到的第i个特征的特征信息,xi为经过Softmax每个特征得到的权重参数。[0062] 通过学习这些权重,可以融合四个特征表示,得到最终的嵌入表示Z,如下所示。[0063][0064] S4、药物靶标亲和力预测。[0065] 从四个通道中学习特征,通过注意层对它们进行特征融合处理后,反馈到完全连接的层,最后输出预测的药物靶标的亲和力值。[0066] 为了便于理解,下面对本发明中的预测模型进行详细说明。如图2所示,将数据药物和蛋白质分别转换为二维结构和三维结构,二维结构和三维结构的数据分别使用不同的神经网络进行特征提取。对于二维结构的数据表示,采用3层CNN提取局部特征信息,序列存在上下文信息,所以最后再经过LSTM提取特征信息。对于三维结构的数据表示,采用3层GCN提取空间特征信息,由于GCN会出现过平滑问题,所以每一层GCN后使用PairNorm防止过平滑。最后得到四个特征信息p1,p2,p3,p4,四个特征信息经过注意力层Attention得到权重参数xi,在进行特诊融合得到最终嵌入Z。最后将最终的嵌入经过全连接层得到预测的亲和力值。[0067] 本发明的技术特点如下:[0068] (1)、使用嵌入层将药物和蛋白质数据转换为二维向量结构;[0069] (2)、使用RDKit和Pconsc4分别将药物和蛋白质数据转换为三维图结构;[0070] (3)、对二维结构和三维结构数据分别使用CNN和GCN进行特征提取。[0071] (4)、将提取到的特征信息通过注意力层进行特征融合,最后通过全连接层进行亲和力值预测。[0072] 本发明实施例中,提出了多通道输入方法,将输入数据同时表示为二维向量结构和三维空间拓拓扑结构,同时对同一数据的两种不同表示形式进行特征信息提取,然后通过注意力层进行数据的特征融合,最后通过全连接层对亲和力进行预测。通过多通道输入的方法,能够充分利用数据的二维信息和三维信息,相较常规的仅利用三维信息的方案,本发明能够从不同的维度更好地提取数据的特征信息,更好得对药物靶标亲和力进行预测。利用注意力层计算每一部分特征信息的权重,分析出每个特征信息对最后结构的贡献度,针对数据不同结构的重要性对数据进行融合,相较常规的对提取到的信息做同等重要性处理,直接进行融合,本发明能够提高预测的性能。[0073] 在本发明所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。[0074] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。[0075] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。[0076] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read‑OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。[0077] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
专利地区:辽宁
专利申请日期:2022-04-20
专利公开日期:2024-07-26
专利公告号:CN114999565B