专利名称:一种噬菌体分类方法、装置、设备及存储介质
专利类型:实用新型专利
专利申请号:CN202110819164.7
专利申请(专利权)人:北京大学
权利人地址:北京市海淀区颐和园路5号北京大学
专利发明(设计)人:朱怀球,吴姝芳,方臻成,谭洁,李墨,王春晖,郭倩,徐聪敏,江小青
专利摘要:本申请提供了一种噬菌体分类方法、装置、设备及存储介质,涉及生物测序技术领域。本申请将从噬菌体全基因组数据提取出的短序列样本进行独热编码,直接使用碱基信息训练预先构建的深度神经网络,得到能够基于短序列信息,鉴定噬菌体属于温和噬菌体还是烈性噬菌体的分类器。鉴于宏基因组测序得到的噬菌体序列长度跨度较大,本申请设置对应四组不同长度区间的深度神经网络,各组长度区间下的深度神经网络学习不同长度的序列特征,提高预测性能。另外针对长度超过四组长度区间的序列,设置了基于权重的预测方法,使得本申请可以对任意长度的噬菌体序列进行分类。本申请还对短序列样本进行补序,扩充训练数据,提高了深度神经网络的分类性能。
主权利要求:
1.一种噬菌体分类方法,其特征在于,所述方法包括:根据待分类噬菌体片段的序列长度,获取与所述序列长度对应的至少一个预设分类网络,在所述序列长度小于100bp时,根据第一预设分类网络的输入范围,获取补序长度;采用预设编码,将所述待分类噬菌体片段补序到所述补序长度,并获取第一预设分类网络;所述预设分类网络的训练样本为温和噬菌体和烈性噬菌体的不同序列长度的短序列样本;
对所述待分类噬菌体片段的所有碱基进行独热编码,得到碱基序列特征;
将所述碱基序列特征输入所述至少一个预设分类网络;
根据所述至少一个预设分类网络的输出分数,确定所述待分类噬菌体片段的类型,基于阈值分数判断所述待分类噬菌体是温和噬菌体或者是烈性噬菌体;
所述方法还包括:
获取温和噬菌体的第一全基因组数据,和烈性噬菌体的第二全基因组数据;
模拟宏基因组测序获得序列信息的特征,设置不同长度的多个长度区间;
从所述第一全基因组数据中提取分别对应所述多个长度区间的多个第一短序列样本;
从所述第二全基因组数据中提取分别对应所述多个长度区间的多个第二短序列样本;
获取与所述多个长度区间分别对应的深度神经网络,并利用所述多个第一短序列样本和所述多个第二短序列样本分别对与所述多个长度区间分别对应的深度神经网络进行多次训练,得到所述至少一个预设分类网络;
从所述第一全基因组数据中提取多个第一短序列样本之后,所述方法还包括:对所述多个第一短序列样本进行反向补序,得到多个第三短序列样本;
从所述第二全基因组数据中提取多个第二短序列样本之后,所述方法还包括:对所述多个第二短序列样本进行反向补序,得到多个第四短序列样本;
利用所述多个第一短序列样本和所述多个第二短序列样本分别对与所述多个长度区间分别对应的深度神经网络进行多次训练,得到所述至少一个预设分类网络,包括:利用所述多个第一短序列样本、所述多个第二短序列样本、所述多个第三短序列样本以及所述多个第四短序列样本,分别对与所述多个长度区间分别对应的深度神经网络进行多次训练,得到所述至少一个预设分类网络。
2.根据权利要求1所述的方法,其特征在于,根据待分类噬菌体片段的序列长度,获取与所述序列长度对应的至少一个预设分类网络,包括:在所述序列长度在100bp‑400bp范围内时,获取第一预设分类网络;
在所述序列长度在400bp‑800bp范围内时,获取第二预设分类网络;
在所述序列长度在800bp‑1200bp范围内时,获取第三预设分类网络;
在所述序列长度在1200bp‑1800bp范围内时,获取第四预设分类网络;
在所述序列长度大于1800bp时,获取所述第四预设分类网络。
3.根据权利要求2所述的方法,其特征在于,在所述序列长度大于1800bp的情况下,根据待分类噬菌体片段的序列长度,获取与所述序列长度对应的至少一个预设分类网络,包括:按照1800bp的尺度对所述待分类噬菌体片段进行分割;
根据分割后的最短序列片段,将所述第一预设分类网络、所述第二预设分类网络、所述第三预设分类网络以及所述第四预设分类网络中的其中一者作为补充分类网络;
将所述第四预设分类网络和所述补充分类网络作为所述待分类噬菌体片段的预设分类网络。
4.根据权利要求1所述的方法,其特征在于,根据所述至少一个预设分类网络的输出分数,确定所述待分类噬菌体片段的类型,包括:在所述序列长度大于1800bp时,确定所述至少一个预设分类网络中每个预设分类网络的输入序列的长度;
根据每个输入序列的长度,计算所述至少一个预设分类网络的输出分数的加权平均值;
根据所述加权平均值,确定所述待分类噬菌体片段的类型。
5.一种噬菌体分类装置,其特征在于,所述装置包括:获取模块,用于根据待分类噬菌体片段的序列长度,获取与所述序列长度对应的至少一个预设分类网络,所述预设分类网络的训练样本为温和噬菌体和烈性噬菌体的不同序列长度的短序列样本;
编码模块,用于对所述待分类噬菌体片段的所有碱基进行独热编码,得到碱基序列特征;
输入模块,用于将所述碱基序列特征输入所述至少一个预设分类网络;
输出模块,用于根据所述至少一个预设分类网络的输出分数,确定所述待分类噬菌体片段的类型,基于阈值分数判断所述待分类噬菌体是温和噬菌体或者是烈性噬菌体;
所述获取模块包括:
第六获取子模块,用于在所述序列长度小于100bp时,根据第一预设分类网络的输入范围,获取补序长度;
补序子模块,用于采用预设编码,将所述待分类噬菌体片段补序到所述补序长度,并获取所述第一预设分类网络;
所述装置还包括:
第七获取子模块,用于获取温和噬菌体的第一全基因组数据,和烈性噬菌体的第二全基因组数据;
模拟子模块,用于模拟宏基因组测序获得序列信息的特征,设置不同长度的多个长度区间;
第一提取子模块,用于从所述第一全基因组数据中提取分别对应所述多个长度区间的多个第一短序列样本;
第二提取子模块,用于从所述第二全基因组数据中提取分别对应所述多个长度区间的多个第二短序列样本;
训练子模块,用于获取与所述多个长度区间分别对应的深度神经网络,并利用所述多个第一短序列样本和所述多个第二短序列样本分别对与所述多个长度区间分别对应的深度神经网络进行多次训练,得到所述至少一个预设分类网络;
所述装置还包括:
第一补序模块,用于对所述多个第一短序列样本进行反向补序,得到多个第三短序列样本;
第二补序模块,用于对所述多个第二短序列样本进行反向补序,得到多个第四短序列样本;
所述训练子模块包括:
训练子单元,用于利用所述多个第一短序列样本、所述多个第二短序列样本、所述多个第三短序列样本以及所述多个第四短序列样本,分别对与所述多个长度区间分别对应的深度神经网络进行多次训练,得到所述至少一个预设分类网络。
6.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1‑4任一所述的方法中的步骤。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行时实现如权利要求1‑4任一所述的方法的步骤。 说明书 : 一种噬菌体分类方法、装置、设备及存储介质技术领域[0001] 本申请涉及生物测序技术领域,特别是涉及一种噬菌体分类方法、装置、设备及存储介质。背景技术[0002] 噬菌体作为病毒中数量最多、物种多样性最高的一类,在微生物群落中发挥着重要作用。相较于传统基于培养的病毒发现方法,宏基因组学技术进行一次测序就可获得环境中包括噬菌体在内的所有微生物的序列信息,避免了任何和培养相关的偏差,能够准确快速地确定新噬菌体的序列信息,极大地加快了新噬菌体发现的速度。[0003] 噬菌体分为温和噬菌体和烈性噬菌体两种类型。温和噬菌体感染细菌宿主后会将其基因组序列插入到细菌宿主基因组上,等到环境条件合适时从细菌宿主基因组上游离出来,进而杀死细菌宿主。烈性噬菌体感染细菌宿主后直接杀死细菌宿主。温和噬菌体和烈性噬菌体分别应用在不同的领域,例如水平基因转移探索涉及温和噬菌体的研究,噬菌体疗法涉及烈性噬菌体的研究。因此便于进一步的研究,需要快速对新发现噬菌体所属类型进行判断。[0004] 然而基于宏基因组学技术发现的噬菌体序列长度没有规律,无法获取较为完整的基因信息,进而难以对新发现噬菌体所属类型进行判断。发明内容[0005] 本申请实施例提供一种噬菌体分类方法、装置、设备及存储介质,直接使用碱基因信息对噬菌体进行分类,达到对序列信息较短的噬菌体进行类型鉴定的目的。[0006] 本申请实施例第一方面提供噬菌体分类方法,所述方法包括:[0007] 根据待分类噬菌体片段的序列长度,获取与所述序列长度对应的至少一个预设分类网络;[0008] 对所述待分类噬菌体片段的所有碱基进行独热编码,得到碱基序列特征;[0009] 将所述碱基序列特征输入所述至少一个预设分类网络;[0010] 根据所述至少一个预设分类网络的输出分数,确定所述待分类噬菌体片段的类型。[0011] 可选地,根据待分类噬菌体片段的序列长度,获取与所述序列长度对应的至少一个预设分类网络,包括:[0012] 在所述序列长度在100bp‑400bp范围内时,获取第一预设分类网络;[0013] 在所述序列长度在400bp‑800bp范围内时,获取第二预设分类网络;[0014] 在所述序列长度在800bp‑1200bp范围内时,获取第三预设分类网络;[0015] 在所述序列长度在1200bp‑1800bp范围内时,获取第四预设分类网络;[0016] 在所述序列长度大于1800bp时,获取所述第四预设分类网络。[0017] 可选地,在所述序列长度大于1800bp的情况下,根据待分类噬菌体片段的序列长度,获取与所述序列长度对应的至少一个预设分类网络,包括:[0018] 按照1800bp的尺度对所述待分类噬菌体片段进行分割;[0019] 根据分割后的最短序列片段,将所述第一预设分类网络、所述第二预设分类网络、所述第三预设分类网络以及所述第四预设分类网络中的其中一者作为补充分类网络;[0020] 将所述第四预设分类网络和所述补充分类网络作为所述待分类噬菌体片段的预设分类网络。[0021] 可选地,根据待分类噬菌体片段的序列长度,获取与所述序列长度对应的至少一个预设分类网络,包括:[0022] 在所述序列长度小于100bp时,根据所述第一预设分类网络的输入范围,获取补序长度;[0023] 采用预设编码,将所述待分类噬菌体片段补序到所述补序长度,并获取所述第一预设分类网络。[0024] 可选地,根据所述至少一个预设分类网络的输出分数,确定所述待分类噬菌体片段的类型,包括:[0025] 在所述序列长度大于1800bp时,确定所述至少一个预设分类网络中每个预设分类网络的输入序列的长度;[0026] 根据每个输入序列的长度,计算所述至少一个预设分类网络的输出分数的加权平均值;[0027] 根据所述加权平均值,确定所述待分类噬菌体片段的类型。[0028] 可选地,所述方法还包括:[0029] 获取温和噬菌体的第一全基因组数据,和烈性噬菌体的第二全基因组数据;[0030] 模拟宏基因组测序获得序列信息的特征,设置不同长度的多个长度区间;[0031] 从所述第一全基因组数据中提取分别对应所述多个长度区间的多个第一短序列样本;[0032] 从所述第二全基因组数据中提取分别对应所述多个长度区间的多个第二短序列样本;[0033] 获取与所述多个长度区间分别对应的深度神经网络,并利用所述多个第一短序列样本和所述多个第二短序列样本分别对与所述多个长度区间分别对应的深度神经网络进行多次训练,得到所述至少一个预设分类网络。[0034] 可选地,从所述第一全基因组数据中提取多个第一短序列样本之后,所述方法还包括:[0035] 对所述多个第一短序列样本进行反向补序,得到多个第三短序列样本;[0036] 从所述第二全基因组数据中提取多个第二短序列样本之后,所述方法还包括:[0037] 对所述多个第二短序列样本进行反向补序,得到多个第四短序列样本;[0038] 利用所述多个第一短序列样本和所述多个第二短序列样本分别对与所述多个长度区间分别对应的深度神经网络进行多次训练,得到所述至少一个预设分类网络,包括:[0039] 利用所述多个第一短序列样本、所述多个第二短序列样本、所述多个第三短序列样本以及所述多个第四短序列样本,分别对与所述多个长度区间分别对应的深度神经网络进行多次训练,得到所述至少一个预设分类网络。[0040] 本申请实施例第二方面提供一种噬菌体分类装置,所述装置包括:[0041] 获取模块,用于根据待分类噬菌体片段的序列长度,获取与所述序列长度对应的至少一个预设分类网络;[0042] 编码模块,用于对所述待分类噬菌体片段的所有碱基进行独热编码,得到碱基序列特征;[0043] 输入模块,用于将所述基序列特征输入所述至少一个预设分类网络;[0044] 输出模块,用于根据所述至少一个预设分类网络的输出分数,确定所述待分类噬菌体片段的类型。[0045] 可选地,所述获取模块包括:[0046] 第一获取子模块,用于在所述序列长度在100bp‑400bp范围内时,获取第一预设分类网络;[0047] 第二获取子模块,用于在所述序列长度在400bp‑800bp范围内时,获取第二预设分类网络;[0048] 第三获取子模块,用于在所述序列长度在800bp‑1200bp范围内时,获取第三预设分类网络;[0049] 第四获取子模块,用于在所述序列长度在1200bp‑1800bp范围内时,获取第四预设分类网络;[0050] 第五获取子模块,用于在所述序列长度大于1800bp时,获取所述第四预设分类网络。[0051] 可选地,所述获取模块还包括:[0052] 分割子模块,用于按照1800bp的尺度对所述待分类噬菌体片段进行分割;[0053] 补充子模块,用于根据分割后的最短序列片段,将所述第一预设分类网络、所述第二预设分类网络、所述第三预设分类网络以及所述第四预设分类网络中的其中一者作为补充分类网络;[0054] 作为子模块,用于将所述第四预设分类网络和所述补充分类网络作为所述待分类噬菌体片段的预设分类网络。[0055] 可选地,所述获取模块包括:[0056] 第六获取子模块,用于在所述序列长度小于100bp时,根据所述第一预设分类网络的输入范围,获取补序长度;[0057] 补序子模块,用于采用预设编码,将所述待分类噬菌体片段补序到所述补序长度,并获取所述第一预设分类网络。[0058] 可选地,所述输出模块包括:[0059] 第一确定子模块,用于在所述序列长度大于1800bp时,确定所述至少一个预设分类网络中每个预设分类网络的输入序列的长度;[0060] 计算子模块,用于根据每个输入序列的长度,计算所述至少一个预设分类网络的输出分数的加权平均值;[0061] 第二确定子模块,用于根据所述加权平均值,确定所述待分类噬菌体片段的类型。[0062] 可选地,所述装置还包括:[0063] 第七获取子模块,用于获取温和噬菌体的第一全基因组数据,和烈性噬菌体的第二全基因组数据;[0064] 模拟子模块,用于模拟宏基因组测序获得序列信息的特征,设置不同长度的多个长度区间;[0065] 第一提取子模块,用于从所述第一全基因组数据中提取分别对应所述多个长度区间的多个第一短序列样本;[0066] 第二提取子模块,用于从所述第二全基因组数据中提取分别对应所述多个长度区间的多个第二短序列样本;[0067] 训练子模块,用于获取与所述多个长度区间分别对应的深度神经网络,并利用所述多个第一短序列样本和所述多个第二短序列样本分别对与所述多个长度区间分别对应的深度神经网络进行多次训练,得到所述至少一个预设分类网络。[0068] 可选地,所述装置还包括:[0069] 第一补序模块,用于对所述多个第一短序列样本进行反向补序,得到多个第三短序列样本;[0070] 第二补序模块,用于对所述多个第二短序列样本进行反向补序,得到多个第四短序列样本;[0071] 所述训练子模块包括:[0072] 训练子单元,用于利用所述多个第一短序列样本、所述多个第二短序列样本、所述多个第三短序列样本以及所述多个第四短序列样本,分别对与所述多个长度区间分别对应的深度神经网络进行多次训练,得到所述至少一个预设分类网络。[0073] 本申请实施例第三方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本申请第一方面所述的方法中的步骤。[0074] 本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面所述的方法的步骤。[0075] 本申请实施例将从噬菌体全基因组数据提取出的短序列样本进行独热编码,直接使用碱基信息训练预先构建的深度神经网络,得到能够基于短序列信息,鉴定噬菌体属于温和噬菌体还是烈性噬菌体的分类器,进而直接根据噬菌体片段的碱基信息,判断噬菌体的类型。同时,本申请实施例还设置了符合宏基因组测序结果特征的四组长度区间,采集分别对应这四组长度区间训练样本,以分别训练对应不同长度区间的深度神经网络,得到对应四组不同长度区间的预设分类网络,适用于各种不同长度的噬菌体片段,解决基于宏基因组测序发现的噬菌体片段长度跨度大的问题,对应特定长度区间的深度神经网络针对性地学习不同长度的序列特征,对特定长度的噬菌体片段的类型预测准确性更高。在基于宏基因组测序发现的噬菌体片段的长度没有规律的情况下,本申请实施例对噬菌体片段进行类型判断时,是利用与噬菌体片段的序列长度对应的预设分类网络进行检测,如此,可以结合至少一个预设分类网络对噬菌体片段进行分析,最后综合至少一个预设分类网络的分析结果,判断噬菌体的类型,进而提高了分类准确性。附图说明[0076] 为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。[0077] 图1是本申请实施例构建的深度神经网络的结构示意图;[0078] 图2是本申请实施例提出的噬菌体分类方法的步骤流程图;[0079] 图3是本申请实施例提出的噬菌体分类装置的功能模块图。具体实施方式[0080] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。[0081] 传统判断噬菌体所属类型的方法包括:[0082] 1、根据新发现噬菌体的蛋白序列信息,对新发现噬菌体进行分类。具体将新发现噬菌体的序列中含有的蛋白组,与预先构建好蛋白集合进行比对,得到一个相似性向量,将相似性向量输入随机森林分类器,随机森林分类器根据相似性向量携带的特征,输出新发现噬菌体的类型是温和噬菌体或烈性噬菌体。上述判断噬菌体所属类型方法的本质是,检测输入的新发现噬菌体的蛋白组是否含有重要的有利于分类的蛋白基因,但由于基于宏基因组测序发现的噬菌体的序列信息较短,并且序列信息复杂,难以提取到支持类型判断的蛋白基因,导致上述判断噬菌体所属类型方法的效果不佳。[0083] 2、提取新发现噬菌体的序列的k‑mer频率,将k‑mer频率输入温和噬菌体的马尔科夫模型,再输入烈性噬菌体的马尔科夫模型,温和噬菌体的马尔科夫模型输出新发现噬菌体与温和噬菌体的噬菌体序列的不相似程度,烈性噬菌体的马尔科夫模型输出新发现噬菌体与烈性噬菌体的噬菌体序列的不相似程度。根据不相似程度,确定新发现噬菌体所属的类型。然而k‑mer频率特征是全局统计量,短序列的k‑mer频率特征会存在很大的噪声,而基于宏基因组簇序发现的噬菌体的序列信息较短,因此无法从新发现噬菌体中提取到准确的k‑mer特征频率,从而影响新发现噬菌体预测的准确性。[0084] 鉴于上述问题,本申请实施例提出一种噬菌体分类方法,将从噬菌体全基因组数据提取出的短序列样本进行独热编码,直接使用碱基信息训练预先构建的深度神经网络,得到能够基于短序列信息,鉴定噬菌体属于温和噬菌体还是烈性噬菌体的分类器,进而直接根据噬菌体片段的碱基信息,判断噬菌体的类型。同时,本申请实施例还设置了符合宏基因组测序结果特征的四组长度区间,采集分别对应这四组长度区间训练样本,以分别训练对应不同长度区间的深度神经网络,得到对应四组不同长度区间的预设分类网络,适用于各种不同长度的噬菌体片段,解决基于宏基因组测序发现的噬菌体片段长度跨度大的问题,对应特定长度区间的深度神经网络针对性地学习不同长度的序列特征,对特定长度的噬菌体片段的类型预测准确性更高。[0085] 为了更智能地实施本申请提出的噬菌体分类方法,使得该方法的应用范围更广,申请人构建了深度神经网络,并采用预先采集的训练样本对构建好的深度神经网络进行训练,得到预设分类网络。[0086] 图1是本申请实施例构建的深度神经网络的结构示意图,如图1所示,深度神经网络包括一个卷积层,两个池化层,两个归一化层,一个随机失活层和两个全连接层。第一层的卷积层中用64个长度为6的卷积核对输入的整条序列进行卷积,最后用ReLu(RectifiedLinearUnit)作为激活函数。紧接卷积层的输出被传入池化层和归一化层,池化层和归一化层的作用是优化训练过程。归一化层连接随机失活层,随机失活层可以用于防止过拟合现象,随机失活层后依次连接全局归一化层、第一全连接层和批归一化层。最后一层是激活函数为sigmoid的第二全连接层,第二全连接层最后输出数值在0‑1之间的预测打分。[0087] 构建完成深度神经网络后,本申请实施例采集训练样本,具体采集训练样本的方法包括:[0088] 步骤S11:获取温和噬菌体的第一全基因组数据,和烈性噬菌体的第二全基因组数据。[0089] 第一全基因组数据和第二全基因组数据可以从PHACTS(PhageClassificationToolSet)工具中获取。具体从PHACTS工具中提取携带准确类型信息的227条噬菌体全基因组,其中包括148条属于温和噬菌体的噬菌体全基因组、79条属于烈性噬菌体的噬菌体全基因组。由于烈性噬菌体mycobacteriophageD29(accession:NC_001900)和温和噬菌体L5具有相似性,烈性噬菌体lactococcuslactisbacteriophageul36(accession:NC_004066)和温和噬菌体Tuc2009有46.6%的同源性,同时由于烈性噬菌体D29和烈性噬菌体ul36含有有功能的整合酶,所造成的烈性噬菌体D29和烈性噬菌体ul36会与温和噬菌体那样将自身基因组插入到宿主中,为了不影响对深度神经网络的训练效果,本申请保留除烈性噬菌体D29和烈性噬菌体ul36外的其他烈性噬菌体的噬菌体全基因组,作为第二全基因组数据。[0090] 步骤S12:模拟宏基因组测序获得序列信息的特征,设置不同长度的多个长度区间。[0091] 模拟宏基因组测序获得序列信息的特征,设置不同长度的多个长度区间是指:由于宏基因组测序得到的噬菌体片段长度跨度较大,噬菌体片段的长度在几百bp到几千bp的范围内都可能存在,因此,本申请实施例根据宏基因组测序得到的噬菌体片段的长度分布特点,设置四组不同序列长度的长度区间包括:GroupA对应100bp‑400bp,GroupB对应400bp‑800bp,GroupC对应800bp‑1200bp,GroupD对应1200bp‑1800bp。[0092] 进一步地,本申请实施例分别将第一全基因组数据和第二全基因组数据分为五折设计五折交叉验证数据集。在一种具体示例中,将77条属于烈性噬菌体的噬菌体全基因组随机分为16、16、16、16和13条,在训练深度神经网络的过程中,将其中{16、16、16、16}条属于烈性噬菌体的噬菌体全基因组作为训练集,将13条属于烈性噬菌体的噬菌体全基因组作为测试集。将148条属于温和噬菌体的噬菌体全基因组随机分为118、118、118、118和120条,在训练深度神经网络的过程中,将其中{118、118、118、118}条属于温和噬菌体的噬菌体全基因组作为训练集,将148条属于温和噬菌体的噬菌体全基因组作为测试集。[0093] 步骤S13:从所述第一全基因组数据中提取分别对应所述多个长度区间的多个第一短序列样本。[0094] 步骤S14:从所述第二全基因组数据中提取分别对应所述多个长度区间的多个第二短序列样本。[0095] 从第一全基因组数据中提取分别对应多个长度区间的多个第一短序列样本,与从第二全基因组数据中提取分别对应多个长度区间的多个第二短序列样本,是指从全基因组中提取不同长短的短序列片段。具体可以利用MetaSim软件模拟宏基因测序,将全基因组作为参照,模拟生成多个短序列片段。[0096] 从第一全基因组数据中提取分别对应多个长度区间的多个第一短序列样本是指,从第一全基因组数据中提取长度在100bp‑400bp范围内的多个第一短序列样本、从第一全基因组数据中提取长度在400bp‑800bp范围内的多个第一短序列样本、从第一全基因组数据中提取长度在800bp‑1200bp范围内的多个第一短序列样本以及从第一全基因组数据中提取长度在1200bp‑1800bp范围内的多个第一短序列样本。[0097] 从第二全基因组数据中提取分别对应多个长度区间的多个第二短序列样本是指:从第二全基因组数据中提取长度在100bp‑400bp范围内的多个第二短序列样本、从第二全基因组数据中提取长度在400bp‑800bp范围内的多个第二短序列样本、从第二全基因组数据中提取长度在800bp‑1200bp范围内的多个第二短序列样本以及从第二全基因组数据中提取长度在1200bp‑1800bp范围内的多个第二短序列样本。[0098] 本申请实施例通过步骤S11‑S14的方法采集得到训练样本后,获取与所述多个长度区间分别对应的深度神经网络,并利用所述多个第一短序列样本和所述多个第二短序列样本分别对与所述多个长度区间分别对应的深度神经网络进行多次训练,得到所述至少一个预设分类网络。[0099] 获取四个构建得到的如图1所示的深度神经网络:第一深度神经网络、第二深度神经网络、第三深度神经网络以及第四深度神经网络,利用长度在100bp‑400bp范围内的多个第一短序列样本和长度在100bp‑400bp范围内的多个第二短序列样本,训练第一深度神经网络,得到第一预设分类网络;利用长度在400bp‑800bp范围内的多个第一短序列样本和长度在400bp‑800bp范围内的多个第二短序列样本,训练第二深度神经网络,得到第二预设分类网络;利用长度在800bp‑1200bp范围内的多个第一短序列样本和长度在800bp‑1200bp范围内的多个第二短序列样本,训练第三深度神经网络,得到第三预设分类网络;利用长度在1200bp‑1800bp范围内的多个第一短序列样本和长度在1200bp‑1800bp范围内的多个第二短序列样本,训练第四深度神经网络,得到第四预设分类网络。[0100] 在本申请一种示例中,设置将全连接层输出的打分高于0.5的序列判定为正样本(烈性噬菌体),打分低于0.5的被判断为负样本(温和噬菌体),根据判定结果和输入的短序列样本真实类型的相差程度,调整深度神经网络的参数。可以通过对第一短序列样本和第二短序列样本打标签的方式,支持计算判定结果和输入的短序列样本真实类型的相差程度。[0101] 将第一短序列样本或第一短序列样本输入深度神经网络后,经过卷积层的特征提取和学习,再经过池化层和归一化层的优化训练,再经过随机失活层作用以防止过拟合现象,再经过全局归一化层、全连接层和批归一化层的再次学习和训练,激活函数为sigmoid的全连接层输出数值在0‑1之间的预测打分。在训练的过程中,用Adam作为优化器,学习率设置为0.0001,训练的次数设置为100。[0102] 本申请另一中实施例提出另一种训练深度神经网络的方法,通过对第一短序列样本和第二短序列样本补充序列,扩充了训练深度神经网络的数据集,提高预设分类网络的分类准确度。[0103] 从所述第一全基因组数据中提取多个第一短序列样本之后,所述方法还包括:对所述多个第一短序列样本进行反向补序,得到多个第三短序列样本;从所述第二全基因组数据中提取多个第二短序列样本之后,所述方法还包括:对所述多个第二短序列样本进行反向补序,得到多个第四短序列样本。[0104] 在本申请一种示例中,假设第一短序列样本的碱基信息是ACGCTATTGCACCG,对该碱基信息进行反向补序得到第三短序列样本:TGCGATAACGTGGC。[0105] 利用所述多个第一短序列样本和所述多个第二短序列样本分别对与所述多个长度区间分别对应的深度神经网络进行多次训练,得到所述至少一个预设分类网络,包括:利用所述多个第一短序列样本、所述多个第二短序列样本、所述多个第三短序列样本以及所述多个第四短序列样本,分别对与所述多个长度区间分别对应的深度神经网络进行多次训练,得到所述至少一个预设分类网络。[0106] 训练得到与四组不同序列长度对应的至少一个预设分类网络后,本申请说明基于至少一个预设分类网络执行噬菌体分类方法的步骤。[0107] 图2是本申请实施例提出的噬菌体分类方法的步骤流程图,如图2所示,步骤如下:[0108] 步骤S21:根据待分类噬菌体片段的序列长度,获取与所述序列长度对应的至少一个预设分类网络。[0109] 在所述序列长度在100bp‑400bp范围内时,获取第一预设分类网络;[0110] 在所述序列长度在400bp‑800bp范围内时,获取第二预设分类网络;[0111] 在所述序列长度在800bp‑1200bp范围内时,获取第三预设分类网络;[0112] 在所述序列长度在1200bp‑1800bp范围内时,获取第四预设分类网络;[0113] 在序列长度大于1800bp的情况下,按照1800bp的尺度,对待分类噬菌体片段进行分割,根据分割后的最短序列片段,将所述第一预设分类网络、所述第二预设分类网络、所述第三预设分类网络以及所述第四预设分类网络中的其中一者作为补充分类网络;将所述第四预设分类网络和所述补充分类网络作为所述待分类噬菌体片段的预设分类网络。[0114] 在本申请一种示例中,假设待分类噬菌体片段A的序列长度是2400bp,将待分类噬菌体片段分割为1800bp长度的序列片段1,和长度为600bp的序列片段2,将第二预设分类网络和第四预设分类网络作为待分类噬菌体片段A的预设分类网络。[0115] 在待分类噬菌体片段的序列长度小于100bp时,根据所述第一预设分类网络的输入范围,获取补序长度;采用预设编码,将所述待分类噬菌体片段补序到所述补序长度,并获取所述第一预设分类网络。[0116] 预设编码可以是[0,0,0,0]。在本申请一种示例中,假设待分类噬菌体片段B的序列长度是40bp,根据第一预设分类网络的输入范围的最低限度100bp,确定补序长度是60bp。采用60bp预设编码[0,0,0,0]将待分类噬菌体片段B补充到100bp,得到待分类噬菌体片段B’,将待分类噬菌体片段B’进行独热编码后输入第一预设分类网络。[0117] 步骤S22:对所述待分类噬菌体片段的所有碱基进行独热编码,得到碱基序列特征。[0118] 使用独热矩阵来编码碱基序列,能连续地整体地反映每个碱基。碱基A对应的独热编码是[0,0,0,1],碱基T对应的独热编码是[0,0,1,0],碱基C对应的独热编码是[0,1,0,0],碱基G对应的独热编码是[1,0,0,0]。[0119] 在本申请一种示例中,假设待分类噬菌体片段C是ACGCTATTGCACCG,对待分类噬菌体片段C进行独热编码后,得到的碱基序列特征如表1所示。[0120]1 0 0 0 0 1 0 0 0 0 1 0 0 00 1 0 1 0 0 0 0 0 1 0 1 1 00 0 1 0 0 0 0 0 1 0 0 0 0 10 0 0 0 1 0 1 1 0 0 0 0 0 0[0121] 表1[0122] 步骤S23:将所述碱基序列特征输入所述至少一个预设分类网络;[0123] 将碱基序列特征输入至少一个预设分类网络是指,在待分类噬菌体片段的序列长度小于100bp时,将待分类噬菌体片段补充到100bp的长度,对补充后的待分类噬菌体片段进行独热编码后,将得到的碱基序列特征输入第一预设分类网络;[0124] 在待分类噬菌体片段的序列长度位于100bp‑400bp的长度区间时,将碱基序列特征输入第一预设分类网络;[0125] 在待分类噬菌体片段的序列长度位于400bp‑800bp的长度区间时,将碱基序列特征输入第二预设分类网络;[0126] 在待分类噬菌体片段的序列长度位于800bp‑1200bp的长度区间时,将碱基序列特征输入第三预设分类网络;[0127] 在待分类噬菌体片段的序列长度位于1200bp‑1800bp的长度区间时,将碱基序列特征输入第四预设分类网络。[0128] 在待分类噬菌体片段的序列长度大于1800bp时,将基于分割后的长度为1800bp的序列片段编码得到的碱基序列特征,输入第四预设分类网络;将基于分割后的长度在800bp‑1200bp范围内的序列片段编码得到的碱基序列特征,输入第三预设分类网络;将基于分割后的长度在400bp‑800bp范围内的序列片段编码得到的碱基序列特征,输入第二预设分类网络;将基于分割后的长度在100bp‑400bp范围内的序列片段编码得到的碱基序列特征,输入第一预设分类网络。[0129] 步骤S24:根据所述至少一个预设分类网络的输出分数,确定所述待分类噬菌体片段的类型。[0130] 可以根据深度神经网络的训练数据,设置阈值分数,对于预设分类网络是一个的情况,在预设分类网络输出的分数大于阈值分数时,确定待分类噬菌体片段的类型是烈性噬菌体,在预设分类网络输出的分数不大于阈值分数时,确定待分类噬菌体片段的类型是温和噬菌体。[0131] 对于预设分类网络大于一个的情况,也就是在待分类噬菌体片段的序列长度大于1800bp时,确定分割待分类噬菌体片段得到的每个序列片段的长度。每个序列片段的长度可以是至少一个预设分类网络中每个预设分类网络的输入序列的长度。[0132] 根据每个输入序列的长度,计算所述至少一个预设分类网络的输出分数的加权平均值;根据所述加权平均值,确定所述待分类噬菌体片段的类型。[0133] 计算至少一个预设分类网络的输出分数的加权平均值是指,将特定预设分类网络输出分数与该特定预设分类网络对应长度区间的上限值进行乘积计算,得到该特定预设分类网络的加权分值,对至少一个预设分类网络中所有预设分类网络的加权分值进行求和,再计算求和所得的数值与至少一个预设分类网络中每个预设分类网络对应的长度区间的上限值的比值,得到加权平均值。[0134] 在本申请一种示例中,确定参与判断待分类噬菌体片段D的类型的预设分类网络包括第一预设分类网络和第四预设分类网络,待分类噬菌体片段D的长度是2000bp,分割待分类噬菌体片段D后得到长度是1800bp的序列片段3,和长度是200bp的序列片段4。假设第一预设分类网络输出的得分是0.67,第四预设分类网络输出的得分是0.8,加权平均值为(400×0.67+1800×0.8)/(400+1800)。[0135] 基于同一发明构思,本申请实施例提供一种噬菌体分类装置。图3是本申请实施例提出的噬菌体分类装置的功能模块图。如图3所示,该装置包括:[0136] 获取模块31,用于根据待分类噬菌体片段的序列长度,获取与所述序列长度对应的至少一个预设分类网络;[0137] 编码模块32,用于对所述待分类噬菌体片段的所有碱基进行独热编码,得到碱基序列特征;[0138] 输入模块33,用于将所述基序列特征输入所述至少一个预设分类网络;[0139] 输出模块34,用于根据所述至少一个预设分类网络的输出分数,确定所述待分类噬菌体片段的类型。[0140] 可选地,所述获取模块包括:[0141] 第一获取子模块,用于在所述序列长度在100bp‑400bp范围内时,获取第一预设分类网络;[0142] 第二获取子模块,用于在所述序列长度在400bp‑800bp范围内时,获取第二预设分类网络;[0143] 第三获取子模块,用于在所述序列长度在800bp‑1200bp范围内时,获取第三预设分类网络;[0144] 第四获取子模块,用于在所述序列长度在1200bp‑1800bp范围内时,获取第四预设分类网络;[0145] 第五获取子模块,用于在所述序列长度大于1800bp时,获取所述第四预设分类网络。[0146] 可选地,所述获取模块还包括:[0147] 分割子模块,用于按照1800bp的尺度对所述待分类噬菌体片段进行分割;[0148] 补充子模块,用于根据分割后的最短序列片段,将所述第一预设分类网络、所述第二预设分类网络、所述第三预设分类网络以及所述第四预设分类网络中的其中一者作为补充分类网络;[0149] 作为子模块,用于将所述第四预设分类网络和所述补充分类网络作为所述待分类噬菌体片段的预设分类网络。[0150] 可选地,所述获取模块包括:[0151] 第六获取子模块,用于在所述序列长度小于100bp时,根据所述第一预设分类网络的输入范围,获取补序长度;[0152] 补序子模块,用于采用预设编码,将所述待分类噬菌体片段补序到所述补序长度,并获取所述第一预设分类网络。[0153] 可选地,所述输出模块包括:[0154] 第一确定子模块,用于在所述序列长度大于1800bp时,确定所述至少一个预设分类网络中每个预设分类网络的输入序列的长度;[0155] 计算子模块,用于根据每个输入序列的长度,计算所述至少一个预设分类网络的输出分数的加权平均值;[0156] 第二确定子模块,用于根据所述加权平均值,确定所述待分类噬菌体片段的类型。[0157] 可选地,所述装置还包括:[0158] 第七获取子模块,用于获取温和噬菌体的第一全基因组数据,和烈性噬菌体的第二全基因组数据;[0159] 模拟子模块,用于模拟宏基因组测序获得序列信息的特征,设置不同长度的多个长度区间;[0160] 第一提取子模块,用于从所述第一全基因组数据中提取分别对应所述多个长度区间的多个第一短序列样本;[0161] 第二提取子模块,用于从所述第二全基因组数据中提取分别对应所述多个长度区间的多个第二短序列样本;[0162] 训练子模块,用于获取与所述多个长度区间分别对应的深度神经网络,并利用所述多个第一短序列样本和所述多个第二短序列样本分别对与所述多个长度区间分别对应的深度神经网络进行多次训练,得到所述至少一个预设分类网络。[0163] 可选地,所述装置还包括:[0164] 第一补序模块,用于对所述多个第一短序列样本进行反向补序,得到多个第三短序列样本;[0165] 第二补序模块,用于对所述多个第二短序列样本进行反向补序,得到多个第四短序列样本;[0166] 所述训练子模块包括:[0167] 训练子单元,用于利用所述多个第一短序列样本、所述多个第二短序列样本、所述多个第三短序列样本以及所述多个第四短序列样本,分别对与所述多个长度区间分别对应的深度神经网络进行多次训练,得到所述至少一个预设分类网络。[0168] 基于同一发明构思,本申请另一实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的噬菌体分类方法中的步骤。[0169] 基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的噬菌体分类方法中的步骤。[0170] 对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。[0171] 本说明书中的各个实施例均采用递进或说明的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。[0172] 本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。[0173] 本申请实施例是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。[0174] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。[0175] 这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。[0176] 尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。[0177] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。[0178] 以上对本申请所提供的一种噬菌体分类方法、装置、设备及存储介质,进行了详细介绍,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
专利地区:北京
专利申请日期:2021-07-20
专利公开日期:2024-07-26
专利公告号:CN113658641B