专利名称:基于U2net的目标检测方法、系统、计算机设备及其存储介质
专利类型:发明专利
专利申请号:CN202111440918.4
专利申请(专利权)人:深圳万兴软件有限公司
权利人地址:广东省深圳市南山区粤海街道软件产业基地5栋D座1001
专利发明(设计)人:杨松
专利摘要:本发明公开了基于U2net的目标检测方法、系统、计算机设备及其存储介质,其方法包括:将初始图片输入至多个连续的编码层进行特征编码,得到编码特征图;将最后一层编码层对应的编码特征图输入自注意力模块进行权重调整并输入至第一层解码层进行解码操作,得到解码特征图;将最后一层编码层的编码特征图和第一层解码层的解码特征图输入至交叉注意力模块内进行训练,得到多级特征图,并将多级特征图输入至第二层解码层内进行解码操作;依此类推,计算得到最后一层解码层对应的多级特征图,并作为目标特征图。本发明在编码层与解码层之间增设交叉注意力模块,以此来细化高级特征和低级特征,使这些特征具有更清晰的边界,有助于生成准确的显著性图。
主权利要求:
1.一种基于U2net的目标检测方法,其特征在于,包括:
将初始图片输入至多个连续的编码层内进行特征编码,并获取每个编码层对应的编码特征图;
将最后一层编码层对应的编码特征图输入自注意力模块进行权重调整,并将调整后的编码特征图输入至第一层解码层内进行解码操作,得到解码特征图;
将最后一层编码层对应的编码特征图和第一层解码层对应的解码特征图作为输入数据输入至交叉注意力模块内进行训练,得到多级特征图;
将所述多级特征图输入至第二层解码层内进行解码操作,得到对应的解码特征图,并将倒数第二层编码层对应的编码特征图和第二层解码层的解码特征图作为新的输入数据输入至交叉注意力模块内进行训练,得到新的多级特征图;依此类推,直至得到最后一层解码层对应的多级特征图,并作为目标特征图。
2.根据权利要求1所述的基于U2net的目标检测方法,其特征在于,所述编码层进行特征编码的过程如下,包括:将待编码图片输入至卷积核为3×64×3的卷积层中进行卷积操作,并将卷积结果输入至ReLU激活层中进行激活,再输入至最大池化层内进行池化处理,得到第一池化结果;
将所述第一池化结果输入至卷积核为64×128×3的卷积层中进行卷积操作,并将卷积结果输入至ReLU激活层中进行激活,再输入至最大池化层内进行池化处理,得到第二池化结果;
将所述第二池化结果输入至卷积核为128×256×3的卷积层中进行卷积操作,并将卷积结果输入至ReLU激活层中进行激活,得到编码特征图。
3.根据权利要求1所述的基于U2net的目标检测方法,其特征在于,所述第一层解码层的解码操作包括:将所述编码特征图输入至自注意力模块进行权重调整,并将调整后的编码特征图输入至卷积核为256×128×3的卷积层中进行卷积操作,并将卷积结果输入至上采样层进行卷积操作,得到上采样卷积结果;
将所述上采样卷积结果输入至卷积核为128×64×3的卷积层中进行卷积操作,并将卷积结果输入至ReLU激活层中进行激活,再输入至最大池化层内进行池化处理,得到第四池化结果;
将所述第四池化结果输入至卷积核为64×1×3的卷积层中进行卷积操作,并将卷积结果输入至sigmoid函数内进行计算,得到解码特征图。
4.根据权利要求1所述的基于U2net的目标检测方法,其特征在于,所述将最后一层编码层对应的编码特征图和第一层解码层对应的解码特征图作为输入数据输入至交叉注意力模块内进行训练,得到多级特征图,包括:将所述编码特征图输入至自注意力模块内进行向量调整,得到第一矩阵向量,并所述第一矩阵向量以及所述编码特征图进行残差连接以及归一化处理,得到第一归一化结果;
将所述解码特征图输入至自注意力模块内进行向量调整,得到第二矩阵向量,并将所述第矩阵二向量以及所述解码特征图进行残差连接以及归一化处理,得到第二归一化结果;
提取所述第一矩阵向量中的第一K向量和第一V向量以及所述第二归一化结果中的第二Q向量,并利用交叉注意力机制对所述第二Q向量、第一K向量和第一V向量进行计算,并对计算结果进行残差连接以及归一化处理,得到第三归一化结果;将第三归一化结果输入至全连接前馈神经网络层内进行卷积,并将卷积结果和所述第三归一化结果进行残差连接以及归一化处理,得到第四归一化结果;
提取所述第四归一化结果中的第三K向量和第三V向量以及所述第一归一化结果中的第四Q向量,并利用交叉注意力机制对所述第四Q向量、第三K向量和第三V向量进行计算,并对计算结果进行残差连接以及归一化处理,得到第五归一化结果;将第五归一化结果输入至全连接前馈神经网络层内进行卷积,并将卷积结果和所述第五归一化结果进行残差连接以及归一化处理,得到多级特征图。
5.根据权利要求1所述的基于U2net的目标检测方法,其特征在于,所述自注意力模块进行权重调整的过程如下,包括:获取待处理特征图的Q矩阵、K矩阵和V矩阵,并利用MatMul函数计算所述Q矩阵和K矩阵的矩阵乘积,并对所述矩阵乘积进行尺度缩放操作,并将尺度缩放结果输入至softmax函数层中进行计算并归一化处理,利用MatMul函数对归一化结果与V矩阵进行相乘计算,得到加权向量。
6.根据权利要求1所述的基于U2net的目标检测方法,其特征在于,利用如下公式计算损失函数:其中, 为二值交叉熵, 为结构相似性损失, 为交迭率损失。
7.一种基于U2net的目标检测系统,其特征在于,包括:
编码特征图获取单元,用于将初始图片输入至多个连续的编码层内进行特征编码,并获取每个编码层对应的编码特征图;
解码特征图获取单元,用于将最后一层编码层对应的编码特征图输入自注意力模块进行权重调整,并将调整后的编码特征图输入至第一层解码层内进行解码操作,得到解码特征图;
多级特征图获取单元,用于将最后一层编码层对应的编码特征图和第一层解码层对应的解码特征图作为输入数据输入至交叉注意力模块内进行训练,得到多级特征图;
目标特征图获取单元,用于将所述多级特征图输入至第二层解码层内进行解码操作,得到对应的解码特征图,并将倒数第二层编码层对应的编码特征图和第二层解码层的解码特征图作为新的输入数据输入至交叉注意力模块内进行训练,得到新的多级特征图;依此类推,直至得到最后一层解码层对应的多级特征图,并作为目标特征图。
8.根据权利要求7所述的基于U2net的目标检测系统,其特征在于,所述多级特征图获取单元,包括:第一归一化结果计算单元,用于将所述编码特征图输入至自注意力模块内进行向量调整,得到第一矩阵向量,并所述第一矩阵向量以及所述编码特征图进行残差连接以及归一化处理,得到第一归一化结果;
第一归一化结果计算单元,用于将所述解码特征图输入至自注意力模块内进行向量调整,得到第二矩阵向量,并将所述第二矩阵向量以及所述解码特征图进行残差连接以及归一化处理,得到第二归一化结果;
第四归一化结果计算单元,用于提取所述第一矩阵向量中的第一K向量和第一V向量以及所述第二归一化结果中的第二Q向量,并利用交叉注意力机制对所述第二Q向量、第一K向量和第一V向量进行计算,并对计算结果进行残差连接以及归一化处理,得到第三归一化结果;将第三归一化结果输入至全连接前馈神经网络层内进行卷积,并将卷积结果和所述第三归一化结果进行残差连接以及归一化处理,得到第四归一化结果;
多级特征图计算单元,用于提取所述第四归一化结果中的第三K向量和第三V向量以及所述第一归一化结果中的第四Q向量,并利用交叉注意力机制对所述第四Q向量、第三K向量和第三V向量进行计算,并对计算结果进行残差连接以及归一化处理,得到第五归一化结果;将第五归一化结果输入至全连接前馈神经网络层内进行卷积,并将卷积结果和所述第五归一化结果进行残差连接以及归一化处理,得到多级特征图。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于U2net的目标检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的基于U2net的目标检测方法。 说明书 : 基于U2net的目标检测方法、系统、计算机设备及其存储介质技术领域[0001] 本发明涉及目标检测技术领域,尤其涉及基于U2net的目标检测方法、系统、计算机设备及其存储介质。背景技术[0002] 在计算机视觉中,显著性目标检测的代表性应用包括图像理解、目标检测、无监督的视频目标分割、语义分割、行人重识别、视频归纳等。在计算机图形学中,显著性目标检测在逼真渲染、自动图像裁剪、图像重新定向等各种任务中起着至关重要的作用。机器人技术中的示例性应用,例如人机交互和目标发现也可以从显著性目标检测中受益,以更好地理解场景或目标对象。BASNet在loss的设计上,使用了交叉熵、结构相似性损失、IoU损失这三种的混合损失,使网络更关注于边界质量,而不是像以前那样只关注区域精度,U2Net提出了RSU(ReSidualU‑blocks)结构,能够捕捉更多的上下文信息,融合了不同尺度的感受野的特征,它增加了整个架构的深度但并没有显著增加计算成本,因为在这些RSU块中使用了池化操作。然而现有的U2Net技术并没有注重分割的边界的质量,而且由于不同卷积层的接受域不同,这些卷积层生成的特征存在较大差异。发明内容[0003] 本发明实施例提供了基于U2net的目标检测方法、系统、计算机设备及其存储介质,旨在解决现有技术中U2Net对于分割的边界的质量不高、卷积层特征差异大的问题。[0004] 第一方面,本发明实施例提供了一种基于U2net的目标检测方法,包括以下步骤:[0005] 将初始图片输入至多个连续的编码层内进行特征编码,并获取每个编码层对应的编码特征图;[0006] 将最后一层编码层对应的编码特征图输入自注意力模块进行权重调整,并将调整后的编码特征图输入至第一层解码层内进行解码操作,得到解码特征图;[0007] 将最后一层编码层对应的编码特征图和第一层解码层对应的解码特征图作为输入数据输入至交叉注意力模块内进行训练,得到多级特征图;[0008] 将所述多级特征图输入至第二层解码层内进行解码操作,得到对应的解码特征图,并将倒数第二层编码层对应的编码特征图和第二层解码层的解码特征图作为新的输入数据输入至交叉注意力模块内进行训练,得到新的多级特征图;依此类推,直至得到最后一层解码层对应的多级特征图,并作为目标特征图。[0009] 第二方面,本发明实施例提供了一种基于U2net的目标检测系统,其包括:[0010] 编码特征图获取单元,用于将初始图片输入至多个连续的编码层内进行特征编码,并获取每个编码层对应的编码特征图;[0011] 解码特征图获取单元,用于将最后一层编码层对应的编码特征图输入自注意力模块进行权重调整,并将调整后的编码特征图输入至第一层解码层内进行解码操作,得到解码特征图;[0012] 多级特征图获取单元,用于将最后一层编码层对应的编码特征图和第一层解码层对应的解码特征图作为输入数据输入至交叉注意力模块内进行训练,得到多级特征图;[0013] 目标特征图获取单元,用于将所述多级特征图输入至第二层解码层内进行解码操作,得到对应的解码特征图,并将倒数第二层编码层对应的编码特征图和第二层解码层的解码特征图作为新的输入数据输入至交叉注意力模块内进行训练,得到新的多级特征图;依此类推,直至得到最后一层解码层对应的多级特征图,并作为目标特征图。[0014] 第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于U2net的目标检测方法。[0015] 第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于U2net的目标检测方法。[0016] 本发明实施例提供了基于U2net的目标检测方法、系统、计算机设备及其存储介质。该方法包括:将初始图片输入至多个连续的编码层内进行特征编码,并获取每个编码层对应的编码特征图;将最后一层编码层对应的编码特征图输入自注意力模块进行权重调整,并将调整后的编码特征图输入至第一层解码层内进行解码操作,得到解码特征图;将最后一层编码层对应的编码特征图和第一层解码层对应的解码特征图作为输入数据输入至交叉注意力模块内进行训练,得到多级特征图;将所述多级特征图输入至第二层解码层内进行解码操作,得到对应的解码特征图,并将倒数第二层编码层对应的编码特征图和第二层解码层的解码特征图作为新的输入数据输入至交叉注意力模块内进行训练,得到新的多级特征图;依此类推,直至得到最后一层解码层对应的多级特征图,并作为目标特征图。本发明实施例在编码层与解码层之间增设交叉注意力模块,通过交叉注意力模块来细化高级特征和低级特征,使得这些特征具有更清晰的边界,有助于生成准确的显著性图。附图说明[0017] 为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0018] 图1为本发明实施例提供的基于U2net的目标检测方法的流程示意图;[0019] 图2为本发明实施例提供的基于U2net的目标检测系统的示意性框图。具体实施方式[0020] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0021] 应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。[0022] 还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。[0023] 还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。[0024] 请参阅图1,图1为本发明实施例提供的一种基于U2net的目标检测方法的流程示意图,该方法包括步骤S101~S104。[0025] S101、将初始图片输入至多个连续的编码层内进行特征编码,并获取每个编码层对应的编码特征图;[0026] S102、将最后一层编码层对应的编码特征图输入自注意力模块进行权重调整,并将调整后的编码特征图输入至第一层解码层内进行解码操作,得到解码特征图;[0027] S103、将最后一层编码层对应的编码特征图和第一层解码层对应的解码特征图作为输入数据输入至交叉注意力模块内进行训练,得到多级特征图;[0028] S104、将所述多级特征图输入至第二层解码层内进行解码操作,得到对应的解码特征图,并将倒数第二层编码层对应的编码特征图和第二层解码层的解码特征图作为新的输入数据输入至交叉注意力模块内进行训练,得到新的多级特征图;依此类推,直至得到最后一层解码层对应的多级特征图,并作为目标特征图。[0029] 在本实施例中,先将所述初始图片输入至多个连续的编码层内进行特征编码,得到每个编码层的编码特征图,然后将最后一层编码层的编码特征图经过自注意力模块进行向量调整后输入至第一层解码层中进行解码操作,得到第一层解码层的解码特征图,然后将最后一层编码层的编码特征图和第一层解码层的解码特征图输入至交叉注意力模块进行训练,得到多级特征图;然后再将多级特征图输入至第二层解码层中进行解码,得到第二层解码层的解码特征图,并将第二层解码层的解码特征图与倒数第二层编码层的编码特征图继续输入至交叉注意力模块内进行训练,得到新的多级特征图;依此类推,直到得到最后一层解码层对应的多级特征图,并作为目标特征图进行输出。[0030] 本实施例具体采用3层编码层和3层解码层的组合,在每一层对应的编码层和解码层之间增设交叉注意力模块。具体的,将初始图片依次经过3层编码层进行编码操作,将第3层编码层(即最后一层编码层)的编码特征图经过自注意力模块进行向量调整后作为第1层解码层的输入,再将第1层解码层与第3层编码层作为输入数据输入至交叉注意力模块内进行训练,得到对应的多级特征图;相应的,按照这种模式计算出第2层解码层与第2层编码层对应的多级特征图,以及第3层解码层与第1层编码层对应的多级特征图,最终将第3层解码层与第1层编码层对应的多级特征图作为目标特征图输出。[0031] 在一实施例中,所述编码层进行特征编码的过程如下,包括:[0032] 将待编码图片输入至卷积核为3×64×3的卷积层中进行卷积操作,并将卷积结果输入至ReLU激活层中进行激活,再输入至最大池化层内进行池化处理,得到第一池化结果;[0033] 将所述第一池化结果输入至卷积核为64×128×3的卷积层中进行卷积操作,并将卷积结果输入至ReLU激活层中进行激活,再输入至最大池化层内进行池化处理,得到第二池化结果;[0034] 将所述第二池化结果输入至卷积核为128×256×3的卷积层中进行卷积操作,并将卷积结果输入至ReLU激活层中进行激活,得到编码特征图。[0035] 在本实施例中,每一层编码层均由卷积层、激活层和最大池化层组成,每一层编码层进行编码特征的过程为:先将带编码图片输入至卷积核为3×64×3的卷积层中进行卷积、ReLU激活层中进行激活、最大池化层内进行池化处理;然后再输入至卷积核为64×128×3的卷积层中进行卷积、ReLU激活层中进行激活、最大池化层内进行池化处理;最后输入至卷积核为128×256×3的卷积层中进行卷积、ReLU激活层中进行激活,从而得到对应的编码特征图。[0036] 在一实施例中,所述第一层解码层的解码操作包括:[0037] 将所述编码特征图输入至自注意力模块进行权重调整,并将调整后的编码特征图输入至卷积核为256×128×3的卷积层中进行卷积操作,并将卷积结果输入至上采样层进行卷积操作,得到上采样卷积结果;[0038] 将所述上采样卷积结果输入至卷积核为128×64×3的卷积层中进行卷积操作,并将卷积结果输入至ReLU激活层中进行激活,再输入至最大池化层内进行池化处理,得到第四池化结果;[0039] 将所述第四池化结果输入至卷积核为64×1×3的卷积层中进行卷积操作,并将卷积结果输入至sigmoid函数内进行计算,得到解码特征图。[0040] 在本实施例中,每一层解码层均由卷积层、激活层和上采样层组成,本实施例以第一层解码层为例,将权重调整后的编码特征图输入至卷积核为256×128×3的卷积层中进行卷积,再输入至上采样层进行卷积,然后输入至卷积核为128×64×3的卷积层内进行卷积,再输入至ReLU激活层中进行激活、最大池化层内进行池化处理,最后再经过卷积核为64×1×3的卷积层的卷积处理,并利用sigmoid函数计算得到解码特征图。[0041] 在一实施例中,所述步骤S103,包括:[0042] 将所述编码特征图输入至自注意力模块内进行向量调整,得到第一矩阵向量,并所述第一矩阵向量以及所述编码特征图进行残差连接以及归一化处理,得到第一归一化结果;[0043] 将所述解码特征图输入至自注意力模块内进行向量调整,得到第二矩阵向量,并将所述第二向量以及所述解码特征图进行残差连接以及归一化处理,得到第二归一化结果;[0044] 提取所述第一矩阵向量中的第一K向量和第一V向量以及所述第二归一化结果中的第二Q向量,并利用交叉注意力机制对所述第二Q向量、第一K向量和第一V向量进行计算,并对计算结果进行残差连接以及归一化处理,得到第三归一化结果;将第三归一化结果输入至全连接前馈神经网络层内进行卷积,并将卷积结果和所述第三归一化结果进行残差连接以及归一化处理,得到第四归一化结果;[0045] 提取所述第四归一化结果中的第三K向量和第三V向量以及所述第一归一化结果中的第四Q向量,并利用交叉注意力机制对所述第四Q向量、第三K向量和第三V向量进行计算,并对计算结果进行残差连接以及归一化处理,得到第五归一化结果;将第五归一化结果输入至全连接前馈神经网络层内进行卷积,并将卷积结果和所述第五归一化结果进行残差连接以及归一化处理,得到多级特征图。[0046] 在本实施例中,所述交叉注意力模块获取来自编码层的编码特征图以及解码层的解码特征图后,先将编码特征图和解码特征图输入至自注意力模块进行向量调整,得到第一矩阵向量和第二矩阵向量;然后再分别输入至Add&Norm层中进行残差连接以及归一化处理,得到所述编码特征图对应的第一归一化结果和所述解码特征图对应的第二归一化结果;利用交叉注意力机制对第一矩阵向量的第一K向量和第一V向量和第二归一化结果中的第二Q向量进行计算,并将计算结果输入至Add&Norm层中进行残差连接以及归一化处理,得到第三归一化结果;然后再输入至全连接前馈神经网络层进行卷积,并将卷积结果和第三归一化结果继续输入至Add&Norm层中进行残差连接以及归一化处理,得到第四归一化结果,并从中提取出第三K向量和第三V向量;然后利用交叉注意力机制继续对第三K向量、第三V向量以及第一归一化结果的第四Q向量进行计算,并将计算结果输入至Add&Norm层中进行残差连接以及归一化处理,得到第五归一化结果;然后将第五归一化结果输入至全连接前馈神经网络层进行卷积,并将卷积结果和第五归一化结果继续输入至Add&Norm层中进行残差连接以及归一化处理,最终得到多级特征图。[0047] 自注意力模块可以被描述为将query(Q)和key(K)‑value(V)键值对的一组集合映到输出,其中query,keys,values都是向量,其中query和keys的维度均为dk,values的维度为dv,输出被计算为values的加权和,其中分配给每个value的权重由query与对应key的相似性函数计算得来。由于原始的自注意力模块是由相同的输入经过计算得到Q、K和V的值,而改进后的交叉注意力模块则由浅层的输出计算V和K,深层输出计算V,从而构成交叉注意力机制。[0048] 在一实施例中,所述自注意力模块进行权重调整的过程如下,包括:[0049] 获取待处理特征图的Q矩阵、K矩阵和V矩阵,并利用MatMul函数计算所述Q矩阵和K矩阵的矩阵乘积,并对所述矩阵乘积进行尺度缩放操作,并将尺度缩放结果输入至softmax函数层中进行计算并归一化处理,利用MatMul函数对归一化结果与V矩阵进行相乘计算,得到加权向量。[0050] 在本实施例中,所述自注意力模块通过对待处理特征图的Q矩阵、K矩阵和V矩阵进行计算得到加权向量,具体是先计算Q矩阵和K矩阵的矩阵乘积,再进行尺度缩放,再输入softmax函数层中进行计算并进行归一化处理,最后将归一化结果与V矩阵进行相乘计算。[0051] 在一实施例中,利用如下公式计算损失函数:[0052] l=lbce+lssim+liou[0053] 其中,lbce为二值交叉熵,lssim为结构相似性损失,liou为交迭率损失。[0054] 在本实施例中,通过计算二值交叉熵lbce,结构相似性损失lssim,交迭率损失liou的总和计算本实施例的损失,其中二值交叉熵以及交迭率损失均为目标检测、分割常用的loss,结构相似性损失用于衡量图像的结构相似性,对于局部结构变化更加敏感。[0055] 请参阅图2,图2为本发明实施例提供的一种基于U2net的目标检测系统的示意性框图,该基于U2net的目标检测系统200包括:[0056] 编码特征图获取单元201,用于将初始图片输入至多个连续的编码层内进行特征编码,并获取每个编码层对应的编码特征图;[0057] 解码特征图获取单元202,用于将最后一层编码层对应的编码特征图输入自注意力模块进行权重调整,并将调整后的编码特征图输入至第一层解码层内进行解码操作,得到解码特征图;[0058] 多级特征图获取单元203,用于将最后一层编码层对应的编码特征图和第一层解码层对应的解码特征图作为输入数据输入至交叉注意力模块内进行训练,得到多级特征图;[0059] 目标特征图获取单元204,用于将所述多级特征图输入至第二层解码层内进行解码操作,得到对应的解码特征图,并将倒数第二层编码层对应的编码特征图和第二层解码层的解码特征图作为新的输入数据输入至交叉注意力模块内进行训练,得到新的多级特征图;依此类推,直至得到最后一层解码层对应的多级特征图,并作为目标特征图。[0060] 在一实施例中,所述编码特征图获取单元201包括:[0061] 第一卷积激活单元,用于将待编码图片输入至卷积核为3×64×3的卷积层中进行卷积操作,并将卷积结果输入至ReLU激活层中进行激活,再输入至最大池化层内进行池化处理,得到第一池化结果;[0062] 第二卷积激活单元,用于将所述第一池化结果输入至卷积核为64×128×3的卷积层中进行卷积操作,并将卷积结果输入至ReLU激活层中进行激活,再输入至最大池化层内进行池化处理,得到第二池化结果;[0063] 第三卷积激活单元,用于将所述第二池化结果输入至卷积核为128×256×3的卷积层中进行卷积操作,并将卷积结果输入至ReLU激活层中进行激活,得到编码特征图。[0064] 在一实施例中,所述解码特征图获取单元202包括:[0065] 上采样卷积结果获取单元,用于将所述编码特征图输入至自注意力模块进行权重调整,并将调整后的编码特征图输入至卷积核为256×128×3的卷积层中进行卷积操作,并将卷积结果输入至上采样层进行卷积操作,得到上采样卷积结果;[0066] 第四池化结果获取单元,用于将所述上采样卷积结果输入至卷积核为128×64×3的卷积层中进行卷积操作,并将卷积结果输入至ReLU激活层中进行激活,再输入至最大池化层内进行池化处理,得到第四池化结果;[0067] 卷积处理单元,用于将所述第四池化结果输入至卷积核为64×1×3的卷积层中进行卷积操作,并将卷积结果输入至sigmoid函数内进行计算,得到解码特征图。[0068] 在一实施例中,所述多级特征图获取单元,包括:[0069] 第一归一化结果计算单元,用于将所述编码特征图输入至自注意力模块内进行向量调整,得到第一矩阵向量,并所述第一矩阵向量以及所述编码特征图进行残差连接以及归一化处理,得到第一归一化结果;[0070] 第一归一化结果计算单元,用于将所述解码特征图输入至自注意力模块内进行向量调整,得到第二矩阵向量,并将所述第二向量以及所述解码特征图进行残差连接以及归一化处理,得到第二归一化结果;[0071] 第四归一化结果计算单元,用于提取所述第一矩阵向量中的第一K向量和第一V向量以及所述第二归一化结果中的第二Q向量,并利用交叉注意力机制对所述第二Q向量、第一K向量和第一V向量进行计算,并对计算结果进行残差连接以及归一化处理,得到第三归一化结果;将第三归一化结果输入至全连接前馈神经网络层内进行卷积,并将卷积结果和所述第三归一化结果进行残差连接以及归一化处理,得到第四归一化结果;[0072] 多级特征图计算单元,用于提取所述第四归一化结果中的第三K向量和第三V向量以及所述第一归一化结果中的第四Q向量,并利用交叉注意力机制对所述第四Q向量、第三K向量和第三V向量进行计算,并对计算结果进行残差连接以及归一化处理,得到第五归一化结果;将第五归一化结果输入至全连接前馈神经网络层内进行卷积,并将卷积结果和所述第五归一化结果进行残差连接以及归一化处理,得到多级特征图。[0073] 在一实施例中,自注意力模块单元,[0074] 用于获取待处理特征图的Q矩阵、K矩阵和V矩阵,并利用MatMul函数计算所述Q矩阵和K矩阵的矩阵乘积,并对所述矩阵乘积进行尺度缩放操作,并将尺度缩放结果输入至softmax函数层中进行计算并归一化处理,利用MatMul函数对归一化结果与V矩阵进行相乘计算,得到加权向量。[0075] 在一实施例中,损失函数计算单元,用于利用如下公式计算损失函数:[0076] l=lbce+lssim+liou[0077] 其中,lbce为二值交叉熵,lssim为结构相似性损失,liou为交迭率损失。[0078] 本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于U2net的目标检测方法。[0079] 本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于U2net的目标检测方法。[0080] 说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。[0081] 还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
专利地区:广东
专利申请日期:2021-11-30
专利公开日期:2024-07-26
专利公告号:CN114092716B