可左右滑动选省市

基于多维注意力机制的联合检测与跟踪方法、装置及设备

更新时间:2024-10-01
基于多维注意力机制的联合检测与跟踪方法、装置及设备 专利申请类型:实用新型专利;
源自:北京高价值专利检索信息库;

专利名称:基于多维注意力机制的联合检测与跟踪方法、装置及设备

专利类型:实用新型专利

专利申请号:CN202210303609.0

专利申请(专利权)人:清华大学
权利人地址:北京市海淀区清华园

专利发明(设计)人:郑四发,张创,吴浩然,许庆,王建强,李克强

专利摘要:本申请涉及多目标跟踪技术领域,特别涉及一种基于多维注意力机制的联合检测与跟踪方法、装置及设备,其中,方法包括:对当前帧的当前时刻图像进行特征提取与融合处理,生成原始特征图;基于原始特征图,生成解耦特征图,并利用解耦特征执行预设检测任务和跟踪任务,获取当前帧的检测结果和跟踪目标特征;以及以当前帧的检测结果、跟踪目标特征和历史轨迹中的目标特征为输入,构建多特征级联跟踪器,生成最终的检测和跟踪结果。由此,解决了在联合检测和跟踪任务中不同尺度目标的跨时空提取问题以及在不同任务中的特征解耦等问题,通过构建多特征级联跟踪器,增强了跟踪算法在复杂场景中的鲁棒性。

主权利要求:
1.一种基于多维注意力机制的联合检测与跟踪方法,其特征在于,包括以下步骤:
对当前帧的当前时刻图像进行特征提取与融合处理,生成原始特征图;
基于所述原始特征图,生成解耦特征图,并利用所述解耦特征执行预设检测任务和跟踪任务,获取所述当前帧的检测结果和跟踪目标特征;以及以所述当前帧的检测结果、所述跟踪目标特征和历史轨迹中的目标特征为输入,构建多特征级联跟踪器,生成最终的检测和跟踪结果;
其中,所述对当前帧的当前时刻图像进行特征提取与融合处理,生成原始特征图,包括:基于所述当前时刻图像进行下采样,得到多个初始特征图;对所述多个初始特征图中的部分初始特征图进行反卷积的上采样,得到对应的上采样特征,并加和处理后,得到多个加和特征图;对所述多个初始特征图和/或所述多个加和特征图进行通道注意力处理和位置注意力处理,得到多个注意力特征图;对所述多个注意力特征图进行卷积与上采样处理,得到所述原始特征图;
所述构建多特征级联跟踪器,生成最终的检测和跟踪结果,包括:输入所述当前帧的检测结果和跟踪目标特征及所述历史轨迹中的目标特征;对于每一个目标及所述历史轨迹中的每一个轨迹,考虑运动特征,生成第一成本矩阵,对所述第一成本矩阵进行点匹配,确定所述检测结果中已匹配上历史轨迹的第一集合与未匹配的第二集合及所述跟踪目标特征中已匹配上历史轨迹的第三集合与未匹配的第四集合;对所述第二集合中每一个目标和所述第四集合中每一条轨迹,考虑运动特征,计算每一点对外观特征的相似度,生成第二成本矩阵,且对所述第二成本矩阵进行点匹配,确定所述检测结果中已匹配上历史轨迹的第五集合与未匹配的第六集合及所述跟踪目标特征中已匹配上历史轨迹的第七集合与未匹配的第八集合,并生成新的轨迹;基于所述第一集合、第三集合、第五集合和第七集合的匹配成功的点更新目标跟踪轨迹,生成更新后的轨迹,并合并所述新的轨迹和所述更新后的轨迹,生成当前时刻的跟踪结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一集合、第三集合、第五集合和第七集合的匹配成功的点更新目标跟踪轨迹,生成更新后的轨迹,包括:若当前时刻有匹配的检测结果,则基于相对应的目标或者轨迹中的相关信息进行更新;
若所述当前时刻没有匹配的检测结果,则计算距离上一时刻更新的时间差,其中,在所述时间差大于或等于预设阈值时进行删除,否则基于所述上一时刻进行更新。
3.一种基于多维注意力机制的联合检测与跟踪装置,其特征在于,包括:
第一生成模块,用于对当前帧的当前时刻图像进行特征提取与融合处理,生成原始特征图;
获取模块,用于基于所述原始特征图,生成解耦特征图,并利用所述解耦特征执行预设检测任务和跟踪任务,获取所述当前帧的检测结果和跟踪目标特征;以及第二生成模块,用于以所述当前帧的检测结果、所述跟踪目标特征和历史轨迹中的目标特征为输入,构建多特征级联跟踪器,生成最终的检测和跟踪结果;
其中,所述第一生成模块,具体用于:基于所述当前时刻图像进行下采样,得到多个初始特征图;对所述多个初始特征图中的部分初始特征图进行反卷积的上采样,得到对应的上采样特征,并加和处理后,得到多个加和特征图;对所述多个初始特征图和/或所述多个加和特征图进行通道注意力处理和位置注意力处理,得到多个注意力特征图;对所述多个注意力特征图进行卷积与上采样处理,得到所述原始特征图;
所述第二生成模块,具体用于:输入所述当前帧的检测结果和跟踪目标特征及所述历史轨迹中的目标特征;对于每一个目标及所述历史轨迹中的每一个轨迹,考虑运动特征,生成第一成本矩阵,对所述第一成本矩阵进行点匹配,确定所述检测结果中已匹配上历史轨迹的第一集合与未匹配的第二集合及所述跟踪目标特征中已匹配上历史轨迹的第三集合与未匹配的第四集合;对所述第二集合中每一个目标和所述第四集合中每一条轨迹,考虑运动特征,计算每一点对外观特征的相似度,生成第二成本矩阵,且对所述第二成本矩阵进行点匹配,确定所述检测结果中已匹配上历史轨迹的第五集合与未匹配的第六集合及所述跟踪目标特征中已匹配上历史轨迹的第七集合与未匹配的第八集合,并生成新的轨迹;基于所述第一集合、第三集合、第五集合和第七集合的匹配成功的点更新目标跟踪轨迹,生成更新后的轨迹,并合并所述新的轨迹和所述更新后的轨迹,生成当前时刻的跟踪结果。
4.根据权利要求3所述的装置,其特征在于,所述基于所述第一集合、第三集合、第五集合和第七集合的匹配成功的点更新目标跟踪轨迹,生成更新后的轨迹,具体用于:若当前时刻有匹配的检测结果,则基于相对应的目标或者轨迹中的相关信息进行更新;
若所述当前时刻没有匹配的检测结果,则计算距离上一时刻更新的时间差,其中,在所述时间差大于或等于预设阈值时进行删除,否则基于所述上一时刻进行更新。
5.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1‑2任一项所述的基于多维注意力机制的联合检测与跟踪方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1‑2任一项所述的基于多维注意力机制的联合检测与跟踪方法。 说明书 : 基于多维注意力机制的联合检测与跟踪方法、装置及设备技术领域[0001] 本申请涉及多目标跟踪领域技术领域,特别涉及一种基于多维注意力机制的联合检测与跟踪方法、装置及设备。背景技术[0002] 与多目标跟踪领域经典的先检测后跟踪的实现方案不同,联合检测与跟踪方法从单一神经网络中提取目标检测和跟踪的特征,提高了模型的运行效率,同时降低了计算成本。针对联合检测与跟踪方法,目前的技术实现方案及典型算法可分为以下两种。[0003] (1)基于前后帧中目标的位置相关性。Trackor作为一种代表性的联合检测与跟踪方法,利用前一帧的包围框检测结果作为当前帧的候选区域,然后直接回归当前帧中相同跟踪目标的包围框。Trackor在一些多目标跟踪数据集上实现了性能的提升,但该方法是建立在目标在前后帧边界框重合率较高的假设之上,因此在目标快速移动等复杂交通场景中性能显著下降。[0004] (2)基于目标重识别特征。该类方法是目前最主流的联合检测与跟踪方法。其使用单一网络生成一帧图像的检测结果,以及检测目标对应的重识别特征,然后基于Kalman滤波算法生成相邻帧之间相同目标的位置约束,最后基于重识别特征及位置约束生成权重矩阵,并使用匈牙利匹配算法完成当前帧检测结果与跟踪轨迹之间的匹配。然而,该类算法过渡依赖目标的外观重识别特征,在复杂的交通场景下由于目标易受遮蔽,使相邻帧之间同一目标的外观特征变化剧烈,易造成外观特征匹配失败,从而造成跟踪失效;另一方面,检测任务所需的特征和跟踪任务所需重识别特征在提取过程中存在一定程度的冲突,将两者置于同一网络中提取会造成检测和跟踪任务性能的下降。发明内容[0005] 本申请提供一种基于多维注意力机制的联合检测与跟踪方法、装置及设备,以解决在联合检测和跟踪任务中不同尺度目标的跨时空提取问题以及在不同任务中的特征解耦等问题。[0006] 本申请第一方面实施例提供一种基于多维注意力机制的联合检测与跟踪方法,包括以下步骤:[0007] 对当前帧的当前时刻图像进行特征提取与融合处理,生成原始特征图;[0008] 基于所述原始特征图,生成解耦特征图,并利用所述解耦特征执行预设检测任务和跟踪任务,获取所述当前帧的检测结果和跟踪目标特征;以及[0009] 以所述当前帧的检测结果、所述跟踪目标特征和历史轨迹中的目标特征为输入,构建多特征级联跟踪器,生成最终的检测和跟踪结果。[0010] 根据本申请的一个实施例,所述对当前帧的当前时刻图像进行特征提取与融合处理,生成原始特征图,包括:[0011] 基于所述当前时刻图像进行下采样,得到多个初始特征图;[0012] 对所述多个输出特征图中的部分初始特征图进行反卷积的上采样,得到对应的上采样特征,并加和处理后,得到多个加和特征图;[0013] 对所述多个输出特征图和/或所述多个加和特征图进行通道注意力处理和位置注意力处理,得到多个注意力特征图;[0014] 对所述多个注意力特征图进行卷积与上采样处理,得到所述原始特征图。[0015] 根据本申请的一个实施例,所述构建多特征级联跟踪器,生成最终的检测和跟踪结果,包括:[0016] 输入所述当前帧的检测结果和跟踪目标特征及所述历史轨迹中的目标特征;[0017] 对于每一个目标及所述历史轨迹中的每一个轨迹,考虑运动特征,生成第一成本矩阵,对所述第一成本矩阵进行点匹配,确定所述检测结果中已匹配上历史轨迹的第一集合与未匹配的第二集合及所述跟踪目标特征中已匹配上历史轨迹的第三集合与未匹配的第四集合;[0018] 对所述第二集合中每一个目标和所述第四集合中每一条轨迹,考虑运动特征,计算每一点对外观特征的相似度,生成第二成本矩阵,且对所述第二成本矩阵进行点匹配,确定所述检测结果中已匹配上历史轨迹的第五集合与未匹配的第六集合及所述跟踪目标特征中已匹配上历史轨迹的第七集合与未匹配的第八集合,并生成新的轨迹;[0019] 基于所述第一集合、第三集合、第五集合和第七集合的匹配成功的点更新目标跟踪轨迹,生成更新后的轨迹,并合并所述新的轨迹和所述更新后的轨迹,生成当前时刻的跟踪结果。[0020] 根据本申请的一个实施例,所述基于所述第一集合、第三集合、第五集合和第七集合的匹配成功的点更新目标跟踪轨迹,生成更新后的轨迹,包括:[0021] 若当前时刻有匹配的检测结果,则基于相对应的目标或者轨迹中的相关信息进行更新;[0022] 若所述当前时刻没有匹配的检测结果,则计算距离上一时刻更新的时间差,其中,在所述时间差大于或等于预设阈值时进行删除,否则基于所述上一时刻进行更新。[0023] 根据本申请的一个实施例,所述基于多维注意力机制的联合检测与跟踪方法,还包括:[0024] 从所述最终的检测和跟踪结果中提取至少一个展示特征,并基于所述至少一个展示特征进行可视化展示。[0025] 根据本申请实施例的基于多维注意力机制的联合检测与跟踪方法,对当前帧的当前时刻图像进行特征提取与融合处理,生成原始特征图并生成解耦特征图,利用解耦特征执行预设检测任务和跟踪任务,获取当前帧的检测结果和跟踪目标特征,并根据当前帧的检测结果、跟踪目标特征和历史轨迹中的目标特征为输入,构建多特征级联跟踪器,生成最终的检测和跟踪结果。由此,解决了在联合检测和跟踪任务中不同尺度目标的跨时空提取问题以及在不同任务中的特征解耦等问题,通过构建多特征级联跟踪器,增强了跟踪算法在复杂场景中的鲁棒性。[0026] 本申请第二方面实施例提供一种基于多维注意力机制的联合检测与跟踪装置,包括:[0027] 第一生成模块,用于对当前帧的当前时刻图像进行特征提取与融合处理,生成原始特征图;[0028] 获取模块,用于基于所述原始特征图,生成解耦特征图,并利用所述解耦特征执行预设检测任务和跟踪任务,获取所述当前帧的检测结果和跟踪目标特征;以及[0029] 第二生成模块,用于以所述当前帧的检测结果、所述跟踪目标特征和历史轨迹中的目标特征为输入,构建多特征级联跟踪器,生成最终的检测和跟踪结果。[0030] 根据本申请的一个实施例,所述第一生成模块,具体用于:[0031] 基于所述当前时刻图像进行下采样,得到多个初始特征图;[0032] 对所述多个输出特征图中的部分初始特征图进行反卷积的上采样,得到对应的上采样特征,并加和处理后,得到多个加和特征图;[0033] 对所述多个输出特征图和/或所述多个加和特征图进行通道注意力处理和位置注意力处理,得到多个注意力特征图;[0034] 对所述多个注意力特征图进行卷积与上采样处理,得到所述原始特征图。[0035] 根据本申请的一个实施例,所述第二生成模块,具体用于:[0036] 输入所述当前帧的检测结果和跟踪目标特征及所述历史轨迹中的目标特征;[0037] 对于每一个目标及所述历史轨迹中的每一个轨迹,考虑运动特征,生成第一成本矩阵,对所述第一成本矩阵进行点匹配,确定所述检测结果中已匹配上历史轨迹的第一集合与未匹配的第二集合及所述跟踪目标特征中已匹配上历史轨迹的第三集合与未匹配的第四集合;[0038] 对所述第二集合中每一个目标和所述第四集合中每一条轨迹,考虑运动特征,计算每一点对外观特征的相似度,生成第二成本矩阵,且对所述第二成本矩阵进行点匹配,确定所述检测结果中已匹配上历史轨迹的第五集合与未匹配的第六集合及所述跟踪目标特征中已匹配上历史轨迹的第七集合与未匹配的第八集合,并生成新的轨迹;[0039] 基于所述第一集合、第三集合、第五集合和第七集合的匹配成功的点更新目标跟踪轨迹,生成更新后的轨迹,并合并所述新的轨迹和所述更新后的轨迹,生成当前时刻的跟踪结果。[0040] 根据本申请的一个实施例,所述基于所述第一集合、第三集合、第五集合和第七集合的匹配成功的点更新目标跟踪轨迹,生成更新后的轨迹,具体用于:[0041] 若当前时刻有匹配的检测结果,则基于相对应的目标或者轨迹中的相关信息进行更新;[0042] 若所述当前时刻没有匹配的检测结果,则计算距离上一时刻更新的时间差,其中,在所述时间差大于或等于预设阈值时进行删除,否则基于所述上一时刻进行更新。[0043] 根据本申请的一个实施例,所述基于多维注意力机制的联合检测与跟踪装置,具体用于:[0044] 从所述最终的检测和跟踪结果中提取至少一个展示特征,并基于所述至少一个展示特征进行可视化展示。[0045] 根据本申请实施例的基于多维注意力机制的联合检测与跟踪装置,对当前帧的当前时刻图像进行特征提取与融合处理,生成原始特征图并生成解耦特征图,利用解耦特征执行预设检测任务和跟踪任务,获取当前帧的检测结果和跟踪目标特征,并根据当前帧的检测结果、跟踪目标特征和历史轨迹中的目标特征为输入,构建多特征级联跟踪器,生成最终的检测和跟踪结果。由此,解决了在联合检测和跟踪任务中不同尺度目标的跨时空提取问题以及在不同任务中的特征解耦等问题,通过构建多特征级联跟踪器,增强了跟踪算法在复杂场景中的鲁棒性。[0046] 本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的基于多维注意力机制的联合检测与跟踪方法。[0047] 本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例所述的基于多维注意力机制的联合检测与跟踪方法。[0048] 本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明[0049] 本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:[0050] 图1为根据本申请实施例提供的一种基于多维注意力机制的联合检测与跟踪方法的流程图;[0051] 图2为根据本申请一个实施例提供的多层语义特征提取及融合模块的结构示意图;[0052] 图3为根据本申请一个实施例提供的检测和跟踪任务特征解耦模块作用原理图;[0053] 图4为根据本申请一个实施例提供的特征解耦模块中自注意力机制原理图;[0054] 图5为根据本申请一个实施例提供的多特征级联跟踪器流程图;[0055] 图6为根据本申请实施例的基于多维注意力机制的联合检测与跟踪装置的示例图;[0056] 图7为根据本申请实施例提供的电子设备的结构示意图。具体实施方式[0057] 下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。[0058] 下面参考附图描述本申请实施例的基于多维注意力机制的联合检测与跟踪方法、装置及设备。针对上述背景技术中心提到的现有的联合检测与跟踪方法大多过渡依赖目标的外观特征,在复杂交通场景中目标易受遮蔽,且相邻帧之间目标的外观特征变化剧烈,从而造成目标跟踪失败的问题,本申请提供了一种基于多维注意力机制的联合检测与跟踪方法,在该方法中,对当前帧的当前时刻图像进行特征提取与融合处理,生成原始特征图并生成解耦特征图,利用解耦特征执行预设检测任务和跟踪任务,获取当前帧的检测结果和跟踪目标特征,并根据当前帧的检测结果、跟踪目标特征和历史轨迹中的目标特征为输入,构建多特征级联跟踪器,生成最终的检测和跟踪结果。由此,解决了在联合检测和跟踪任务中不同尺度目标的跨时空提取问题以及在不同任务中的特征解耦等问题,通过构建多特征级联跟踪器,增强了跟踪算法在复杂场景中的鲁棒性。[0059] 具体而言,图1为本申请实施例所提供的一种基于多维注意力机制的联合检测与跟踪方法的流程示意图。[0060] 其中,在本申请实施例中,基于多维注意力机制的联合检测与跟踪方法整体包含三部分,首先,将当前帧图像与上一帧图像融合后生成当前时刻图像,以此为输入构建多层语义特征提取及融合模块,生成原始特征图;其次,将原始特征图输入特征解耦模块,生成适用于检测任务和跟踪任务的特异化特征图,并基于解耦后的特征图生成检测结果和跟踪目标的特征;最后,以当前帧的检测结果、跟踪目标特征以及历史轨迹的目标特征作为输入,构建多特征级联跟踪器,生成最终的检测和跟踪结果。上述三个步骤所对应的具体模块为:(1)多层语义特征提取及融合模块;(2)检测与跟踪任务特征解耦模块;(3)多特征级联跟踪器。其中,每个模块所对应的具体内容将在下面具体实施例中进行详细阐述。[0061] 如图1所示,该基于多维注意力机制的联合检测与跟踪方法包括以下步骤:[0062] 在步骤S101中,对当前帧的当前时刻图像进行特征提取与融合处理,生成原始特征图。[0063] 进一步地,在一些实施例中,对当前帧的当前时刻图像进行特征提取与融合处理,生成原始特征图,包括:基于当前时刻图像进行下采样,得到多个初始特征图;对多个输出特征图中的部分初始特征图进行反卷积的上采样,得到对应的上采样特征,并加和处理后,得到多个加和特征图;对多个输出特征图和/或多个加和特征图进行通道注意力处理和位置注意力处理,得到多个注意力特征图;对多个注意力特征图进行卷积与上采样处理,得到原始特征图。[0064] 具体地,在本申请实施例中,首先对多层语义特征提取及融合模块进行说明,其具体内容如下:[0065] 由于在联合检测和跟踪算法中存在着复杂交通场景造成的目标对帧内不同目标尺度范围较大,帧间同一目标外观变化、受遮挡程度、运动状态变化剧烈等问题,构造了多层语义特征提取及融合模块。具体基于特征金字塔结构提取不同分辨率下的特征图,并基于通道注意力机制融合不同高低层语义特征,同时借助位置注意力机制提高算法在复杂交通环境中对目标相关区域的关注度及敏感性。[0066] 具体而言,如图2所示,本申请实施例将输入的当前帧图像进行下采样、上采样、注意力机制处理等操作,从而得到初始特征图。其中,图中实线方框代表特征图,数字代表当前模块特征图的分辨率相比输入图像缩小的倍数,实线方框之间的竖实线代表下采样的过程;虚线方框代表不同分辨率特征图的加和模块,实线椭圆框代表特征融合注意力模块,横实线为1x1卷积过程,虚线代表上采样过程。[0067] 举例而言,设输入图像为X∈RH×W×3,其中H×W为图像的尺寸,3代表图像RGB(RGBcolormode,RGB色彩模式)三个色彩通道,不同分辨率的下采样特征图可由公式(1)所示:[0068][0069] 其中,s=1,2,3,4,5,6代表图1中的特征图层数编号, 为第s层对应的卷积特征,Xs‑1为第s‑1层的特征图,Ws和bs为第s层卷积核的参数, 为第s层对应的批归一化特征,γs、μs、σs、βs为批归一化处理的参数,Xs为第s层的特征,ReLU为线性整流激活函数。[0070] 进一步地,通过下采样操作可得X1,X2,X3,X4,X5,X6六个特征图,将后三层特征图进行反卷积的上采样操作,得到对应的上采样特征 将上述上采样特征进行1x1卷积,从而得到不同深度的特征[0071] 其中,d代表上采样的深度,如 代表图2中第三行第二列对应的加和模块处理后的特征图。对于每个加和模块,具体原理如公式(2)所示:[0072][0073] 其中, 为图2中第s层,深度为d的加和模块中两个输入按通道加和后的特征,其余参数与公式(1)中定义相同。[0074] 对于每个特征融合注意力模块,其先对输入的特征图 先进行通道注意力处理,得到特征图 再对 进行位置注意力处理,得到最终的特征图 其中,本发明使用的通道注意力机制原理如公式(3)所示:[0075][0076] 其中,AP为平均池化、MP为最大池化,Sigmoid为非线性激活函数,CAW1、CAW2、CAW3、CAW4为通道注意力机制参数,可由网络训练习得,CAM、CAM1、CAM2为中间变量,无实际意义。[0077] 位置注意力机制原理如式(4)所示:[0078][0079] 其中,Cat为通道维度拼接操作,AvgC为通道维度求均值,MaxC为通道维度求最大值,WSA和bSA为位置注意力参数,可由网络训练习得,SAC和SAM为中间变量,无实际意义。[0080] 最后,在得到不同分辨率的注意力特征图后,按照图1的流程进行1x1卷积及上采raw样,最终得到当前时刻输入图像的原始特征图F 。[0081] 通过基于位置注意力及通道注意力机制对不同分辨率的特征图进行融合,有效提高了联合检测与跟踪方法针对小目标、遮挡目标的检测与跟踪性能。[0082] 在步骤S102中,基于原始特征图,生成解耦特征图,并利用解耦特征执行预设检测任务和跟踪任务,获取当前帧的检测结果和跟踪目标特征。[0083] 具体地,在本申请实施例中,其次对检测与跟踪任务特征解耦模块进行说明,其具体内容如下:[0084] 由于现有联合检测与跟踪方法大多直接基于特征提取网络输出的特征图进行分类及回归以得到检测结果及目标的跟踪特征。但是对于检测和跟踪特征提取这两个任务,前者追求同一类目标的类内方差最小,而后者则追求同一类目标中不同目标之间的差别最大,这一冲突会导致上述两个任务性能之间的竞争,进而导致两者性能的下降。如图3所示,raw本申请实施例基于自注意力机制构建检测与跟踪任务特征解耦模块对原始特征图F 进行detection tracking处理,将其解耦为适用于检测任务的F 和适用于跟踪特征提取的F ,并根据解耦后的特征,分别生成检测结果DR={dr1,dr2,...,drn}和跟踪特征TR={tr1,tr2,...,trn}。其中,n代表当前时刻检测出的目标个数,则有第i个目标dri=(BBoxi,Ci,Si),其中,BBoxi为目标的包围框,Ci为类别,Si对应的分数,tri=(ReIDi,Motioni),ReIDi为目标的外观特征,Motioni为运动特征。[0085] 进一步地,在该模块中,本申请实施例所使用的自注意力机制具体原理如图4所raw SA示。图中F 为原始特征图,SoftMax为激活函数,F 为自注意力机制处理后的特征图,对应detection tracking上文说明的F 和F 。Q、K、V为中间变量,可由公式(5)得,其中所涉及的W和b均由训练可得。[0086][0087] 通过基于自注意力机制构建特征解耦模块,降低了上述两个任务之间的冲突,提高了联合检测与跟踪任务中两个子任务的性能。[0088] 在步骤S103中,以当前帧的检测结果、跟踪目标特征和历史轨迹中的目标特征为输入,构建多特征级联跟踪器,生成最终的检测和跟踪结果。[0089] 进一步地,在一些实施例中,构建多特征级联跟踪器,生成最终的检测和跟踪结果,包括:输入当前帧的检测结果和跟踪目标特征及历史轨迹中的目标特征;对于每一个目标及历史轨迹中的每一个轨迹,考虑运动特征,生成第一成本矩阵,对第一成本矩阵进行点匹配,确定检测结果中已匹配上历史轨迹的第一集合与未匹配的第二集合及跟踪目标特征中已匹配上历史轨迹的第三集合与未匹配的第四集合;对第二集合中每一个目标和第四集合中每一条轨迹,考虑运动特征,计算每一点对外观特征的相似度,生成第二成本矩阵,且对第二成本矩阵进行点匹配,确定检测结果中已匹配上历史轨迹的第五集合与未匹配的第六集合及跟踪目标特征中已匹配上历史轨迹的第七集合与未匹配的第八集合,并生成新的轨迹;基于第一集合、第三集合、第五集合和第七集合的匹配成功的点更新目标跟踪轨迹,生成更新后的轨迹,并合并新的轨迹和更新后的轨迹,生成当前时刻的跟踪结果。[0090] 进一步地,在一些实施例中,基于第一集合、第三集合、第五集合和第七集合的匹配成功的点更新目标跟踪轨迹,生成更新后的轨迹,包括:若当前时刻有匹配的检测结果,则基于相对应的目标或者轨迹中的相关信息进行更新;若当前时刻没有匹配的检测结果,则计算距离上一时刻更新的时间差,其中,在时间差大于或等于预设阈值时进行删除,否则基于上一时刻进行更新。[0091] 进一步地,在一些实施例中,基于多维注意力机制的联合检测与跟踪方法,还包括:从最终的检测和跟踪结果中提取至少一个展示特征,并基于至少一个展示特征进行可视化展示。[0092] 具体地,在本申请实施例中,最后对多特征级联跟踪器模块进行说明,其具体内容如下:[0093] 由于现有的联合检测与跟踪方法大多过渡依赖目标的外观特征,且对物体运动状态的建模多基于Kalman滤波方法。然而在复杂交通场景中,相邻帧之间目标的外观特征及运动状态变化剧烈,从而造成目标跟踪的失败。本申请实施例构建综合考虑目标外观特征及运动特征的多特征级联跟踪器,且上述特征均基于数据及神经网络训练学习而来,可增强跟踪算法在复杂场景中的鲁棒性。[0094] 具体而言,本申请实施例所构建的多特征级联跟踪器主要包括以下步骤:[0095] (1)输入当前t时刻的检测结果DR(t)={dr1(t),dr2(t),...,drn(t)}、跟踪特征TR(t)=(t) (t) (t){tr1 ,tr2 ,...,trn },以及历史轨迹中的目标特征 其中,n代表t时刻图像中目标的数量,m代表t‑1时刻图像中历史轨迹的数量,对于第j个轨迹,为t‑1时刻该轨迹的ID,为t‑1时刻第j个轨迹的目标包围框特征, 为t‑1时刻第j个轨迹的类别特征, 为t‑1时刻第j个轨迹的目标显著性分数特征, 为t‑1时刻第j个轨迹的目标外观特征,为t‑1时刻第j个轨迹的目标运动特征。(t)[0096] (2)对于t时刻结果中的每一个目标dri 以及历史轨迹中的每一个轨迹 考虑运动特征,计算每一对 和 之间的交并比,筛选交并比大于0.8的点对生成成(t)本矩阵A,基于匈牙利匹配算法完成矩阵A中点对的匹配,对于DR 中已匹配上历史轨迹的(t) (t) (t) (t) (t) (t)集合记为ADR ={adr1 ,adr2 ,...},反之为UADR ={uadr1 ,uadr2 ,...};对于TL(t‑1)中已匹配上当前时刻检测结果的点的集合记为 反之为[0097] (3)对于UADR(t)中每一个目标 和UATL(t)中的每一条轨迹 考虑运动特征的同时计算每一点对外观特征的相似度,并筛选相似度大于0.7的点对生成成本矩阵B,(t)基于匈牙利匹配算法完成矩阵B中点对的匹配。对于UADR 中已匹配上历史轨迹的集合记(t) (t) (t) (t) (t) (t)为RADR ={radr1 ,radr2 ,...},反之为URADR ={uadr1 ,uadr2 ,...};对于UATL(t)中已匹配上当前时刻检测结果的点的集合记为 反之为对于 中的结果,跟踪器判断为当前时刻新出现的目标,为其生成新的轨迹[0098] (4)综合(2)、(3)两步匹配成功的点对ADR(t)、ATL(t)、RADR(t)、RATL(t)更新目标跟踪轨迹 的数据为 具体更新方法为,对于每一(t) (t)个 若在当前时刻有匹配的检测结果,则令与其相对应的dri 和tri 中的相关信息填充如轨迹当前信息 若 当前时刻没有匹配的结果,则计算 上次更新时间距离当前时刻的时间差,若时间差小于10,则令反之则删除,最终生成[0099] (5)将步骤(3)和(4)生成的NTL(t)和OTL(t)两个集合合并,生成当前时刻的跟踪结(t) (t) (t)果TL ,用于下一时刻跟踪器使用。当前帧的检测结果为步骤(1)中的DR ={dr1 ,dr2(t) (t) (t) (t),...,drn }。此时DR 中所有目标在TL 中均有对应的轨迹,可提取ID、包围框等信息用于联合检测与跟踪方法的可视化展示。[0100] 综上,为便于本领域技术人员更好理解基于多维注意力机制的联合检测与跟踪方法的完整流程,下面根据具体流程图进行详细说明,如图5所示:[0101] S501,输入当前t时刻的检测结果、跟踪特征以及t‑1时刻历史轨迹中的目标特征。[0102] S502,考虑t时刻的运动特征,逐一计算t时刻和t‑1时刻目标对包围框的交并比。[0103] S503,判断交并比是否大于0.8,若是,则执行S504,否则执行S505。[0104] S504,将该点对添加进入成本矩阵A。[0105] S505,判断是否遍历所有点,若是,则执行S506,否则跳转执行S502。[0106] S506,基于匈牙利匹配算法完成矩阵A中点对的匹配。[0107] S507,输入交并比小于等于0.8的点对,以及未匹配上的点对。[0108] S508,考虑t时刻的运动特征,逐一计算t时刻和t‑1时刻目标对外观特征的相似度。[0109] S509,判断相似对是否大于0.7,若是,则执行S510,否则,执行S511。[0110] S510,将该点对添加进入成本矩阵B。[0111] S511,判断是否遍历所有点对,若是,则执行S512,否则,跳转执行S508。[0112] S512,基于匈牙利匹配算法完成矩阵B中点对的匹配。[0113] S513,对于相似度小于等于0.7的点对,以及为匹配上的点对,当前时刻的检测结果生成新的轨迹。[0114] S514,更新轨技数据,计算所有轨迹上次更新距离当前时刻的时间差。[0115] S515,判断时间差是否大于10,若是,则执行S516,否则,执行S517。[0116] S516,保留轨迹。[0117] S517,删除轨迹。[0118] S518,生成当前时刻的检测结果及跟踪结果。[0119] 综上,基于上述步骤对本申请实施例的说明,通过利用目标的运动特征、尺度特征以及外观特征作为依据进行目标的跟踪,两个模块之间级联有效降低了相邻帧之间目标尺度、外观、运动状态剧烈变化对跟踪器带来的影响,且上述特征均由数据和神经网络习得,减少了人工设计模型及调参的工作,可提高可显著提高联合检测与跟踪方法的性能。[0120] 根据本申请实施例的基于多维注意力机制的联合检测与跟踪方法,对当前帧的当前时刻图像进行特征提取与融合处理,生成原始特征图并生成解耦特征图,利用解耦特征执行预设检测任务和跟踪任务,获取当前帧的检测结果和跟踪目标特征,并根据当前帧的检测结果、跟踪目标特征和历史轨迹中的目标特征为输入,构建多特征级联跟踪器,生成最终的检测和跟踪结果。由此,解决了在联合检测和跟踪任务中不同尺度目标的跨时空提取问题以及在不同任务中的特征解耦等问题,通过构建多特征级联跟踪器,增强了跟踪算法在复杂场景中的鲁棒性。[0121] 其次参照附图描述根据本申请实施例提出的基于多维注意力机制的联合检测与跟踪装置。[0122] 图6是本申请实施例的基于多维注意力机制的联合检测与跟踪装置的方框示意图。[0123] 如图6所示,该基于多维注意力机制的联合检测与跟踪装置10包括:第一生成模块100、获取模块200和第二生成模块300。[0124] 其中,第一生成模块100用于对当前帧的当前时刻图像进行特征提取与融合处理,生成原始特征图;[0125] 获取模块200用于基于原始特征图,生成解耦特征图,并利用解耦特征执行预设检测任务和跟踪任务,获取当前帧的检测结果和跟踪目标特征;[0126] 第二生成模块300用于以当前帧的检测结果、跟踪目标特征和历史轨迹中的目标特征为输入,构建多特征级联跟踪器,生成最终的检测和跟踪结果。[0127] 进一步地,在一些实施例中,第一生成模块100,具体用于:[0128] 基于当前时刻图像进行下采样,得到多个初始特征图;[0129] 对多个输出特征图中的部分初始特征图进行反卷积的上采样,得到对应的上采样特征,并加和处理后,得到多个加和特征图;[0130] 对多个输出特征图和/或多个加和特征图进行通道注意力处理和位置注意力处理,得到多个注意力特征图;[0131] 对多个注意力特征图进行卷积与上采样处理,得到原始特征图。[0132] 进一步地,在一些实施例中,第二生成模块300,具体用于:[0133] 输入当前帧的检测结果和跟踪目标特征及历史轨迹中的目标特征;[0134] 对于每一个目标及历史轨迹中的每一个轨迹,考虑运动特征,生成第一成本矩阵,对第一成本矩阵进行点匹配,确定检测结果中已匹配上历史轨迹的第一集合与未匹配的第二集合及跟踪目标特征中已匹配上历史轨迹的第三集合与未匹配的第四集合;[0135] 对第二集合中每一个目标和第四集合中每一条轨迹,考虑运动特征,计算每一点对外观特征的相似度,生成第二成本矩阵,且对第二成本矩阵进行点匹配,确定检测结果中已匹配上历史轨迹的第五集合与未匹配的第六集合及跟踪目标特征中已匹配上历史轨迹的第七集合与未匹配的第八集合,并生成新的轨迹;[0136] 基于第一集合、第三集合、第五集合和第七集合的匹配成功的点更新目标跟踪轨迹,生成更新后的轨迹,并合并新的轨迹和更新后的轨迹,生成当前时刻的跟踪结果。[0137] 进一步地,在一些实施例中,基于第一集合、第三集合、第五集合和第七集合的匹配成功的点更新目标跟踪轨迹,生成更新后的轨迹,具体用于:[0138] 若当前时刻有匹配的检测结果,则基于相对应的目标或者轨迹中的相关信息进行更新;[0139] 若当前时刻没有匹配的检测结果,则计算距离上一时刻更新的时间差,其中,在时间差大于或等于预设阈值时进行删除,否则基于上一时刻进行更新。[0140] 进一步地,在一些实施例中,基于多维注意力机制的联合检测与跟踪装置10,具体用于:[0141] 从最终的检测和跟踪结果中提取至少一个展示特征,并基于至少一个展示特征进行可视化展示。[0142] 根据本申请实施例的基于多维注意力机制的联合检测与跟踪装置,对当前帧的当前时刻图像进行特征提取与融合处理,生成原始特征图并生成解耦特征图,利用解耦特征执行预设检测任务和跟踪任务,获取当前帧的检测结果和跟踪目标特征,并根据当前帧的检测结果、跟踪目标特征和历史轨迹中的目标特征为输入,构建多特征级联跟踪器,生成最终的检测和跟踪结果。由此,解决了在联合检测和跟踪任务中不同尺度目标的跨时空提取问题以及在不同任务中的特征解耦等问题,通过构建多特征级联跟踪器,增强了跟踪算法在复杂场景中的鲁棒性。[0143] 图7为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:[0144] 存储器701、处理器702及存储在存储器701上并可在处理器702上运行的计算机程序。[0145] 处理器702执行程序时实现上述实施例中提供的基于多维注意力机制的联合检测与跟踪方法。[0146] 进一步地,电子设备还包括:[0147] 通信接口703,用于存储器701和处理器702之间的通信。[0148] 存储器701,用于存放可在处理器702上运行的计算机程序。[0149] 存储器701可能包含高速RAM存储器,也可能还包括非易失性存储器(non‑volatilememory),例如至少一个磁盘存储器。[0150] 如果存储器701、处理器702和通信接口703独立实现,则通信接口703、存储器701和处理器702可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(IndustryStandardArchitecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(ExtendedIndustryStandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。[0151] 可选的,在具体实现上,如果存储器701、处理器702及通信接口703,集成在一块芯片上实现,则存储器701、处理器702及通信接口703可以通过内部接口完成相互间的通信。[0152] 处理器702可能是一个中央处理器(CentralProcessingUnit,简称为CPU),或者是特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。[0153] 本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的基于多维注意力机制的联合检测与跟踪方法。[0154] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。[0155] 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。[0156] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。[0157] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。[0158] 应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。[0159] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。[0160] 此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。[0161] 上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

专利地区:北京

专利申请日期:2022-03-24

专利公开日期:2024-07-26

专利公告号:CN114663812B


以上信息来自国家知识产权局,如信息有误请联系我方更正!
电话咨询
读内容
搜本页
回顶部