专利名称:基于自适应模态权重和跨模态学习的相关滤波跟踪方法
专利类型:发明专利
专利申请号:CN202211406680.8
专利申请(专利权)人:重庆大学
权利人地址:重庆市沙坪坝区正街174号
专利发明(设计)人:周明亮,赵鑫文,罗福婷,房斌,蒲华燕,罗均,向涛
专利摘要:本发明公开了一种基于自适应模态权重和跨模态学习的相关滤波跟踪方法,包括:利用加权的方式将提取的可见光图像特征和红外图像特征融合,得到融合模态特征;将融合模态特征、热红外模态特征和可见光模态特征作为输入,构造具有相关滤波器的目标函数;利用ADMM算法求解目标函数最优解,获得相关滤波器参数,并对目标搜索区域中目标进行定位,得到各模态目标位置响应图;寻找目标位置响应图中最大值点的位置,得到目标跟踪结果;根据目标跟踪结果对相关滤波器参数进行更新,并继续后续跟踪。本发明充分发挥多模态的互补优势,有效克服背景杂波和部分遮挡等问题,提升跟踪效果。
主权利要求:
1.一种基于自适应模态权重和跨模态学习的相关滤波跟踪方法,其特征在于,包括:获取视频序列,在对相关滤波器的每轮训练中,使用当前帧下带目标的可见光图像及其红外图像,根据标注信息确定目标位置,并构造目标初始位置响应图;
利用特征提取网络提取可见光图像及其红外图像目标搜索区域的深层特征、颜色特征及手工特征,得到可将光模态特征和热红外模态特征;
将提取的可见光图像特征和红外图像特征利用加权的方式融合,得到融合模态特征;
将融合模态特征、热红外模态特征和可见光模态特征作为输入,构造具有自适应模态权重和交叉模态学习的相关滤波器的目标函数;相关滤波器的目标函数的构造过程包括:通过相关滤波器输出的目标位置响应图逼近期望目标位置程度,学习相关滤波器参数,获得重建部分目标函数E1,重建部分目标函数E1形式为可见光、热红外和融合三种模态的期望相关响应与相关滤波器输出差值的加权和;
利用先验滤波器和惩罚项分别对时空正则化项和边缘效应进行抑制,构造时空正则化部分目标函数E2;
利用融合模态作为中间辅助变量,学习模态一致性,构造多模态一致性部分目标函数E3,多模态一致性部分目标函数E3由可见光模态、热红外模态分别与融合模态的距离之和构成;
将目标函数E1、E2和E3相加,优化得到最终的目标函数;
利用ADMM算法求解目标函数最优解,获得相关滤波器参数,并对目标搜索区域中目标进行定位,得到各模态目标位置响应图;
寻找目标位置响应图中最大值点的位置,得到目标跟踪结果;
根据目标跟踪结果对相关滤波器参数进行更新,直至满足训练需求;
利用训练好的相关滤波器进行后续跟踪。
2.根据权利要求1所述的一种基于自适应模态权重和跨模态学习的相关滤波跟踪方法,其特征在于,所述融合模态特征的表达式为:I(3)=LN(δ(w(I(1),I(2))))
其中,I(1)表示可见光模态特征;I(2)表示热红外模态特征;I(3)表示融合模态特征,其作为用于抑制噪声和提高各模态特征学习能力的辅助模态;LN表示层归一化;W表示权重和,用于调整前后两项的权值;δ表示Relu激活函数。
3.根据权利要求1所述的一种基于自适应模态权重和跨模态学习的相关滤波跟踪方法,其特征在于,重建部分目标函数E1的表达式为:其中, 表示期望相关响应,通过目标初始位置响应图获得, 表示响应向量空间,T表示响应向量的长度; 表示向量化图像; 表示向量化滤波器的第d个通道;D表示特征通道数;F=[f1,f2,...,fD],表示相关过滤器的矩阵;λ1,λ2表示正则化参数,e表示空间相关算子; 表示对角二元矩阵,其为了加强对正样本和负样本的学习, 表示对角二元矩阵的向量空间;m表示不同的模态,包括可见光模态、热红外模态和融合模态; 表示向量化滤波器的第d个通道和第m个模态; 表示向量化图像的第md个通道和第m个模态;α表示不同模态的重建可靠性权重。
4.根据权利要求3所述的一种基于自适应模态权重和跨模态学习的相关滤波跟踪方法,其特征在于,时空正则化部分目标函数E2的表达式为:m
其中,w 表示第m个空间权重向量,此惩罚项用于抑制边缘效应;τ和λ表示正则化参数;
表示(t‑1)帧滤波器;⊙表示哈达玛积。
5.根据权利要求3所述的一种基于自适应模态权重和跨模态学习的相关滤波跟踪方法,其特征在于,多模态一致性部分目标函数E3的表达式为:其中,κ表示正则化参数;S=1表示可见光模态与融合模态之间的距离;S=2表示热红外模态与融合模态之间的距离;上式表示利用融合模态作为中间模态调节滤波器的学习,以避免滤波器直接从两种模态中学习所引起的错误。
6.根据权利要求3所述的一种基于自适应模态权重和跨模态学习的相关滤波跟踪方法,其特征在于,最终的目标函数的表达式为:其中, 分别
表示滤波器和空间正则化的矩阵。
7.根据权利要求1所述的一种基于自适应模态权重和跨模态学习的相关滤波跟踪方法,其特征在于,所述对目标搜索区域中目标进行定位,得到各模态目标位置响应图,包括:在任意一帧图像的目标搜索区域中,删除用于辅助相关滤波器学习的融合模态,仅利用可见光模态和热红外模态定位目标;
结合学习后的对应的相关滤波器与该目标搜索区域中相应类型的特征进行卷积操作,得到各模态目标位置响应图,各模态目标位置响应图如下式表示:m
其中,R 和 分别表示模态m的响应图及其傅里叶变换; 表示辅助变量矩阵;符号^表示给定信号的离散傅里叶变换形式。
8.根据权利要求1所述的一种基于自适应模态权重和跨模态学习的相关滤波跟踪方法,其特征在于,所述根据目标跟踪结果对相关滤波器参数进行更新,包括:计算每个模态下目标位置响应图的APCE系数,在模型的置信度较高时增加该模态权重,减少不可靠模态的权重,并且仅在APCE系数高于其历史值时,对模态权重进行更新。
9.根据权利要求8所述的一种基于自适应模态权重和跨模态学习的相关滤波跟踪方法,其特征在于,模态权重的计算公式为:m
其中,Ψ(表示从APCE到模态权重的变换,APCE表示m模态下目标位置响应图的APCE系数;
各个模态的APCE系数的计算公式为:
其中,APCE表示响应图的波动程度和目标的置信水平; ‑表示第m个模态目标位置响应图的最大值; 表示第m个模态目标位置响应图的最小值;t1表示目标位置响应图R的行数;t2表示目标位置响应图R的列数; 表示第m个模态目标位置响应图中t1行t2列的值;
目标外观模型的更新公式为:
其中,t和t‑1表示第t帧和第t‑1帧;ξ表示目标外观模型的学习率; 表示第m个模态在第t帧学习到的外观模型; 表示第m个模态在第t帧更新得到的目标外观模型。 说明书 : 基于自适应模态权重和跨模态学习的相关滤波跟踪方法技术领域[0001] 本发明涉及多目标跟踪技术领域,更具体的说是涉及一种基于自适应模态权重和跨模态学习的相关滤波跟踪方法。背景技术[0002] 多目标跟踪任务是计算机视觉中的一个基础性问题,广泛应用于智能监控、自动驾驶和公共安全等领域。大多数的RGB‑T追踪方法都基于稀疏表示理论。虽然这些方法在抑制噪声上取得了很好的效果,但仍面临着以下问题:在处理目标形变和杂乱背景等情况时往往无法取得令人满意的效果。[0003] 目前,相关滤波器方法在可见光跟踪领域获得了稳健的跟踪效果,大多数多模态相关滤波模型可视为单模态相关滤波模型的扩展,即热红外特征直接通过加和融合的方式参与模型的训练。然而,在这些模型中,各个模态特征的特异性和互补性并没有得到充分的利用,也没有考虑单个模态失效对跟踪和定位的影响。因此这些跟踪器的性能受到两个因素的影响:多模态信息融合和模态可靠性权重的确定。首先,RGB和红外信号的特殊性导致将热红外信息作为RGB的一个通道或直接连接其特征可能无法充分发挥多种模态的互补优势。其次,由于可见光和热红外特征的差异性,直接将两者加权作为训练样本会使得跟踪器难以处理两种模态的巨大差异,造成跟踪性能的下降。此外,模态的固定权重也会造成跟踪器在单一模态特征失真条件下(高温或黑暗)难以剔除噪声干扰的问题,从而降低模型的鲁棒性。发明内容[0004] 有鉴于此,本发明提供了一种基于自适应模态权重和跨模态学习的相关滤波跟踪方法,充分发挥多模态的互补优势,有效克服背景杂波和部分遮挡等问题,提升跟踪效果。[0005] 为了实现上述目的,本发明采用如下技术方案:[0006] 一种基于自适应模态权重和跨模态学习的相关滤波跟踪方法,包括:[0007] 获取视频序列,在对相关滤波器的每轮训练中,使用当前帧下带目标的可见光图像及其红外图像,根据标注信息确定目标位置,并构造目标初始位置响应图;[0008] 利用特征提取网络提取可见光图像及其红外图像目标搜索区域的深层特征、颜色特征及手工特征,得到可将光模态特征和热红外模态特征;[0009] 将提取的可见光图像特征和红外图像特征利用加权的方式融合,得到融合模态特征;[0010] 将融合模态特征、热红外模态特征和可见光模态特征作为输入,构造具有自适应模态权重和交叉模态学习的相关滤波器的目标函数;[0011] 利用ADMM算法求解目标函数最优解,获得相关滤波器参数,并对目标搜索区域中目标进行定位,得到各模态目标位置响应图;[0012] 寻找目标位置响应图中最大值点的位置,得到目标跟踪结果;[0013] 根据目标跟踪结果对相关滤波器参数进行更新,直至满足训练需求;[0014] 利用训练好的相关滤波器进行后续跟踪。[0015] 进一步的,所述融合模态特征的表达式为:[0016] I(3)=LN(δ(W(I(1),I(2))))[0017] 其中,I(1)表示可见光模态特征;I(2)表示热红外模态特征;I(3)表示融合模态特征,其作为用于抑制噪声和提高各模态特征学习能力的辅助模态;LN表示层归一化;W表示权重和,用于调整前后两项的权值;δ表示Relu激活函数。[0018] 进一步的,相关滤波器的目标函数的构造过程包括:[0019] 通过相关滤波器输出的目标位置响应图逼近期望目标位置程度,学习相关滤波器参数,获得重建部分目标函数E1,重建部分目标函数E1形式为可见光、热红外和融合三种模态的期望相关响应与相关滤波器输出差值的加权和;[0020] 利用先验滤波器和惩罚项分别对时空正则化项和边缘效应进行抑制,构造时空正则化部分目标函数E2;[0021] 利用融合模态作为中间辅助变量,学习模态一致性,构造多模态一致性部分目标函数E3,多模态一致性部分目标函数E3由可见光模态、热红外模态分别与融合模态的距离之和构成;[0022] 将目标函数E1、E2和E3相加,优化得到最终的目标函数。[0023] 进一步的,重建部分目标函数E1的表达式为:[0024][0025] 其中, 表示期望相关响应,通过目标初始位置响应图获得, 表示响应向量空间,T表示响应向量的长度; 表示向量化图像; 表示向量化滤波器的第d个通道;D表示特征通道数;F=[f1,f2,...,fD],表示相关过滤器的矩阵;λ1,λ2表示正则化参数,e表示空间相关算子; 表示对角二元矩阵,其为了加强对正样本和负样本的学习, 表示对角二元矩阵的向量空间;m表示不同的模态,包括可见光模态、热红外模态和融合模态; 表示向量化滤波器的第d个通道和第m个模态; 表示向量化图像m的第d个通道和第m个模态;α表示不同模态的重建可靠性权重。[0026] 进一步的,时空正则化部分目标函数E2的表达式为:[0027][0028] 其中,wm表示第m个空间权重向量,此惩罚项用于抑制边缘效应;τ和λ表示正则化参数; 表示(t‑1)帧滤波器;⊙表示哈达玛积。[0029] 进一步的,多模态一致性部分目标函数E3的表达式为:[0030][0031] 其中,κ表示正则化参数;S=1表示可见光模态与融合模态之间的距离;S=2表示热红外模态与融合模态之间的距离;上式表示利用融合模态作为中间模态调节滤波器的学习,以避免滤波器直接从两种模态中学习所引起的错误。[0032] 进一步的,最终的目标函数的表达式为:[0033][0034] 其中,分别表示滤波器和空间正则化的矩阵。[0035] 进一步的,所述对目标搜索区域中目标进行定位,得到各模态目标位置响应图,包括:[0036] 在任意一帧图像的目标搜索区域中,删除用于辅助相关滤波器学习的融合模态,仅利用可见光模态和热红外模态定位目标;[0037] 结合学习后的对应的相关滤波器与该目标搜索区域中相应类型的特征进行卷积操作,得到各模态目标位置响应图,各模态目标位置响应图如下式表示:[0038][0039] 其中,Rm和 分别表示模态m的响应图及其傅里叶变换; 表示辅助变量矩阵;符号^表示给定信号的离散傅里叶变换形式。[0040] 进一步的,所述根据目标跟踪结果对相关滤波器参数进行更新,包括:[0041] 计算每个模态下目标位置响应图的APCE系数,在模型的置信度较高时增加该模态权重,减少不可靠模态的权重,并且仅在APCE系数高于其历史值时,对模态权重进行更新。[0042] 进一步的,模态权重的计算公式为:[0043][0044] 其中,Ψ表示从APCE到模态权重的变换,APCEm表示m模态下目标位置响应图的APCE系数;[0045] 各个模态的APCE系数的计算公式为:[0046][0047] 其中, 表示第m个模态目标位置响应图的最大值; 表示第m个模态目标位置响应图的最小值;t1表示目标位置响应图R的行数;t2表示目标位置响应图R的列数;表示第m个模态目标位置响应图中t1行t2列的值;[0048] 目标外观模型的更新公式为:[0049][0050] 其中,t和t‑1表示第t帧和第t‑1帧;ξ表示目标外观模型的学习率; 表示第m个模态在第t帧学习到的外观模型; 表示第m个模态在第t帧更新得到的目标外观模型。[0051] 经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于自适应模态权重和跨模态学习的相关滤波跟踪方法,利用加权激活来融合热红外和可见光模态获得融合模态特征,融合模态在保证热红外模态和可见光模态信息共享的同时保留了其形态特异性。通过交互式跨模态学习,令融合模态作为联合学习一致性的中间辅助模态,使用优化滤波器相似度和时空惩罚项的基本原理学习规避不同模态特性的影响,进一步优化滤波器的学习。在此过程中,通过APCE系数反映各个模态的响应图的波动程度和目标的置信水平,并据此更新各模态在目标函数中的权重,提高了模型的鲁棒性。整体而言,由于相关滤波器的跟踪效果很容易受到图像表征的影响,在多模态输入的情况下,需要动态调节各模态的权重来保证跟踪器的性能,本发明可充分发挥多模态的互补优势,有效克服背景杂波和部分遮挡等问题,提升跟踪效果。附图说明[0052] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。[0053] 图1为本发明提供的基于自适应模态权重和跨模态学习的相关滤波跟踪方法的流程图。具体实施方式[0054] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0055] 如图1所示,本发明实施例公开了一种基于自适应模态权重和跨模态学习的相关滤波跟踪方法,包括以下步骤:[0056] S1、获取视频序列,在对相关滤波器的每轮训练中,使用当前帧下带目标的可见光图像及其红外图像,根据标注信息确定目标位置,并构造目标初始位置响应图;[0057] S2、利用特征提取网络提取可见光图像及其红外图像目标搜索区域的深层特征、颜色特征及手工特征,得到可将光模态特征和热红外模态特征;[0058] S3、将提取的可见光图像特征和红外图像特征利用加权的方式融合,得到融合模态特征;[0059] S4、将融合模态特征、热红外模态特征和可见光模态特征作为输入,构造具有自适应模态权重和交叉模态学习的相关滤波器的目标函数;[0060] S5、利用ADMM算法求解目标函数最优解,获得相关滤波器参数,并对目标搜索区域中目标进行定位,得到各模态目标位置响应图;[0061] 在目标跟踪中,第一帧是标注出了要跟踪目标的区域的,利用这个区域构造初始响应图,滤波器利用初始位置响应图进行训练,然后得到此帧的响应图,这里的目标位置响应图是滤波器作用于原图像上的结果,而初始位置响应图为跟踪开始时必须要提供的信息。[0062] S6、寻找目标位置响应图中最大值点的位置,得到目标跟踪结果;[0063] S7、根据目标跟踪结果对相关滤波器参数进行更新,直至满足训练需求;[0064] S8、利用训练好的相关滤波器进行后续跟踪。[0065] 具体而言,S3中,所述融合模态特征的表达式为:[0066] I(3)=LN(δ(W(I(1),I(2))))[0067] 其中,I(1)表示可见光模态特征;I(2)表示热红外模态特征;I(3)表示融合模态特征,其作为用于抑制噪声和提高各模态特征学习能力的辅助模态;LN表示层归一化;W表示权重和,用于调整前后两项的权值;δ表示Relu激活函数。[0068] 在一个实施例中,S4中,将融合模态、热红外模态和可见光模态特征输入具有自适应模态权重和交叉模态学习的相关滤波器,将相关滤波器扩展到多模态条件,该步骤中,相关滤波器的目标函数的构造过程包括:[0069] S41、通过相关滤波器输出的目标位置响应图逼近期望目标位置程度,学习相关滤波器参数,获得重建部分目标函数E1,重建部分目标函数E1形式为可见光、热红外和融合三种模态的期望相关响应与相关滤波器输出差值的加权和;重建部分目标函数E1的表达式为:[0070][0071] 其中, 表示期望相关响应,通过目标初始位置响应图获得, 表示响应向量空间,T表示响应向量的长度; 表示向量化图像; 表示向量化滤波器的第d个通道;D表示特征通道数;F=[f1,f2,...,fD],表示相关过滤器的矩阵;λ1,λ2表示正则化参数,e表示空间相关算子; 表示对角二元矩阵,其为了加强对正样本和负样本的学习, 表示对角二元矩阵的向量空间;m表示不同的模态,包括可见光模态、热红外模态和融合模态; 表示向量化滤波器的第d个通道和第m个模态; 表示向量化图像的第md个通道和第m个模态;α表示不同模态的重建可靠性权重。本发明实施例中的向量化是一个展平操作,把图像(RGB)三维张量沿着一个维度展开就好了,是相关滤波通用的操作。[0072] S42、利用先验滤波器和惩罚项分别对时空正则化项和边缘效应进行抑制,构造时空正则化部分目标函数E2;时空正则化部分目标函数E2的表达式为:[0073][0074] 其中,wm表示第m个空间权重向量,此惩罚项用于抑制边缘效应;τ和λ表示正则化参数; 表示(t‑1)帧滤波器;⊙表示哈达玛积。[0075] S43、利用融合模态作为中间辅助变量,学习模态一致性,构造多模态一致性部分目标函数E3,多模态一致性部分目标函数E3由可见光模态、热红外模态分别与融合模态的距离之和构成;多模态一致性部分目标函数E3的表达式为:[0076][0077] 其中,κ表示正则化参数;S=1表示可见光模态与融合模态之间的距离;S=2表示热红外模态与融合模态之间的距离;上式表示利用融合模态作为中间模态调节滤波器的学习,以避免滤波器直接从两种模态中学习所引起的错误。[0078] S44、将目标函数E1、E2和E3相加,优化得到最终的目标函数,表达式为:[0079][0080] 其中,分别表示滤波器和空间正则化的矩阵。[0081] 在一个实施例中,S5包括:[0082] S51、在任意一帧图像的目标搜索区域中,删除用于辅助相关滤波器学习的融合模态,仅利用可见光模态和热红外模态定位目标;[0083] S52、结合学习后的对应的相关滤波器与该目标搜索区域中相应类型的特征进行卷积操作,得到各模态目标位置响应图,各模态目标位置响应图如下式表示:[0084]m[0085] 其中,R 和 分别表示模态m的响应图及其傅里叶变换; 表示辅助变量矩阵;符号^表示给定信号的离散傅里叶变换形式。[0086] 在一个实施例中,S7包括:[0087] 计算每个模态下目标位置响应图的APCE系数,在模态的置信度较高时增加该模态权重,减少不可靠模态的权重,并且仅在APCE系数高于其历史值时,对模态权重进行更新。本实施例中滤波器参数和原图像相关得到响应图,因为有两个模态(RGB和热红外),所以会得到两张响应图,需要把这两张响应图合成一张响应图,需要利用模态权重来对两个响应图加权融合在一起。[0088] 其中,各个模态的APCE系数的计算公式为:[0089][0090] 其中,APCE表示响应图的波动程度和目标的置信水平; 表示第m个模态目标位置响应图的最大值; 表示第m个模态目标位置响应图的最小值;t1表示目标位置响应图R的行数;t2表示目标位置响应图R的列数; 表示第m个模态目标位置响应图中t1行t2列的值;[0091] 模态权重的计算公式为:[0092][0093] 其中,Ψ表示从APCE到模态权重的变换,APCEm表示m模态下目标位置响应图的APCE系数;[0094] 目标外观模型的更新公式为:[0095][0096] 其中,t和t‑1表示第t帧和第t‑1帧;ξ表示目标外观模型的学习率; 表示第m个模态在第t帧学习到的外观模型; 表示第m个模态在第t帧更新得到的目标外观模型。[0097] 本发明实施例中,在滤波器的训练阶段,目标外观模型也按照固有的策略进行更新,滤波器训练过程的参数更新没有关系,只是简单的对前面目标外观模型的一个综合,会一帧更新一次。应用阶段是直接使用这个目标外观模型即可。[0098] 在对滤波器的训练阶段,输入的是视频,也就是图片的序列,每一帧用到的滤波器实际上是上一帧训练好的滤波器,这一帧继续训练滤波器供给下一帧使用直到视频结束。这里也是同理,此帧的外观更新也需要融合前面多帧的信息。[0099] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。[0100] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
专利地区:重庆
专利申请日期:2022-11-10
专利公开日期:2024-09-03
专利公告号:CN115760914B