专利名称:一种开放空间的行人换装重识别方法
专利类型:发明专利
专利申请号:CN202011423457.5
专利申请(专利权)人:浙江科技学院
权利人地址:浙江省杭州市留和路318号
专利发明(设计)人:钱亚冠,王滨,陶祥兴,关晓惠,孙安临,王星,张峰
专利摘要:本发明属于计算机视觉技术领域,公开了一种开放空间中的行人换装重识别方法,提出一种新的深度神经网络架构HigherHRNetXt用于识别换装后的目标人物。本发明基于动态优化的思想,采用动态时间规整算法寻求行人骨骼关键点序列间的距离,将关键点检测应用于行人重识别,完成对同一行人的匹配;使用ResNeXt网络结构改进姿态估计模型,使其参数量减少15%,同时性能获得有效提升;提取行人的生理特征,这使得其在现实开放世界中的可用性大幅度提高。实验表明,本发明提供的方法在面对行人换装问题时表现良好,优于绝大多数现有的行人重识别模型。
主权利要求:
1.一种开放空间下行人换装重识别方法,其特征在于,所述开放空间下行人换装重识别方法包括:基于改进后姿态估计模型网络结构,采用动态时间规整算法寻求行人骨骼关键点序列间的距离,将关键点检测应用于行人重识别,完成对同一行人的匹配;
所述动态时间规整算法DTW采用动态规划的思想,求解两长度相等或不等的时间序列x1,x2之间的最小距离;对DTW设置的约束条件包括:(1)两个时间序列Q={q1,q2,···,qn},L={l1,l2,···,lm},Q,L序列间元素的欧氏距离记为dij=d(qi,lj),1≤i≤n,1≤j≤m,构造Q,L距离矩阵M如下:设矩阵M的规整路径W=w1,w2,w3,···,wk,···,wK,K的取值范围为max(m,n)≤K≤m+n‑1;W未知,满足以下基本约束:
1)边界约束,规定d11和dnm分别为规整路径的起始点和终点;
2)路径连续性,路径点搜索过程中,不允许跨点搜索,若Wk=(di·,dj·),则下一次搜索路径Wk+1=(d′i·,d'j·)需满足d′i·‑di·≤1,d'j·‑dj·≤1;
3)路径单调性,在2)假设的基础上,同时满足d′i·‑di·≥0,d'j·‑dj·≥0;
上述约束条件1)、2)、3)下,当前搜索格点为(a,b),则下一次通过的格点只能是(a‑1,b),(a,b‑1),(a‑1,b‑1)其中一个;同时符合下式:优化求解上式获得使Q,L匹配距离最规整的路径,同时计算累计距离:
D(a,b)=min{D(a‑1,b),D(a,b‑1),D(a‑1,b‑1)}+d(a,b);
(2)设置DTW的搜索空间的搜索边界,将距离矩阵M投影到笛卡尔坐标系中,即可视化边界约束;
且所述DTW的搜索空间:
代表矩阵M中的元素,约束窗口的宽度w=max(M,N)/2;
(3)止损策略,故设置序列间匹配累计距离阈值υ;在DTW路径搜索过程中,两序列间累计距离D≥υ,匹配终止;
(4)度量:匹配距离D∈[0,+∞],将距离D放缩,定义符合需求的时间序列相似性度量指标I,u,v序列间相似度I如下式:其中,n为时间序列的特征维数,I∈[0,1]。
2.如权利要求1所述的开放空间下行人换装重识别方法,其特征在于,所述开放空间下行人换装重识别方法进一步包括:以姿态估计模型为基础,获得人物骨骼关键点热图,使用动态时间规整DTW算法寻求多个骨骼关键点序列与模板序列的最小匹配距离,度量序列间相似度,实现对换装前后的人物重识别。
3.如权利要求1所述的开放空间下行人换装重识别方法,其特征在于,对网络进行改进的方法包括:ResNeXt结构以组卷积的方式,使卷积网络在不增加深度和宽度,只改变基数,并减少网络参数总量; C为基数,代表一个模块中相同分支的数目,Ti(x)为第i个相同拓扑结构的分支;改进后的网络为HigherHRNetXt。
4.如权利要求1所述的开放空间下行人换装重识别方法,其特征在于,待查询目标为S,关于S的初始查询图像为连续帧,即Xs(t)={X1,X2,X3···,Xt},t≥C,Xt为S的第t帧图像,Xs(t)为S的初始查询信息,C为视频帧率;
将姿态估计模型记为函数G(x),输出为关键点序列Y,A处获得待查询人物S初始查询信息:Xs(t)={X1,X2,X3···,Xt},t≥C;经过一段时间T∈[0,+∞]后,B处获得疑似查询人物f的查询信息:Zf(t)={Z1,Z2,Z3···,Zt},t≥C;则分别带入G(x),可得S和f的骨骼关键点序列信息:YA=G(Xs(t)),YB=G(Xf(t));
求解DTW(YA,YB)的最小匹配距离D∈[0,+∞],若D值越小,则YA,YB越相似,概率值Ρ(f=S)越大;反之YA,YB越不相似,概率值Ρ(f=S)越小。
5.一种实施如权利要求1~4任意一项所述开放空间下行人换装重识别方法的开放空间下行人换装重识别系统,其特征在于,所述开放空间下行人换装重识别系统包括:
1)HigherHRNetXt行人特征信息获取模块,用ResNeXt结构替换HigherHRNet中的部分残差块,改进后的网络记为HigherHRNetXt,使用此网络提取行人骨骼关键点特征信息;
2)行人重识别模块,将行人特征向量间的距离求解看作优化问题,基于动态优化的思想采用动态时间规整算法去寻求行人骨骼关键点时序特征间的距离,度量行人相似性,完成对同一行人的匹配。 说明书 : 一种开放空间的行人换装重识别方法技术领域[0001] 本发明属于计算机视觉技术领域,尤其涉及开放空间下的行人换装重识别方法。背景技术[0002] 目前,随着深度学习的兴起,图像识别技术获得了长足的进步,其识别准确率甚至已超过人类视觉。行人重识别(PersonRe‑identification)是计算机视觉的一个重要应用,它突破了单个摄像头的时空局限,在多个不同视角下检索同一目标人物,实现对目标人物的跨摄像头追踪。因此,它可以用于嫌疑人物的轨迹还原,丢失儿童的寻找等,在公共安全、智能安防等领域具有极大的应用前景。[0003] 行人重识别领域一直是计算机视觉领域的研究热点,但其中行人换装条件下的重识别问题还未引起研究人员的足够重视。目前作为基准的行人重识别数据集,如ReID‑Market1501,CUHK03,DukeMTMC‑ReID等在多个视角下出现的同一人物,其服饰没有发生变化。在现实开放空间中,嫌疑人物可能通过换装手段来逃避摄像头的跟踪。行人换装后,其图像信息将发生极大的改变,使得基于上述数据集训练的模型在换装条件下的性能远远低于数据集上的测试结果。[0004] DG‑Net模型含有一个生成模块,该生成模块将每个行人分别编码为外观编码和结构编码,然后不同行人之间交换外观编码和结构编码,从而使模型学到同一行人的不同属性特征,提高模型的性能。DG‑Net模型虽学到了同一行人的不同属性特征,但依旧无法有效应对行人换装重识别,因为其学到的仍旧是行人的表观信息,同样的还有ReIDCaps模型。基于深度图的行人重识别模型在一定程度上可以应对行人换装重识别,但目前已有的数据集RGB‑D体量较小(包含79个行人身份,每个行人有一两件不同的衣服),难以满足高性能深度模型的需求。而且,捕捉带有深度信息的图像需要特殊的设备,不适合大规模部署。近期部分研究从新的角度出发,提取行人的身体轮廓特征作为重识别的根据,其中现有文献中的模型在其数据集PRCC上取得34.38%的Rank1准确率,现有文献中的模型在其测试数据集Div‑Market上取得56.2%的Rank1准确率;基于行人身体轮廓特征的行人重识别模型在一定程度上能够应对行人换装问题,但是这种方法需要一个高精度的分割器从图像中分割出行人的身体轮廓,当人物服饰颜色与背景相似时这并不是容易的事,而且这种方法假定行人的身体轮廓短时间内不会发生变化,仅仅改变的是衣服颜色。但是,这种假设也很难成立,因为行人换一件衣服其身体轮廓就可能被改变了,比如连衣裙换为长裤。现有文献利用无线电信号收集行人的特征信息,以此作为行人重识别的根据,收集到的行人特征不包含颜色信息,故能应对行人换装问题。但发射或接受无线电信号需要特定的设备,大面积装备不现实。[0005] 一个人的身份通常由他的生理特征决定,如容貌、身高等,而不是表观特征,如衣服、鞋子、发型等。解决行人换装重识别问题的关键是迫使模型学习行人不易伪装或改变的生理特征,而不是衣服颜色等表观特征。然而,这里仍然有一些挑战。挑战一:部分生理特征容易被人为伪装欺骗模型,如容貌,身体轮廓等。面容特征虽不易改变,却受限于摄像头的分辨率高低,或者通过戴口罩等方式伪装;行人身体轮廓通常不会发生显著的改变,但具有挑战的是如何高精度的分割出人物轮廓,当人物手里拿包,或是外套时,外套和包极有可能被模型判断为行人身体轮廓的一部分。挑战二:缺乏大型的相关数据集,尤其是包含换衣属性的视频序列集,这是限制深度学习技术解决行人换装重识别的主要原因。目前已有中小型行人换装的重识别数据集PRCC,SMPL‑reID、DivMarket,VC‑Clothes,Celeb‑reID,Celebrities‑reID,但这些数据集很难作为基准数据集,一是体量不够,难以满足高性能模型的需求;二是大多数数据集是计算机虚拟合成的或取自于互联网的,相比之下较为理想的数据集PRCC,但其拍摄场景都是室内,背景较为简单。补充数据集困难重重,大型行人换装数据集的采集会消耗大量人力物力,而且这会涉及到了个人隐私问题,许多国家将隐私安全视为国家战略的一部分。[0006] 通过上述分析,现有技术存在的问题及缺陷为:[0007] (1)现有行人重识别模型识别行人身份时过度依赖服饰颜色等特征信息,当行人换装后,其图像信息将发生极大的改变,因此基于现有数据集训练的模型在换装条件下的实验性能远远低于数据集上的测试结果。[0008] (2)但目前已有的数据集RGB‑D体量较小,基于深度图的行人重识别模型难以满足高性能深度模型的需求。而且,捕捉带有深度信息的图像需要特殊的设备,不适合大规模部署。[0009] (3)现有方法需要一个高精度的分割器从图像中分割出行人的身体轮廓,当人物服饰颜色与背景相似时这并不是容易的事。而且这种方法假定行人的身体轮廓短时间内不会发生变化,仅仅改变的是衣服颜色,假设也很难成立。[0010] (4)现有文献利用无线电信号收集行人的特征信息,但发射或接受无线电信号需要特定的设备,大面积装备不现实。[0011] (5)目前已有中小型行人换装的重识别数据集很难作为基准数据集,一是体量不够,难以满足高性能模型的需求;二是大多数数据集是计算机虚拟合成的或取自于互联网的,相比之下较为理想的数据集PRCC,但其拍摄场景都是室内,背景较为简单。[0012] 解决以上问题及缺陷的难度为:[0013] 问题(1)、(5)都是缺乏大型换装行人重识别数据集所导致,而生产大型数据集困难重重,大型行人换装数据集的采集会消耗大量人力物力,而且这会涉及到了个人隐私问题,许多国家将公民隐私安全视为国家战略的一部分。(2)、(4)由于其高昂的装备费用及相关技术使其推广受到制约。问题(3)中的模型由于其选取的特征具有不稳定性,在实际应用中难有理想的效果。[0014] 以上问题由于涉及隐私、财力消耗大、特征信息不可靠等因素而使得问题的解决变得异常困难,必须寻求一种不涉及过多隐私、财力消耗小、特征信息可靠的解决方案应对以上问题。[0015] 解决以上问题及缺陷的意义为:[0016] 行人重识别在公共安全、智能安防等领域具有重大意义,但现在的研究还停留在理想条件下,而行人重识别产业的落地是迫在眉睫的,以上问题的存在都严重阻碍了行人重识别的推广应用,尤其是使得行人换装重识别无法突破,直接或间接的解决以上问题都将对行人重识别产业的落地做出重大贡献。发明内容[0017] 针对现有技术存在的问题,本发明提供了一种行人换装重识别方法、系统、终端、存储介质及摄像头,具体涉及一种开放空间下行人换装重识别方法。[0018] 本发明是这样实现的,一种开放空间下行人换装重识别方法,所述开放空间下行人换装重识别方法包括以下步骤:[0019] 步骤一,基于姿态估计模型提取行人骨骼关键点特征信息,根据视频连续帧生成行人的身份信息。[0020] 步骤二,对已有超高检测精度的自下而上姿态估计模型网络Higher‑HRNet进行残差块改造,基于ResNeXt替换网络中残差块。[0021] 步骤三,将行人身份特征向量间距离求解看做优化问题,基于动态规划思想采用DTW求解。[0022] 步骤四,使用优化组合策略,从DTW搜索范围、终止条件优化DTW算法,降低算法的计算复杂度。[0023] 进一步,所述开放空间下行人换装重识别方法以姿态估计模型为基础,获得人物骨骼关键点热图,使用动态时间规整(DynamicTimeWarping,简记DTW)算法寻求多个骨骼关键点序列与模板序列的最小匹配距离,度量序列间相似度,实现对换装前后的人物重识别。[0024] 进一步,所述开放空间下行人换装重识别方法简记为HigherHRNetXt‑DTW,有以下假设条件:[0025] 设待查询目标为S,关于S的初始查询图像为连续帧,即Xs(t)={X1,X2,X3…,Xt},t≥C,Xt为S的第t帧图像,Xs(t)为S的初始查询信息,C为视频帧率。[0026] 定义:将姿态估计模型记为函数G(x),输出为关键点序列Y,A处获得待查询人物S初始查询信息:Xs(t)={X1,X2,X3…,Xt},t≥C;经过一段时间T∈[0,+∞]后,B处获得疑似查询人物f的查询信息:Zf(t)={Z1,Z2,Z3…,Zt},t≥C。则分别带入G(x),可得S和f的骨骼关键点序列信息:YA=G(Xs(t)),,YB=G(Xf(t))。[0027] 求解DTW(YA,YB)的最小匹配距离D∈[0,+∞],若D值越小,则YA,YB越相似,概率值P(f=S)越大;反之YA,YB越不相似,概率值P(f=S)越小。[0028] 进一步,为兼顾实时性所述开放空间下行人换装重识别方法选择自下而上的模型;同时,由于监控视频中的行人往往占据很少的像素数,故选择对小尺度敏感的更高分辨率网络‑‑HigherHRNet作为基础框架。[0029] 进一步,步骤二中,所述对HigherHRNet网络进行改进的方法为:[0030] HigherHRNet拥有非常庞大的参数量和浮点计算次数,卷积层超过300层,且众多残差块堆叠。有文献表明ResNeXt结构要优于残差块结构,且组卷积拥有更小的参数量,因此,我们使用ResNeXt模块改进HigherHRNet,将改进后的网络记为HigherHRNetXt。[0031] ResNeXt结构:ResNeXt是对网络残差块卷积结构的一种改进,它以组卷积的方式,使得卷积网络在不增加深度和宽度,只改变基数的前提下提升网络性能,并减少网络参数总量。 C为基数,代表一个模块中相同分支的数目,Ti(x)为第i个相同拓扑结构的分支。[0032] 网络结构:改进后的网络记为HigherHRNetXt。[0033] 进一步,步骤三中,所述动态时间规整DTW采用动态规划的思想求解两长度相等或不等的时间序列x1,x2之间的最小距离。[0034] 定义:假定两个时间序列Q={q1,q2,…,qn},L={l1,l2,…,lm},Q,L序列间元素的欧氏距离记为dij=d(qi,lj),1≤i≤n,1≤j≤m,可构造Q,L距离矩阵M如下:[0035][0036] 设矩阵M的规整路径W=w1,w2,w3,…,wk,…,wK,K的取值范围为max(m,n)≤K≤m+n‑1。W未知,但其满足以下基本约束:[0037] 1)边界约束,规定d11和dnm分别为规整路径的起始点和终点。[0038] 2)路径连续性,路径点搜索过程中,不允许跨点搜索,若Wk=(di·,dj·),则下一次搜索路径Wk+1=(d’i·,d’j·)需满足d’i·‑di·≤1,d’j·‑dj·≤1。[0039] 3)路径单调性,在2假设的基础上,同时满足d’i·‑di·≥0,d’j·‑dj·≥0。[0040] 以上约束可使得若当前搜索格点为(a,b),则下一次通过的格点只能是这三个之一:(a‑1,b),(a,b‑1),(a‑1,b‑1)。同时有下式:[0041][0042] 优化求解上式可获得使Q,L匹配距离最规整的路径,同时计算累计距离:[0043] D(a,b)=min{D(a‑1,b),D(a,b‑1),D(a‑1,b‑1)}+d(a,b)[0044] 对DTW设置的约束条件包括:[0045] 搜索边界:约束DTW的搜索空间以减少它运算的时间复杂度是必要的,在搜索空间中设置“边界线”,即Sakoe‑Chiba约束。将距离矩阵M投影到笛卡尔坐标系中,可视化“边界约束”。[0046] 则DTW的搜索空间:[0047][0048] 代表矩阵M中的元素。本发明的方法中,约束窗口的宽度w=max(M,N)/2。[0049] 止损策略:需要匹配多个时间序列,而某些序列与模板序列“距离”相差过大,相似度很低,及早停止与不相似序列的匹配是必要的,故设置序列间匹配累计距离阈值υ。在DTW路径搜索过程中,若两序列间累计距离D≥υ,匹配终止。[0050] 度量:因为匹配距离D∈[0,+∞],将距离D放缩,定义符合需求的时间序列相似性度量指标I,u,v序列间相似度I如下式:[0051][0052] 其中,n为时间序列的特征维数,I∈[0,1]。[0053] 本发明的另一目的在于提供一种实施所述开放空间下行人换装重识别方法的开放空间下行人换装重识别系统,所述开放空间下行人换装重识别系统包括:[0054] 1)HigherHRNetXt行人特征信息获取模块,用ResNeXt结构替换HigherHRNet中的部分残差块,改进后的网络记为HigherHRNetXt,使用此网络提取行人骨骼关键点特征信息。[0055] 2)行人重识别模块,将行人特征向量间的距离求解看作优化问题,基于动态优化的思想采用动态时间规整算法去寻求行人骨骼关键点时序特征间的距离,度量行人相似性,完成对同一行人的匹配。[0056] 本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:[0057] 1)对HigherHRNet网络进行改进,把改进后的网络记为HigherHRNetXt,并用ResNeXt结构替换网络中的部分残差块;同时基于HigherHRNetXt网络提取行人骨骼关键点特征信息。[0058] 2)基于动态规化的思想采用动态时间规整算法去寻求行人骨骼关键点时序特征间的距离,度量行人相似性,完成对同一行人的匹配。[0059] 本发明的另一目的在于提供一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行所述的开放空间下行人换装重识别方法。[0060] 本发明的另一目的在于提供一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现所述的开放空间下行人换装重识别方法。[0061] 本发明的另一目的在于提供一种摄像头,所述摄像头执行所述的开放空间下行人换装重识别方法。[0062] 结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的开放空间下行人换装重识别方法,利用姿态估计模型获取行人骨骼关键点的时空信息,然后使用动态时间规整算法寻求序列间匹配相似性,从而识别换装前后的行人,避开了缺乏大型行人换装数据集的难题;同时,本发明使用ResNeXt网络结构改进姿态估计模型,使其参数量减少15%,同时性能小幅度提升。该方法不依赖行人衣服颜色等表观信息,而是提取行人的生理特征,这使得其在一定程度上也可以应用于跨模态行人重识别。实验表明,本发明提供的方法在面对行人换装问题时表现良好,优于大部分现有的行人重识别模型。[0063] 本发明从新的角度出发,利用姿态估计模型获取行人骨骼关键点的时空信息,采用DTW寻求序列间匹配相似性,将深度学习与传统算法结合提出一种开放空间下行人换装重识别方法,其最大的优势是对行人易伪装的表观特征不敏感,这使得它可以应用于更加复杂的场景,比如犯罪嫌疑人为躲避追查更换服饰、衣帽遮挡等;其次突破了行人换装数据集的桎梏,只需要训练HigherHRNetXt姿态估计模型,而Higher‑HRNetXt模型得益于ResNeXt模块和高分辨率特征图,在参数量减少的前提下达到更优的性能,且对图像中的小目标行人敏感。实验证明,本发明的方法能在一定程度上解决行人换装重识别问题,且对跨模态不敏感。[0064] 本发明的方法比现有的行人重识别模型在面对行人换装问题时表现的更好,适应于开放空间中。本发明优点还包括:[0065] (1)本发明对HigherHRNet网络进行了改进,使用ResNeXt结构替换残差块,这使得网络参数总量下降15%,模型一次前向推理的浮点运算数量下降5%,同时网络性能有小幅度提高,在COCO2017验证集和测试集上AP分别达到67.9和66.9。[0066] (2)本发明将关键点检测应用于行人重识别,并结合传统方法解决长时效性的行人换装重识别问题。行人换装数据集的采集涉及隐私问题,很多国家将隐私安全视为国防安全的一部分,本发明的方法避开了缺乏这类数据集的难题,同时本发明的方法对行人表观信息变化不敏感,这使得犯罪分子的伪装不再是躲避追查的手段。附图说明[0067] 图1是本发明实施例提供的开放空间下行人换装重识别方法流程图。[0068] 图2是本发明实施例提供的残差块中的一种架构形式示意图,输入维度256,输出维度256。[0069] 图3是本发明实施例提供的ResNeXt中的一种架构形式示意图,输入维度256,输出维度256,基数C为32。[0070] 图4是本发明实施例提供的改进后的网络HigherHRNe‑tXt的结构示意图。[0071] 图5是本发明实施例提供的将距离矩阵M投影到笛卡尔坐标系中,可视化“边界约束”示意图。[0072] 图6是本发明实施例提供的测试视频集样例展示示意图。具体实施方式[0073] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。[0074] 针对现有技术存在的问题,本发明提供了一种行人换装重识别方法、系统、终端、存储介质及摄像头,下面结合附图对本发明作详细的描述。[0075] 如图1所示,本发明实施例提供的开放空间下行人换装重识别方法包括以下步骤:[0076] S101,基于姿态估计模型提取行人骨骼关键点特征信息,根据视频连续帧生成行人的身份信息。[0077] S102,对已有超高检测精度的自下而上姿态估计模型网络Higher‑HRNet进行残差块改造,基于ResNeXt替换网络中残差块。[0078] S103,将行人身份特征向量间距离求解看做优化问题,基于动态规划思想采用DTW求解。[0079] S104,使用优化组合策略,从DTW搜索范围、终止条件优化DTW算法,降低算法的计算复杂度。[0080] 下面结合实例对本发明作进一步描述。[0081] 1、行人重识别是计算机视觉领域核心方向,深度学习技术极大的推动了该方向的研究进展,但现有行人重识别模型过度依赖行人衣服颜色等表观信息,且训练这些模型的数据集都满足同一行人在多个视角下服装信息不改变的假设,这使得现有行人重识别模型无法完成对同一行人换装前后的识别,极大的限制了其应用空间。[0082] 本发明提出一种方法,利用姿态估计模型获取行人骨骼关键点的时空信息,然后使用动态时间规整算法寻求序列间匹配相似性,从而识别换装前后的行人,避开了缺乏大型行人换装数据集的难题;同时,本发明使用ResNeXt网络结构改进姿态估计模型,使其参数量减少15%,同时性能小幅度提升。该方法不依赖行人衣服颜色等表观信息,而是提取行人的生理特征,这使得其在一定程度上也可以应用于跨模态行人重识别。经实验,本发明提供的方法在面对行人换装问题时表现良好,优于大部分现有的行人重识别模型。[0083] 针对现有技术中的挑战,本发明提出了解决方法。针对挑战一,本发明选取很难被改变或伪装的行人生理特征‑‑骨骼关键点,单帧图像的信息总是有限的,也是不鲁棒性的,因此,本发明的方法是基于视频序列的,将连续帧图像作为姿态估计模型输入,模型提取图像中的人物的骨骼关键点序列。[0084] 监控视频中的人物像素点往往很少,拥有高分辨率特征图的HigherHRNet网络是较为合适的姿态估计模型,但HigherHRNet网络参数量较为庞大,众多残差块堆叠,且现有文献表明ResNeXt结构要优于残差块结构,因此使用ResNeXt结构替换网络中的部分残差块,这使得网络参数量有所下降,同时性能有小幅度提升,本发明把改进后的网络记为HigherHRNetXt。针对挑战二,本发明采取折中的方式,不再训练深度学习模型,而是基于动态优化的思想采用动态时间规整算法去寻求行人骨骼关键点序列间的距离,从而完成对同一行人的匹配。[0085] 本发明的方法比现有的行人重识别模型在面对行人换装问题时表现的更好,适应于开放空间中。本发明的贡献可总结如下:[0086] ①本发明对HigherHRNet网络进行了改进,使用ResNeXt结构替换残差块,这使得网络参数总量下降15%,模型一次前向推理的浮点运算数量下降5%,同时网络性能有小幅度提高,在COCO2017验证集和测试集上AP分别达到67.9和66.9。[0087] ②本发明将关键点检测应用于行人重识别,并结合传统方法解决长时效性的行人换装重识别问题。行人换装数据集的采集涉及隐私问题,很多国家将隐私安全视为国防安全的一部分,本发明的方法避开了缺乏这类数据集的难题,同时本发明的方法对行人表观信息变化不敏感,这使得犯罪分子的伪装不再是躲避追查的手段。[0088] 2、方法[0089] 2.1问题描述[0090] 以条件概率表述行人换装重识别:记事件δ为待查询行人S更换了服饰,记事件γ为行人重识别模型在多视角下成功匹配S,记t为查询时长间隔,则应有以下条件成立:0≤P(δ)≤1,0≤P(γ)≤1,t≥0,P(δ)∝t;那么行人换装重识别可表述为条件概率值P(γ/δ)。存在的问题是,现有的行人重识别模型使得P(γ/δ)值过小。[0091] 2.2HigherHRNetXt‑DTW[0092] 本发明的方法以姿态估计模型为基础,获得人物骨骼关键点热图,使用动态时间规整(DynamicTimeWarping,简记DTW)算法寻求多个骨骼关键点序列与模板序列的最小匹配距离,度量序列间相似度,实现对换装前后的人物重识别。本发明的方法简记为HigherHRNetXt‑DTW,其有以下假设条件:[0093] 设待查询目标为S,关于S的初始查询图像为连续帧,即Xs(t)={X1,X2,X3…,Xt},t≥C,Xt为S的第t帧图像,Xs(t)为S的初始查询信息,C为视频帧率。[0094] 定义:将姿态估计模型记为函数G(x),输出为关键点序列Y,A处获得待查询人物S初始查询信息:Xs(t)={X1,X2,X3…,Xt},t≥C;经过一段时间T∈[0,+∞]后,B处获得疑似查询人物f的查询信息:Zf(t)={Z1,Z2,Z3…,Zt},t≥C。则分别带入G(x),可得S和f的骨骼关键点序列信息:YA=G(Xs(t)),,YB=G(Xf(t))。[0095] 求解DTW(YA,YB)的最小匹配距离D∈[0,+∞],若D值越小,则YA,YB越相似,概率值P(f=S)越大;反之YA,YB越不相似,概率值P(f=S)越小。[0096] 2.3HigherHRNetXt网络[0097] 姿态估计模型对人物表观特征的不敏感是HigherHRNetXt‑DTW解决换装行人重识别的关键。姿态估计模型又可分为自上而下、自下而上两类,自上而下方式要基于行人检测器,而后生成关键点热图;自下而上直接生成行人关键点热图。考虑关键点检测实时性的可能,本发明选择自下而上的模型;同时,监控视频中的行人往往占据很少的像素数,因此本发明选择对小尺度敏感的更高分辨率网络‑‑HigherHRNet作为基础框架。[0098] HigherHRNet网络的backbone是高分辨率网络‑‑HRNet,其在整个前向传播过程中都保持高分辨率特征图,并采用高低分辨率特征图融合的方式保留更多特征信息。HigherHRNet在HRNet基础上加入反卷积网络,使最后一层特征图的分辨率更高,从而对小尺度行人更敏感,是目前最先进的自下而上姿态估计模型。但是,HigherHRNet拥有非常巨大的参数量和浮点计算次数,众多残差块堆叠,这不是高性能模型应该携带的。对此,本发明使用ResNeXt模块改进HigherHRNet。[0099] ResNeXt结构:ResNeXt是对网络残差块卷积结构的一种改进,它以组卷积的方式,使得卷积网络在不增加深度和宽度,只改变基数的前提下提升网络性能,并减少网络参数总量。 C为基数,代表一个模块中相同分支的数目,Ti(x)为第i个相同拓扑结构的分支。图2,图3分别为残差块与ResNeXt架构形式对比。[0100] 网络结构:改进后的网络记为HigherHRNetXt,结构如图4所示。[0101] 2.4动态时间规整DTW[0102] DTW(动态时间规整算法)由日本学者Itakura提出,其采用动态规划的思想求解两长度相等或不等的时间序列x1,x2之间的最小距离,在度量时间序列相似性方面有较高的准确率。DTW算法应用甚广,相关研究众多。在本发明的方法中,将对DTW设置一些约束条件,一使其更契合本发明的场景,二节省部分计算资源。本发明将依次介绍DTW定义,以及本发明设置的约束条件。[0103] 定义:假定两个时间序列Q={q1,q2,…,qn},L={l1,l2,…,lm},Q,L序列间元素的欧氏距离记为dij=d(qi,lj),1≤i≤n,1≤j≤m,可构造Q,L距离矩阵M如下:[0104][0105] 设矩阵M的规整路径W=w1,w2,w3,…,wk,…,wK,K的取值范围为max(m,n)≤K≤m+n‑1。W未知,但其满足以下基本约束:[0106] 1)边界约束,规定d11和dnm分别为规整路径的起始点和终点。[0107] 2)路径连续性,路径点搜索过程中,不允许跨点搜索,若Wk=(di.,dj.),则下一次搜索路径Wk+1=(d’i.,d’j.)需满足d’i.‑di.≤1,d’j.‑dj.≤1。[0108] 3)路径单调性,在2假设的基础上,同时满足d’i.‑di·≥0,d’j.‑dj·≥0。[0109] 以上约束可使得若当前搜索格点为(a,b),则下一次通过的格点只能是这三个之一:(a‑1,b),(a,b‑1),(a‑1,b‑1)。同时有下式:[0110][0111] 本发明优化求解上式可获得使Q,L匹配距离最规整的路径,同时计算累计距离:[0112] D(a,b)=min{D(a‑1,b),D(a,b‑1),D(a‑1,b‑1)}+d(a,b)(3)[0113] 搜索边界:约束DTW的搜索空间以减少它运算的时间复杂度是必要的,具体实现是本发明在其搜索空间中设置“边界线”,即Sakoe‑Chiba约束。本发明将距离矩阵M投影到笛卡尔坐标系中,可视化“边界约束”,如图5所示。[0114] 则DTW的搜索空间:[0115][0116] 代表矩阵M中的元素。本发明的方法中,约束窗口的宽度w=max(M,N)/2。例如,时间序列u,v的长度分别为150、200,那么约束窗口宽度w为100。约束后的DTW因其搜索空间的减少而提升了速度,同时也避免了规整路径过度弯曲。[0117] 止损策略:有时本发明需要匹配多个时间序列,而某些序列与模板序列“距离”相差过大,相似度很低,及早停止与不相似序列的匹配是必要的。因此,本发明设置序列间匹配累计距离阈值υ。在DTW路径搜索过程中,若两序列间累计距离D≥υ,匹配终止。[0118] 度量:因为匹配距离D∈[0,+∞],本发明很难直观的去评价时间序列间的相似性,于是本发明将距离D放缩,定义符合本发明需求的时间序列相似性度量指标I,u,v序列间相似度I如下式:[0119][0120] 其中,n为时间序列的特征维数,I∈[0,1]。[0121] 3、实验结果及分析[0122] 前面已有相关研究在自己提供的数据集上证实了几乎所有现存行人重识别模型在面对行人换装问题时束手无策,甚至不如传统的算法。[0123] 最新的研究尝试让模型学习行人的轮廓图或行人身份信息,如:现有文献中的模型,CASE‑Net,DG‑Net,ReIDCaps。这些模型在各自的换装数据集上取得了一定的精度,但测试数据是基于密闭空间的,满足一定的假设条件。本发明将在开放空间下采集测试数据,对这些新方法及本发明的方法进行测试。[0124] 3.1HigherHRNetXt[0125] 数据集:COCO数据集包含超过20万张图像和25万个行人,每个行人标有17个关键点。HigherHRNetXt在COCOtrain2017数据集上训练,在COCOval2017和test‑dev2017数据集上评估。其中训练集包含5万7千张图像,验证集和测试集分别包含5千张图像和2万张图像。[0126] 训练:本发明使用Adam优化算法学习网络权重,硬件设施为2台TITANXP,每台批量大小设置为8,基础学习率为0.001。数据增强包括:随机旋转、随机平移、图像尺寸缩放为512×512,训练350个epoch,使用ImageNet预训练权重初始化网络,深度学习框架为Pytorch1.5。[0127] 测试:测试图像尺寸缩放为512,无额外数据增强,测试尺度单一。软硬件设施为:Pytorch1.5,TITANXP。[0128] 实验结果:加入ResNeXt模块后的Higher‑HRNet与之前相比参数量减少了15%,FLOPS下降5%,同时性能有小幅提升,在COCOval2017和COCOtest2017数据集上的平均精确度AP分别达到67.9和66.9,与之前相比分别提升了0.8和0.5,结果见表1,与现有的自下而上姿态估计模型对比,结果见表2。[0129] 表1AP即AP0.5:0.95,1GFLOPS等于每秒109次浮点运算[0130][0131] 表2部分自下而上姿态估计模型在COCOtest‑dev2017上的测试结果[0132][0133][0134] 3.2HigherHRNetXt‑DTW[0135] 数据集:由于目前没有可作为基准的视频序列行人换装数据集,因此为测试行人换装重识别模型在开放空间下的性能,本发明采用真实场景中的模拟监控视频作为测试集。测试集由本发明自备摄像头在校园内A、B处拍摄完成,15位目标人物,A处15段,B处30段,AlignGan模型生成15段,共60段短视频(时长10秒左右,帧率20)。A处拍摄每个目标人物的一段视频作为查询息,B处拍摄每个目标人物2种不同的着装,拍摄角度固定。考虑到开放空间下跨模态重识别是可能发生的,因此将B处每个目标人物的其中一段视频使用AlignGan模型生成单通道的IR夜间视频,共15段。[0136] 测试视频集样例展示如图6所示。[0137] 测试场景假设:[0138] 搜索区域:校园内[0139] 监控范围:A、B(RGB)处[0140] 待查询人物:S={S1,S2,…,S15}[0141] S最后出现地:A处[0142] 评价指标:测试模型均从A处获得待查询人物S的查询信息,在B处检索换装后的S,输出匹配相似度[0143][0144] 为每个目标人物换装前后查询所得平均相似度(平均余弦相似度或平均相似度);N=15。[0145] 测试:鉴于部分行人重识别模型如CASE‑Net中的方法并未开源,因此本发明只在测试视频集上测试官方开源的DG‑Net、ReIDCaps模型以及本发明的方法。DG‑Net、ReIDCaps模型均去掉分类层,使用最后一层的特征向量作为模型的最终输出,计算余弦距离及余弦相似度;HigherHRNetXt‑DTW累计序列间最小距离,计算序列相似度I,n取12(不包括面部关键点),DTW搜索的距离阈值υ为8。硬件:两台TITANXP;深度学习框架:Pytorch。[0146] 实验结果:本发明的方法在两种模态RGB和C处IR测试视频上表现良好,对15个目标人物检索的匹配相似度 分别为77.4%和76.7%,表现良好,同时二者差异较小,说明本发明的方法几乎不受跨模态的影响,性能优于另外两种方法,结果见表3,保留一位小数。DG‑Net和ReIDCaps模型的测试性能较差,测试的匹配相似度 (平均余弦相似度)均小于0,这意味着行人换装后模型提取的特征向量与查询特征向量几乎没有相似性,在高维空间中两特征向量的方向呈一定夹角的反向,且无法适应跨模态。[0147] 本发明的实验假定了B处检索信息与A处查询信息有相同的长度(帧数),但在很多情况下,可能并不满足这样的条件。本发明实验序列长度k(单位:帧)的变化对HigherHRNetXt‑DTW匹配相似度 的影响,实验结果如表4,表5。[0148] 表3行人重识别模型及方法在B处测试视频集上的测试结果,表中数值均为测试平均值,参与匹配的序列长度为200[0149][0150] 表4模型输入图像为RGB,大小512X512,表中数值均为平均值[0151][0152] 表5模型输入图像为IR,大小512X512,表中数值均为平均值[0153][0154] 4.总结[0155] 本发明从新的角度出发,利用姿态估计模型获取行人骨骼关键点的时空信息,采用DTW寻求序列间匹配相似性,将深度学习与传统算法结合提出一种开放空间下行人换装重识别方法,其最大的优势是对行人易伪装的表观特征不敏感,这使得它可以应用于更加复杂的场景,比如犯罪嫌疑人为躲避追查更换服饰、衣帽遮挡等;其次突破了行人换装数据集的桎梏,只需要训练HigherHRNetXt姿态估计模型,而HigherHRNetXt模型得益于ResNeXt模块和高分辨率特征图,在参数量减少的前提下达到更优的性能,且对图像中的小目标行人敏感。实验证明,本发明的方法能在一定程度上解决行人换装重识别问题,且对跨模态不敏感。[0156] 在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。[0157] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
专利地区:浙江
专利申请日期:2020-12-08
专利公开日期:2024-07-26
专利公告号:CN112541421B