可左右滑动选省市

基于运动矢量化和宏观表情引导机制的微表情识别方法

更新时间:2024-03-14
基于运动矢量化和宏观表情引导机制的微表情识别方法 专利申请类型:发明专利;
源自:重庆高价值专利检索信息库;

专利名称:基于运动矢量化和宏观表情引导机制的微表情识别方法

专利类型:发明专利

专利申请号:CN202210554888.8

专利申请(专利权)人:重庆邮电大学
权利人地址:重庆市南岸区黄桷垭崇文路2号

专利发明(设计)人:甘臣权,肖骏豪,祝清意

专利摘要:本发明涉及一种基于运动矢量化和宏观表情引导机制的微表情识别方法,属于计算机技术领域。方法为:1、获取宏观表情和微表情样本的起始帧与顶点帧;2、对1中获取的起始帧与顶点帧图像进行运动矢量化处理;3、对微表情样本对应的运动矢量化特征进行非线性放大处理;4、采用面部运动匹配机制对宏观和微观表情样本进行配对;5、通过引导网络实现宏观表情对微表情特征提取的引导及强化;6、根据引导网络的输出情感标签对微表情的类别进行识别。本发明能够根据面部的运动变化实现对微表情情感的识别,运用了宏观表情与微表情产生时面部运动状态的共同特点实现宏表情在微表情特征提取过程中的引导和强化。在微表情情感分析领域具有显著优势。

主权利要求:
1.基于运动矢量化和宏观表情引导机制的微表情识别方法,其特征在于:该方法包括以下步骤:步骤一:获取宏观表情和微表情样本的起始帧与顶点帧;
步骤二:对步骤一中获取的起始帧与顶点帧图像进行运动矢量化处理;
步骤三:对微表情样本对应的运动矢量化特征进行非线性放大处理;
步骤四:采用面部运动匹配机制对宏观和微观表情样本进行配对;
步骤五:通过引导网络实现宏观表情对微表情特征提取的引导及强化;
步骤六:根据引导网络的输出情感标签对微表情的类别进行识别;
所述步骤一中,从宏观表情和微表情样本中获取情感起始阶段和情感顶峰阶段的一帧图像;
所述步骤二中,根据步骤一中获取的样本起始帧与顶点帧分别对应着情感初期和情感巅峰期的面部状态;起始帧的面部情感是不具有极性的中性情感,而顶点帧所对应的面部情感则是最丰富的,也即是相对于起始帧面部变化最显著;获取两帧图像中每一个像素点的位移变化;将两帧图像作为输入,通过OpenCv工具包中的calcOpticalFlowFarneback()函数提取两帧图像中每一个像素点的矢量变化,并转化至水平和垂直两个方向即得到两个方向上的运动矢量化特征矩阵(Xij和Yij);
其中,i,j分别表示图像的中每列和每行的像素点个数;
所述步骤三中,在对微表情样本进行运动矢量化处理之后增加非线性放大处理;非线性放大的引入使得面部的显著运动与非显著运动的区分度更加明显;放大函数采用分段指数形式,在对运动强度进行放大的同时并不会改变运动的方向;放大函数中加入的区分度系数λ,当λ=2.5放大效果最佳;
其中,Fx和Fy分别表示放大后的两个方向上的运动矢量化特征,x和y则分别表示运动矢量化特征的像素的原始位移;
所述步骤四中,需要以运动矢量化特征为媒介,找到每一个微表情运动状态最相似的宏表情进行配对;整个匹配过程在本研究中称之为面部运动匹配机制;首先,为获取特征的概率分布,将宏观表情和微表情的运动矢量化特征Fi‑macro和Fi‑micro压缩至1维,得到二者的运动矢量化特征向量;
Vi‑macro=Flatten(Fi‑macro),
Vi‑micro=Flatten(Fi‑micro),
其中,Vi‑macro和Vi‑micro分别表示宏观表情和微表情的运动矢量化特征向量,Flatten(·)表示特征压缩操作;
根据每一个微表情样本的向量分布通过遍历的方式在宏观表情样本中得到一个与之相似度最高的宏观表情样本作为其匹配样本;关于相似度的评价标准在本研究中采用Wasserstein距离来进行评价,相似度的高低转化为距离远近的问题;Wasserstein距离相近则表示相似度高,反之则表示相似度较低;
Dmin=Min(D1j,D2j,D3j,…Dij),
MinSearch(Dmin)→Vmin‑macro,Vmin‑micro其中,
Dij=Wasserstein(Vi‑macro,Vj‑micro),Wasserstein(·)和Min(·)分别表示计算Wasserstein距离操作和获取最小值得操作,Dij表示第i个宏观表情样本和第j个微表情样本所对应的Wasserstein距离,MinSearch(Dmin)则表示反向搜索最小值对应运动矢量化特征向量的过程;
所述步骤五中,将步骤四中获取的宏观表情和微表情样本运动矢量化特征的配对组合作为引导网络的输入;在引导网络中,一维卷积用于特征向量的前后文关系;激活函数的选择为PRelu函数,作为一种负半轴斜率可训练的激活函数,在保留关键的强度信息的同时保留方向信息;
其中,最大池化操作Maxpool(·)用于获取显著特征, 和V分别表示特征提取块的输出特征和输入特征,σ1(·)表示PRelu激活函数,Conv1D(·)表示一维卷积操作;
引导网络中,宏观表情对微表情特征提取过程的引导增强机制是通过引导块实现的;
在引导增强的过程中,宏观表情特征和微观表情特征是分为两个支路分别处理的;在宏观表情输入引导块之后首先会经过绝对值处理;为能够将特征强度转化为权重的形式,使用tanh激活函数将特征强度进行压缩,其压缩后取值范围被控制在了0~1之间;而微表情特征则不经过任何处理,直接与宏观表情的特征权重相乘并得到带有宏观表情特性地微表情矢量特征F;
其中, 和 分别表示输入的宏观表情和微观表情的特征向量,|·|表示绝对值处理,σ2(·)表示tanh激活函数, 则表示特征向量间逐元素相乘操作;
所述步骤六中,步骤五中获取的带有宏观表情特性的微表情特征向量作为引导网络的输入,首先经过全局平均池化操作按照通道维度对特征进行压缩,缓解权值交互时冗余信息带来的干扰;权值交互是通过神经网络权重多层连接的方式实现的,最终经过Softmax函数将特征转化为对应的预测概率 整个过程通过多标签交叉熵函数进行约束;
其中,
MLP(·)=σ3(FC(·)),
FC(·)表示权重多层连接结构,σ3(·)则表示Softmax预测函数;另外,损失函数的表示如下:其中,N表示样本数量,yi和 则分别表示第i个样本的真实情感类别和预测情感类别。 说明书 : 基于运动矢量化和宏观表情引导机制的微表情识别方法技术领域[0001] 本发明属于计算机技术领域,涉及基于运动矢量化和宏观表情引导机制的微表情识别方法。背景技术[0002] 面部情感是通过大脑情感区域产生的激励刺激于面部肌肉进而产生的面部情感表达。随着现在社交场景的多样化,为了更好地适应当前复杂的社会环境,面部情感的真实性受到了极大程度的质疑。微表情作为具有极高真实性的面部情感表达方式,具有极高的研究价值。微表情是由大脑皮下区域的皮下神经回路产生的。该部分产生的情绪是无意识的自发面部情绪。当人们试图通过主观意愿抑制或隐藏自己的真实情感表达时,主观意愿的抑制与非自发情感的促进会共同作用于面部肌肉,进而导致面部的情感泄露。与可以主观控制的面部情感(宏观表情)相比,微表情具有持续时间短站,表达强度微弱,面部分布稀疏的特点。正是上述的特点使得对于微表情的识别工作是十分困难的。[0003] 为了能够探究人类表达的真实情感,微表情成为一种重要的研究手段。在日常生活中,可以通过微表情判断一个人内心的真实想法。或许大脑传递说谎的指令,可是微表情所传递的真实情感无疑是揭穿谎言的一种有效手段,从而让谎言无所遁形。微表情是人类应激反应的一部分,它始于人类作为高级动物的应激本能,会被主观想法抑制但是仍然会暴露。因此,微表情是人类真实情感和内心真实想法的忠实体现,也是探索人类内心真实想法的一种有效并准确的线索。现在对于微表情的应用也是十分广泛,除了刑侦测谎之外,青少年心理健康分析,产品舒适度调查等场景都常常发现微表情的身影。[0004] 科技的进步伴随着微表情识别的探索方式也逐渐多样化,现如今大多数的微表情识别方法都是以微表情为对象开展的。在这些方法中,有通过传统的手工特征与经典机器学习手段相结合的方法。随着深度学习方法的飞速发展卷积神经网络(CNN)、遗传编码(GP)、欧拉视频放大算法(EVM)、注意力机制(ATT)等方法逐渐成为微表情识别领域的主流。可是,以微表情样本作为唯一对象的识别方法会受特征单一等问题的影响。本研究发现,面部宏观表情与微表情在表达同一类型的情感时具有十分相似的面部运动状态。相对应的,宏观表情具有微表情所没有的一些特点,例如,面部运动变化明显,分布集中等。所以,若是能够将二者间的共性相结合那么对于微表情识别必然会由明显的帮助。发明内容[0005] 有鉴于此,本发明的目的在于提供一种基于运动矢量化和宏观表情引导机制的微表情识别方法。[0006] 为达到上述目的,本发明提供如下技术方案:[0007] 一种基于运动矢量化和宏观表情引导机制的微表情识别方法,包括以下步骤:[0008] 步骤一:获取宏观表情和微表情样本的起始帧与顶点帧;[0009] 步骤二:对步骤一中获取的起始帧与顶点帧图像进行运动矢量化处理;[0010] 步骤三:对微表情样本对应的运动矢量化特征进行非线性放大处理;[0011] 步骤四:采用面部运动匹配机制对宏观和微观表情样本进行配对;[0012] 步骤五:通过引导网络实现宏观表情对微表情特征提取的引导及强化;[0013] 步骤六:根据引导网络的输出情感标签对微表情的类别进行识别。[0014] 进一步,所述步骤一中,从宏观表情和微表情样本中获取情感起始阶段(起始帧)和情感顶峰阶段(顶点帧)的一帧图像。[0015] 进一步,所述步骤二中,根据步骤一中获取的样本起始帧与顶点帧分别对应着情感初期和情感巅峰期的面部状态。起始帧的面部情感是不具有极性的中性情感,而顶点帧所对应的面部情感则是最丰富的,也即是相对于起始帧面部变化最显著。通过二者的区别可以获取两帧图像中每一个像素点的位移变化。本研究将两帧图像作为输入,通过OpenCv工具包中的calcOpticalFlowFarneback()函数提取两帧图像中每一个像素点的矢量变化,并转化至水平和垂直两个方向即得到两个方向上的运动矢量化特征矩阵(Xij和Yij)。[0016][0017] 其中,i,j分别表示图像的中每列和每行的像素点个数。[0018] 进一步,所述步骤三中,为了增强微表情的运动显著程度,本研究在对微表情样本进行运动矢量化处理之后增加了非线性放大处理。非线性放大的引入使得面部的显著运动与非显著运动的区分度更加明显。与此同时,放大函数采用分段指数形式,在对运动强度进行放大的同时并不会改变运动的方向。此外,放大函数中加入的区分度系数λ,经过实验验证得出当λ=2.5是放大效果是最佳的。[0019][0020] 其中,Fx和Fy分别表示放大后的两个方向上的运动矢量化特征,x和y则分别表示运动矢量化特征的像素的原始位移。[0021] 进一步,所述步骤四中,需要以运动矢量化特征为媒介,找到每一个微表情运动状态最相似的宏表情进行配对。整个匹配过程在本研究中称之为面部运动匹配机制。首先,为了获取特征的概率分布,将宏观表情和微表情的运动矢量化特征(Fi‑macro和Fi‑micro)压缩至1维,得到二者的运动矢量化特征向量。[0022] Vi‑macro=Flatten(Fi‑macro),[0023] Vi‑micro=Flatten(Fi‑micro),[0024] 其中,Vi‑macro和Vi‑micro分别表示宏观表情和微表情的运动矢量化特征向量,Flatten(·)表示特征压缩操作。[0025] 特征向量分布的相似程度同时也表示着面部运动的相似度,所以我们根据每一个微表情样本的向量分布通过遍历的方式在宏观表情样本中得到一个与之相似度最高的宏观表情样本作为其匹配样本。关于相似度的评价标准在本研究中采用Wasserstein距离来进行评价,故而相似度的高低也转化为了距离远近的问题。Wasserstein距离相近则表示相似度高,反之则表示相似度较低。[0026] Dmin=Min(D1j,D2j,D3j,…Dij),[0027] MinSearch(Dmin)→Vmin‑macro,Vmin‑micro[0028] 其中,[0029] Dij=Wasserstein(Vi‑macro,Vj‑micro),[0030] Wasserstein(·)和Min(·)分别表示计算Wasserstein距离操作和获取最小值得操作,Dij表示第i个宏观表情样本和第j个微表情样本所对应的Wasserstein距离,MinSearch(Dmin)则表示反向搜索最小值对应运动矢量化特征向量的过程。[0031] 进一步,所述步骤五中,将步骤四中获取的宏观表情和微表情样本运动矢量化特征的配对组合作为引导网络的输入。本研究提出的引导网络可以对微表情进行特征提取的同时还可以实现宏观表情对微表情特征提取过程的引导增强。微表情具有强度微弱,分布稀疏的特点。因此对微表情的识别是一件十分困难的任务。在引导网络中,一维卷积被用于特征向量的前后文关系。此外选用该卷积方式可以通过减少网络的参数量达到降低网络时间复杂度及运算复杂度的目的。由于特征是以矢量形式存在的,正负号所决定的运动方向也是该特征中所存在的关键信息。网络设计中,激活函数的选择为PRelu函数,作为一种负半轴斜率可训练的激活函数,在保留关键的强度信息的同时还可以保留方向信息。[0032][0033] 其中,最大池化操作Maxpool(·)用于获取显著特征, 和V分别表示特征提取块的输出特征和输入特征,σ1(·)表示PRelu激活函数,Conv1D(·)表示一维卷积操作。[0034] 引导网络中,宏观表情对微表情特征提取过程的引导增强机制是通过引导块实现的。在引导增强的过程中,宏观表情特征和微观表情特征是分为两个支路分别处理的。由于宏观表情特征是起辅助作用的,所以,在其处理过程中我们仅提取其强度,而不提取其矢量方向。故而,在宏观表情输入该部分之后首先会经过绝对值处理。接下来,为了能够将特征强度转化为权重的形式,该部分使用tanh激活函数将特征强度进行压缩,其压缩后取值范围被控制在了0~1之间。而微表情特征则不经过任何处理,直接与宏观表情的特征权重相乘并得到带有宏观表情特性地微表情矢量特征(F)。不断地权重堆叠后,宏观表情的特性将附着于微表情特征中,二者的共性也能够得到有效地展现。[0035][0036][0037] 其中, 和 分别表示输入的宏观表情和微观表情的特征向量,|·|表示绝对值处理,σ2(·)表示tanh激活函数, 则表示特征向量间逐元素相乘操作。[0038] 进一步,所述步骤六中,步骤五种获取的带有宏观表情特性的微表情特征向量作为该部分的输入,首先经过全局平均池化操作按照通道维度对特征进行压缩,这样可以有效缓解权值交互时冗余信息带来的干扰。权值交互是通过神经网络权重多层连接的方式实现的,最终经过Softmax函数将特征转化为对应的预测概率 整个过程通过多标签交叉熵函数进行约束。[0039][0040] 其中,[0041] MLP(·)=σ3(FC(·)),[0042] FC(·)表示权重多层连接结构,σ3(·)则表示Softmax预测函数。另外,损失函数的表示如下:[0043][0044] 其中,N表示样本数量,yi和 则分别表示第i个样本的真实情感类别和预测情感类别。[0045] 本发明的有益效果在于:在微表情识别中提出一种新型的运动矢量化特征,该特征可以直观地反映面部地运动状态,并且不受使用者人物特点的影响。与之相匹配的非线性放大函数不仅可以直接放大运动显著的特征还可以通过压缩非显著运动特征的运动尺度增加显著运动和非显著运动的差异度从而实现多尺度放大。此外,宏观表情和微表情的匹配策略可以充分发挥二者间的共性,根据其运动状态实现宏观表情和微表情的配对,并用于特征提取过程中以完成宏观表情对微表情运动状态的引导增强。在面部运动引导增强网络中,配对后的宏观表情以特征权重的形式引导微表情样本的特征提取。与此同时,宏观表情不仅可以增强微表情的特征强度,而且可以充分利用二者间的共性提升微表情识别任务的准确度。这对于微表情识别任务是十分有帮助的。[0046] 本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。附图说明[0047] 为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:[0048] 图1为基于运动矢量化和宏观表情引导机制的微表情识别的过程;[0049] 图2为基于运动矢量化和宏观表情引导机制的微表情识别系统的模型图;[0050] 图3为面部运动引导增强网络的总览图;[0051] 图4为面部运动引导增强网络的卷积块内部结构图;[0052] 图5为面部运动引导增强网络的引导块内部结构图。具体实施方式[0053] 以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。[0054] 其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。[0055] 本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。[0056] 请参阅图1~图5,本发明提供一种基于宏表情状态迁移和混合注意力约束的微表情识别方法,图1为具体实现流程图。[0057] 图2为本发明的系统模型图,下面结合附图进行说明:[0058] 本发明考虑的主要是高准确度的微表情识别场景。图中第一个阶段,将宏观表情和微表情样本均进行运动矢量化处理,并转化为向量的形式。对于微表情的运动矢量化特征,在转化为向量形式后需要经过非线性放大处理对矢量的尺度进行非线性放大,在对运动尺度进行放大的同时提升显著特征和非显著特征间的区分度,以达到增强微表情特征表达的目的。在面部运动状态匹配阶段,本研究将放大后的微表情样本在宏表情样本中通过遍历的方式搜索并获取与之特征分布最相似的一个宏表情样本进行配对。之后,将配对后的微表情和宏观表情输入引导增强网络中进行微表情样本的特征提取和增强。输出的带有宏观表情特性的微表情特征将通过分类器对其类别进行判断,最终输出对应的情感类型。[0059] 图3为面部运动引导增强网络的总览图;图4为面部运动引导增强网络的卷积块内部结构图;图5为面部运动引导增强网络的引导块内部结构图。[0060] 引导增强网络中,宏观表情和微表情的引导增强机制主要是通过卷积块和引导块完成的。匹配后的宏观表情和微表情特征向量作为网络的输入,输入的特征在卷积块中进行特征提取,提取后的特征一同输入到引导块中实现宏观表情对微表情特征的引导增强。[0061] 卷积块:在卷积块中,采用1D卷积层对特征向量中的关键信息进行特征提取。之后,通过PRelu激活函数对特征进行激活。最后,通过1D最大池化层筛选特征中的显著信息并输出卷积块。采用此方案具有的优势如下:1、1D卷积组成的特征提取结构可以有效降低网络参数量以减少训练所需的时长。与此同时,网络的时间复杂度,空间复杂度也得到了很好的控制。此外,对于特征向量而言1D卷积的特征提取方式可以有效获取前后特征表达的逻辑关系对于面部的状态变化之间关联信息的提取有极大助益。2、PRelu函数作为卷积块中的激活函数,凭借其可训练的负半轴斜率,在特征提取的过程中,对于负向的运动信息,该函数可以有效获取其特征进而保证信息不缺失。3、1D最大池化层有助于获取运动状态中的关键信息。由于在运动状态中,运动强度最大的即是面部传达信息最突出的部分。在经过卷积层和激活曾处理后的特征,采用最大池化层对特征中的显著信息进行再次提取,不仅可以压缩特征还可以起到消除冗余的作用。[0062][0063] 其中,最大池化操作Maxpool(·)用于获取显著特征, 和V分别表示特征提取块的输出特征和输入特征,σ1(·)表示PRelu激活函数,Conv1D(·)表示一维卷积操作。[0064] 引导块:在引导块中,宏观表情和微表情分别采用了不同的处理方式。对于宏观表情而言,引导块意在获取其特征表达的强度,而非其矢量方向信息。所以在宏观表情特征被输入引导块后,首先经过绝对值处理,以获取其特征表达强度。之后,宏观表情的特征表达强度信息经过tanh激活函数的处理后被压缩至0~1的范围内转化为宏观表情特征权重。最后,获取到的宏观表情特征权重将以逐元素相乘的方式与微表情特征相融合,以获得带有宏观表情运动特性的微表情特征。引导块是面部运动引导增强网络的关键部分,它不仅可以获取到宏观表情的运动强度,还可以将强度特性以权重的形式作用于微表情特征中,实现对微表情运动矢量化特征的引导和增强作用。来自相似运动状态特征间的指定区域的引导增强对特征提取的过程而言具有极高的指导意义。不同于常见的深度学习方法,让网络自适应地进行特征提取工作,其整个过程无法控制。本研就采用的网络结构可以在引导块的加入下实现对特征提取过程的定向控制。[0065][0066][0067] 其中, 和 分别表示输入的宏观表情和微观表情的特征向量,|·|表示绝对值处理,σ2(·)表示tanh激活函数, 则表示特征向量间逐元素相乘操作。[0068] 最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

专利地区:重庆

专利申请日期:2022-05-19

专利公开日期:2024-06-18

专利公告号:CN115035571B


以上信息来自国家知识产权局,如信息有误请联系我方更正!
电话咨询
读内容
搜本页
回顶部