专利名称:基于唇动跟踪的识别方法、装置、存储介质及电子设备
专利类型:发明专利
专利申请号:CN202211192400.8
专利申请(专利权)人:北京中关村科金技术有限公司
权利人地址:北京市海淀区上地四街一号院5号楼一层130
专利发明(设计)人:林上青,周健,夏溧
专利摘要:本发明提供一种基于唇动跟踪的识别方法、装置、存储介质及电子设备,获取当前业务过程中目标用户的视频信息;识别所述视频信息中的声音信息,确定所述声音信息是否满足当前业务要求;在满足预设业务要求的情况下,基于所述视频信息中的人脸特征确定人脸位置,并基于所述人脸特征预测唇部区域;针对所述视频信息中连续帧图像进行唇动跟踪,进而确定所述声音信息是否为所述目标用户发出;在确定所述声音信息为所述目标用户发出的情况下,将所述视频信息中任一帧图像与设定图像进行人脸比对,以确定当前业务是否为目标用户操作。能够在采集用户的真实意愿时,在不影响用户体验的前提下确保提高客户意愿的真实性检测。
主权利要求:
1.一种基于唇动跟踪的识别方法,其特征在于,包括:获取当前业务过程中目标用户的视频信息;
识别所述视频信息中的声音信息,确定所述声音信息是否满足当前业务要求;
在满足预设业务要求的情况下,基于所述视频信息中的人脸特征确定人脸位置,并基于所述人脸特征预测唇部区域;
针对所述视频信息中连续帧图像进行唇动跟踪,进而确定所述声音信息是否为所述目标用户发出,其中,在视频信息中连续N帧发出声音的图像对应的唇部状态是张嘴‑闭嘴交替进行的状态的情况下,确定所述声音信息为所述目标用户发出;而在视频信息中连续N帧发出声音的图像对应的唇部状态是持续闭嘴的状态的情况下,确定所述声音信息不是所述目标用户发出;
在确定所述声音信息为所述目标用户发出的情况下,将所述视频信息中任一帧图像与设定图像进行人脸比对,以确定当前业务是否为目标用户操作;
所述基于所述人脸特征预测唇部区域,包括:基于所述人脸特征预测唇部区域的轮廓特征点,预测初始唇部区域;
针对所述初始唇部区域,利用色度信息进行唇色检测,确定唇色的分布规律;
基于所述分布规律进行唇色和肤色的聚类及投影,预测确定唇部区域;
其中,所述针对所述视频信息中连续帧图像进行唇动跟踪,包括:在所述唇部区域的垂直轴上取一窗口;
对所述窗口内的像素点向所述垂直轴进行投影,得到投影图;
基于所述投影图中的谷值数量确定处于张嘴或闭嘴状态,其中,一个谷值的情形对应闭嘴状态,两个谷值的情形对应张嘴状态。
2.根据权利要求1所述的基于唇动跟踪的识别方法,其特征在于,所述目标用户的视频信息包括当前业务过程中采集的目标用户的动态视频或者输入的视频文件。
3.根据权利要求1所述的基于唇动跟踪的识别方法,其特征在于,还包括:提取所述视频信息中的人脸特征信息,以确定所述视频信息中是否包含人脸;
在确定所述视频信息中包含人脸的情况下,执行所述识别所述视频信息中的声音信息,确定所述声音信息是否满足当前业务要求的步骤。
4.根据权利要求1所述的基于唇动跟踪的识别方法,其特征在于,所述唇部区域的轮廓特征点包括唇峰、唇谷和唇角。
5.一种基于唇动跟踪的识别装置,其特征在于,包括:获取模块,用于获取当前业务过程中目标用户的视频信息;
识别模块,用于识别所述视频信息中的声音信息,确定所述声音信息是否满足当前业务要求;
预测模块,用于在满足预设业务要求的情况下,基于所述视频信息中的人脸特征确定人脸位置,并基于所述人脸特征预测唇部区域;
跟踪模块,用于针对所述视频信息中连续帧图像进行唇动跟踪,进而确定所述声音信息是否为所述目标用户发出;
比对模块,用于在确定所述声音信息为所述目标用户发出的情况下,将所述视频信息中任一帧图像与设定图像进行人脸比对,以确定当前业务是否为目标用户操作,其中,在视频信息中连续N帧发出声音的图像对应的唇部状态是张嘴‑闭嘴交替进行的状态的情况下,确定所述声音信息为所述目标用户发出;而在视频信息中连续N帧发出声音的图像对应的唇部状态是持续闭嘴的状态的情况下,确定所述声音信息不是所述目标用户发出;
其中,基于人脸特征预测唇部区域,包括:基于人脸特征预测唇部区域的轮廓特征点,预测初始唇部区域;针对初始唇部区域,利用色度信息进行唇色检测,确定唇色的分布规律;基于分布规律进行唇色和肤色的聚类及投影,预测确定唇部区域;
针对视频信息中连续帧图像进行唇动跟踪,包括:在唇部区域的垂直轴上取一窗口;对窗口内的像素点向垂直轴进行投影,得到投影图;基于投影图中的谷值数量确定处于张嘴或闭嘴状态,其中,一个谷值的情形对应闭嘴状态,两个谷值的情形对应张嘴状态。
6.根据权利要求5所述的基于唇动跟踪的识别装置,其特征在于,所述识别模块还用于:提取所述视频信息中的人脸特征信息,以确定所述视频信息中是否包含人脸;在确定所述视频信息中包含人脸的情况下,识别所述视频信息中的声音信息,确定所述声音信息是否满足当前业务要求。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被一个或多个处理器执行时,实现如权利要求1至4中任一项所述的方法。
8.一种电子设备,其特征在于,包括存储器和一个或多个处理器,所述存储器上存储有计算机程序,所述计算机程序被所述一个或多个处理器执行时实现如权利要求1至4中任一项所述的方法。 说明书 : 基于唇动跟踪的识别方法、装置、存储介质及电子设备技术领域[0001] 本发明涉及人工智能技术领域,尤其涉及一种基于唇动跟踪的识别方法、装置、存储介质及电子设备。背景技术[0002] 如今,越来越多的银行、信托、保险等金融机构完成了较为完备的业务线上化转型,保障线上交易的真实性和合法性成为了金融机构的重要课题。[0003] 相关技术中,针对用户自主完成的线上交易,金融机构通过人脸识别和ASR语音识别结合来确认用户的真实办理意愿,但这种识别方式目前仍存在漏洞。无论是人脸识别还是语音回答,都只能仅从一方面确认用户本人在现场及现场存在声音,无法判断是否为用户本人作答。从这个角度而言,用户可以通过他人代答、伪造声音等攻击方式进行虚假作答,对金融机构系统的信息安全和合法权益构成威胁。发明内容[0004] 为解决业务办理过程中采集用户的真实意愿环节的风险问题,本发明提供一种基于唇动跟踪的识别方法、装置、存储介质及电子设备,能够在采集用户的真实意愿时,在不影响用户体验的前提下确保提高客户意愿的真实性检测。[0005] 第一方面,本发明实施例提供一种基于唇动跟踪的识别方法,包括:[0006] 获取当前业务过程中目标用户的视频信息;[0007] 识别所述视频信息中的声音信息,确定所述声音信息是否满足当前业务要求;[0008] 在满足预设业务要求的情况下,基于所述视频信息中的人脸特征确定人脸位置,并基于所述人脸特征预测唇部区域;[0009] 针对所述视频信息中连续帧图像进行唇动跟踪,进而确定所述声音信息是否为所述目标用户发出;[0010] 在确定所述声音信息为所述目标用户发出的情况下,将所述视频信息中任一帧图像与设定图像进行人脸比对,以确定当前业务是否为目标用户操作。[0011] 在一些实现方式中,所述目标用户的视频信息包括当前业务过程中采集的目标用户的动态视频或者输入的视频文件。[0012] 在一些实现方式中,所述的基于唇动跟踪的识别方法,还包括:[0013] 提取所述视频信息中的人脸特征信息,以确定所述视频信息中是否包含人脸;[0014] 在确定所述视频信息中包含人脸的情况下,执行所述识别所述视频信息中的声音信息,确定所述声音信息是否满足当前业务要求的步骤。[0015] 在一些实现方式中,所述基于所述人脸特征预测唇部区域,包括:[0016] 基于所述人脸特征预测唇部区域的轮廓特征点,预测初始唇部区域;[0017] 针对所述初始唇部区域,利用色度信息进行唇色检测,确定唇色的分布规律;[0018] 基于所述分布规律进行唇色和肤色的聚类及投影,预测确定唇部区域。[0019] 在一些实现方式中,所述唇部区域的轮廓特征点包括唇峰、唇谷和唇角。[0020] 在一些实现方式中,所述针对所述视频信息中连续帧图像进行唇动跟踪,包括:[0021] 在所述唇部区域的垂直轴上取一窗口;[0022] 对所述窗口内的像素点向所述垂直轴进行投影,得到投影图;[0023] 基于所述投影图中的谷值数量确定处于张嘴或闭嘴状态。[0024] 第二方面,本发明实施例提供一种基于唇动跟踪的识别装置,包括:[0025] 获取模块,用于获取当前业务过程中目标用户的视频信息;[0026] 识别模块,用于识别所述视频信息中的声音信息,确定所述声音信息是否满足当前业务要求;[0027] 预测模块,用于在满足预设业务要求的情况下,基于所述视频信息中的人脸特征确定人脸位置,并基于所述人脸特征预测唇部区域;[0028] 跟踪模块,用于针对所述视频信息中连续帧图像进行唇动跟踪,进而确定所述声音信息是否为所述目标用户发出;[0029] 比对模块,用于在确定所述声音信息为所述目标用户发出的情况下,将所述视频信息中任一帧图像与设定图像进行人脸比对,以确定当前业务是否为目标用户操作。[0030] 在一些实现方式中,所述识别模块还用于:[0031] 提取所述视频信息中的人脸特征信息,以确定所述视频信息中是否包含人脸;在确定所述视频信息中包含人脸的情况下,识别所述视频信息中的声音信息,确定所述声音信息是否满足当前业务要求。[0032] 第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被一个或多个处理器执行时,实现如第一方面所述的方法。[0033] 第四方面,本发明实施例提供一种电子设备,包括存储器和一个或多个处理器,所述存储器上存储有计算机程序,所述计算机程序被所述一个或多个处理器执行时实现如第一方面所述的方法。[0034] 本发明的一个或多个实施例至少能够带来如下有益效果:[0035] 在当前业务办理过程中获取当前业务过程中目标用户的视频信息,以采集用户针对某一问题或操作的真实意愿,识别视频信息中的声音信息,确定是否满足当前业务要求,并在满足预设业务要求的情况下,基于视频信息中的人脸特征确定人脸位置,进而基于人脸特征预测唇部区域;针对视频信息中连续帧图像进行唇动跟踪来确定声音信息是否为目标用户本人发出;在确定为目标用户本发明发出的情况下,再将视频信息中任一帧截图图像与设定图像进行人脸比对,以确定是否为目标用户在进行操作,通过声音信息识别、唇动跟踪及人脸比对相结合,可以充分保证用户在业务办理中的真实意愿表达,避免业务办理过程中意愿采集环节存在的风险。附图说明[0036] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。[0037] 图1是本发明实施例提供的一种基于唇动跟踪的识别方法流程图;[0038] 图2是本发明实施例提供的唇色和肤色在UV空间的分布图;[0039] 图3是本发明实施例提供的利用投影图进行轮廓特征点定位的示意图;[0040] 图4是本发明实施例提供的基于唇动跟踪的识别的页面流程示意图;[0041] 图5是本发明实施例提供的一种基于唇动跟踪的识别装置框图。具体实施方式[0042] 下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。[0043] 如今,越来越多的银行、信托、保险等金融机构完成了较为完备的业务线上化转型,保障线上交易的真实性和合法性成为了金融机构的重要课题。[0044] 相关技术中,针对用户自主完成的线上交易,金融机构通过人脸识别和ASR(自动语音识别技术,AutomaticSpeechRecognition)语音识别结合来确认用户的真实办理意愿,但这种识别方式存在一定漏洞。无论是人脸识别还是语音回答,都只能仅从一方面确认用户本人在现场及现场存在声音,无法判断是否为用户本人作答。从这个角度而言,用户可以通过他人代答、伪造声音等攻击方式进行虚假作答,对金融机构系统的信息安全和合法权益构成威胁。[0045] 由此,本发明实施例提供一种基于唇动跟踪的识别方法、装置、存储介质及电子设备,能够在采集用户的真实意愿时,在不影响用户体验的前提下确保提高客户意愿的真实性检测,为解决业务办理过程中采集用户的真实意愿环节的风险问题。[0046] 实施例一[0047] 图1示出了一种基于唇动跟踪的识别方法流程图,如图1所示,本实施例提供的基于唇动跟踪的识别方法,包括:[0048] 步骤S101、获取当前业务过程中目标用户的视频信息。[0049] 在一些实现方式中,目标用户的视频信息包括当前业务过程中采集的目标用户的动态视频或者输入的视频文件。[0050] 在实际应用中,相关业务办理系统可以调用执行识别方法的电子设备的摄像头,采集用户的含人脸的实时视频,可作为本方法获取的目标用户的视频信息。当然,在一些情况下,还可以是通过用户上传的视频文件来办理业务,以此作为本方法获取的目标用户的视频信息。[0051] 当前业务过程,可以是银行、信托、保险等金融机构的业务系统中任一业务操作流程,例如办理绑卡业务等。目标用户可以是通过上述业务系统办理任一业务的用户,且目标用户可以通过电子设备进行业务办理,电子设备例如可以是手机、电脑等设备。[0052] 步骤S102、识别视频信息中的声音信息,确定声音信息是否满足当前业务要求。[0053] 本实施例中,可以基于ASR(自动语音识别技术,AutomaticSpeechRecognition)进行语音识别,通过采集视频信息中的声音信息并将其转化为文字,将转化的文字与标准答案进行比对,从而判断用户的回答是否正确。[0054] 确定声音信息是否满足当前业务要求可以指转化的文字是否满足当前问答模式,例如,转化的文字内容是“好的”,而当前的问答模式是“是”或“否”的问答模式,例如“是否执行操作A?”,则声音信息不满足当前业务要求。转化的文字内容是“是”则满足当前的问答模式,满足当前业务需求。[0055] 在一些实现方式中,还包括:提取视频信息中的人脸特征信息,以确定视频信息中是否包含人脸;在确定视频信息中包含人脸的情况下,执行识别视频信息中的声音信息,确定声音信息是否满足当前业务要求的步骤S102。确定视频信息中是否包含人脸可以通过成熟的人脸检测技术实现,人脸特征信息可以指五官。[0056] 步骤S103、在满足预设业务要求的情况下,基于视频信息中的人脸特征确定人脸位置,并基于人脸特征预测唇部区域。[0057] 本实施例可以通过人脸特征预测及定位唇部区域的大小及位置。[0058] 相关技术中的很多唇动检测系统采用灰度图像进行检测,利用唇峰、唇谷和边缘信息(唇角)提取口型轮廓,但是这些信息容易受到胡须、光线、阴影等严重影响,很难得到理想结果本实施例采用唇角+色度信息提取出唇色,利用唇色和肤色的差异,进行增强处理,从而使唇部区域部分更突出,使唇部区域定位更精准。[0059] 在一些实现方式中,基于人脸特征预测唇部区域,包括:[0060] 步骤S103a、基于人脸特征预测唇部区域的轮廓特征点,预测初始唇部区域;[0061] 在一些实现方式中,所述唇部区域的轮廓特征点包括唇峰、唇谷和唇角,初始唇部区域可以是基于唇峰、唇谷和唇角确定的一区域,该区域内包含唇部区域。[0062] 步骤S103b、针对初始唇部区域,利用色度信息进行唇色检测,确定唇色的分布规律。[0063] 利用色度信息进行唇色检测,主要是确定唇色在整体人脸空间中的分布规律,以此作为区分唇色和背景色的判断依据。由于只需考虑色度,可以将R、G、B进行坐标变换,得到色度空间的YUV表示,变换的表达式如下:[0064][0065] 其中,Y表示颜色的色度信息,两个色差信号U和V分量相互正交,称为色度信号。通过传统的唇色模型对唇色信息分布进行统计分析,可得出唇色和肤色在UV空间的分布图,例如图2所示的分布图。[0066] 步骤S103c、基于分布规律进行唇色和肤色的聚类及投影,预测确定唇部区域。通过空间分布图,能够将唇色和肤色聚类进行投影,使两者具有很好地可分性,以此判断出唇部区域位置。[0067] 步骤S104、针对视频信息中连续帧图像进行唇动跟踪,进而确定声音信息是否为目标用户发出。[0068] 在一些实现方式中,针对视频信息中连续帧图像进行唇动跟踪,包括:[0069] 步骤S104a、在唇部区域的垂直轴上取一窗口;[0070] 步骤S104b、对窗口内的像素点向垂直轴进行投影,得到投影图;[0071] 其中,窗口可以是一矩形区域,通过唇部区域的垂直轴所在区域的唇部状态判断用户是张嘴还是闭嘴状态,[0072] 步骤S104c、基于投影图中的谷值数量确定处于张嘴或闭嘴状态。[0073] 唇动跟踪的基本原理是在对若干帧连续的图像进行唇区定位后,利用投影的方法来判断用户是否张嘴闭嘴,作为唇动的依据。[0074] 具体来说,对唇部区域的4个轮廓特征点的定位采用在二值化图像中进行图像投影法,即在嘴(唇部区域)的垂直轴上取一个窗口,对窗口内的像素点向垂直轴投影,如图3所示,在投影图中,只有一个谷值(向左凸的谷值)的情形对应的是闭嘴状态的图像,有两个谷值的情形是张嘴状态的图像。[0075] 本实施例中的唇动跟踪是指运用机器视觉技术从图像中识别出说话的人脸,提取此人脸进行人脸识别,判断目标用户是本人开口作答还是伪造作答。伪造作答的情况,例如:他人代答、机器作答、提前录好的声音等。[0076] 根据唇动跟踪的结果与相应的声音信息,确定是否为目标用户发出相应的声音信息。一些情况下,可以基于视频信息中连续N帧发出声音的图像对应的唇部状态是张嘴‑闭嘴交替进行的状态,确定目标用户发出了相应的声音信息;而基于视频信息中连续N帧发出声音的图像对应的唇部状态是持续闭嘴的状态,则确定并非目标用户本人发出相应的声音信息。[0077] 步骤S105、在确定声音信息为目标用户发出的情况下,将视频信息中任一帧图像与设定图像进行人脸比对,以确定当前业务是否为目标用户操作。[0078] 目标用户本人发出相应的声音信息的唇动跟踪结果返回后,可以根据摄像头截屏目标用户的头像图像与设定图像(预设的对比用底图,例如身份证照片或之前用户上传的本人照片)进行1:1的人脸比对,判断是否为目标用户本人,完成整体检测流程。[0079] 应当理解的是,在本实施例的方法执行过程中,视频信息中不包含人脸,或者,声音信息不满足当前业务要求,或者,根据唇动跟踪结果确定声音信息不为目标用户发出,或者根据人脸比对结果确定当前业务不为目标用户操作,都会使得流程结束,并返回相应提示结果。[0080] 本实施例的方法主要应用于银行、证券、保险等金融机构的用户自助办理业务中,通过自助录音录像的方式,用户在办理业务时需要采集用户的真实意愿,保障业务的合规性。通过ASR、唇动跟踪、人脸比对三种识别方式的合理配合,能够最大程度为金融机构降低欺诈风险。如用户在自助办理过程不能通过检测的,将实时返回检测结果,立即要求用户重新检测,减少事后再联系用户返工的情况,提升机构办事效率。[0081] 在一个应用示例中,基于唇动跟踪的识别方法可实现为一AI软件系统,其页面流程可以如图4所示,在业务办理过程中对用户进行ASR语音识别、用户进行人脸检测、录制多帧、进行唇动跟踪、业务办理完成的流程。[0082] 实施例二[0083] 如图5所示,本实施例提供一种基于唇动跟踪的识别装置,包括:[0084] 获取模块201,用于获取当前业务过程中目标用户的视频信息;[0085] 识别模块202,用于识别视频信息中的声音信息,确定声音信息是否满足当前业务要求;[0086] 预测模块203,用于在满足预设业务要求的情况下,基于视频信息中的人脸特征确定人脸位置,并基于人脸特征预测唇部区域;[0087] 跟踪模块204,用于针对视频信息中连续帧图像进行唇动跟踪,进而确定声音信息是否为目标用户发出;[0088] 比对模块205,用于在确定声音信息为目标用户发出的情况下,将视频信息中任一帧图像与设定图像进行人脸比对,以确定当前业务是否为目标用户操作。[0089] 在一些实现方式中,识别模块202还用于:[0090] 提取视频信息中的人脸特征信息,以确定视频信息中是否包含人脸;在确定视频信息中包含人脸的情况下,识别视频信息中的声音信息,确定声音信息是否满足当前业务要求。[0091] 在一些实现方式中,目标用户的视频信息包括当前业务过程中采集的目标用户的动态视频或者输入的视频文件。[0092] 在实际应用中,相关业务办理系统可以调用执行识别方法的电子设备的摄像头,采集用户的含人脸的实时视频,可作为本方法获取的目标用户的视频信息。当然,在一些情况下,还可以是通过用户上传的视频文件来办理业务,以此作为本方法获取的目标用户的视频信息。[0093] 当前业务过程,可以是银行、信托、保险等金融机构的业务系统中任一业务操作流程,例如办理绑卡业务等。目标用户可以是通过上述业务系统办理任一业务的用户,且目标用户可以通过电子设备进行业务办理,电子设备例如可以是手机、电脑等设备。[0094] 确定声音信息是否满足当前业务要求可以指转化的文字是否满足当前问答模式,例如,转化的文字内容是“好的”,而当前的问答模式是“是”或“否”的问答模式,例如“是否执行操作A?”,则声音信息不满足当前业务要求。转化的文字内容是“是”则满足当前的问答模式,满足当前业务需求。[0095] 本实施例可以通过人脸特征预测及定位唇部区域的大小及位置。[0096] 在一些实现方式中,基于人脸特征预测唇部区域,包括:基于人脸特征预测唇部区域的轮廓特征点,预测初始唇部区域;针对初始唇部区域,利用色度信息进行唇色检测,确定唇色的分布规律;基于分布规律进行唇色和肤色的聚类及投影,预测确定唇部区域。通过空间分布图,能够将唇色和肤色聚类进行投影,使两者具有很好地可分性,以此判断出唇部区域位置;针对视频信息中连续帧图像进行唇动跟踪,进而确定声音信息是否为目标用户发出。[0097] 在一些实现方式中,所述唇部区域的轮廓特征点包括唇峰、唇谷和唇角,初始唇部区域可以是基于唇峰、唇谷和唇角确定的一区域,该区域内包含唇部区域。[0098] 利用色度信息进行唇色检测,主要是确定唇色在整体人脸空间中的分布规律,以此作为区分唇色和背景色的判断依据。由于只需考虑色度,可以将R、G、B进行坐标变换,得到色度空间的YUV表示。[0099] 在一些实现方式中,针对视频信息中连续帧图像进行唇动跟踪,包括:在唇部区域的垂直轴上取一窗口;对窗口内的像素点向垂直轴进行投影,得到投影图;基于投影图中的谷值数量确定处于张嘴或闭嘴状态。[0100] 其中,窗口可以是一矩形区域,通过唇部区域的垂直轴所在区域的唇部状态判断用户是张嘴还是闭嘴状态,[0101] 唇动跟踪的基本原理是在对若干帧连续的图像进行唇区定位后,利用投影的方法来判断用户是否张嘴闭嘴,作为唇动的依据。[0102] 具体来说,对唇部区域的4个轮廓特征点的定位采用在二值化图像中进行图像投影法,即在嘴(唇部区域)的垂直轴上取一个窗口,对窗口内的像素点向垂直轴投影,如图3所示,在投影图中,只有一个谷值(向左凸的谷值)的情形对应的是闭嘴状态的图像,有两个谷值的情形是张嘴状态的图像。[0103] 本实施例中的唇动跟踪是指运用机器视觉技术从图像中识别出说话的人脸,提取此人脸进行人脸识别,判断目标用户是本人开口作答还是伪造作答。伪造作答的情况,例如:他人代答、机器作答、提前录好的声音等。[0104] 根据唇动跟踪的结果与相应的声音信息,确定是否为目标用户发出相应的声音信息。一些情况下,可以基于视频信息中连续N帧发出声音的图像对应的唇部状态是张嘴‑闭嘴交替进行的状态,确定目标用户发出了相应的声音信息;而基于视频信息中连续N帧发出声音的图像对应的唇部状态是持续闭嘴的状态,则确定并非目标用户本人发出相应的声音信息。[0105] 目标用户本人发出相应的声音信息的唇动跟踪结果返回后,可以根据摄像头截屏目标用户的头像图像与设定图像(预设的对比用底图,例如身份证照片或之前用户上传的本人照片)进行1:1的人脸比对,判断是否为目标用户本人,完成整体检测流程。[0106] 应当理解的是,本实施例的装置具备方法实施例的全部有益效果。[0107] 本领域的技术人员应当明白,上述各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何限定的硬件和软件结合。[0108] 实施例三[0109] 本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被一个或多个处理器执行时,实现前述实施例的方法或者装置的模块。[0110] 本实施例中,计算机可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(StaticRandomAccessMemory,简称SRAM),电可擦除可编程只读存储器(ElectricallyErasableProgrammableRead‑OnlyMemory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammableRead‑OnlyMemory,简称EPROM),可编程只读存储器(ProgrammableRead‑OnlyMemory,简称PROM),只读存储器(Read‑OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。方法可参照本发明前述实施例,此处不再赘述。[0111] 实施例四[0112] 本实施例提供一种电子设备,包括存储器和一个或多个处理器,存储器上存储有计算机程序,计算机程序被一个或多个处理器执行时实现前述实施例的方法或前述实施例的装置的模块。[0113] 本实施例中,处理器可以是专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、数字信号处理器(DigitalSignalProcessor,简称DSP)、数字信号处理设备(DigitalSignalProcessingDevice,简称DSPD)、可编程逻辑器件(ProgrammableLogicDevice,简称PLD)、现场可编程门阵列(FieldProgrammableGateArray,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例中的方法。在处理器上运行的计算机程序被执行时所实现的方法可参照本发明前述实施例,此处不再赘述。[0114] 在实际应用中,可以通过图形用户界面进行与目标用户的交互操作,图形用户界面是办理业务时人机交互的接口,通过根据目标用户的请求启动软件系统,经过调用摄像头采集视频信息并传回图形用户界面进行显示;图形用户界面将图像数据发往可替换式检测跟踪框架实际算法处理,包括预先配置的ASR算法、唇动跟踪算法、人脸比对算法等;处理完的结果(例如唇部区域的标定信息)再传回图形用户界面显示给用户预览;最后根据业务要求,可以选择是否启用预留的后处理模块输出标定图像。[0115] 本发明的上述实施例提供的方案,在实际应用至少能够带来如下技术效果:[0116] 1)补充识别漏洞:大部分机构采用的“ASR语言识别+人脸比对”的检测方式,虽然能采集到用户回答的语音信息,但无法避免他人代答、录音作答等欺诈情况,在该基础上通过增加唇动跟踪,能够判断出语音来源是否来自用户本人,对之前的识别漏洞进行补充,降低风险。[0117] 2)提高质检效率:工作人员在后台需要对用户的办理视频进行质检审批,而单纯的“ASR语言识别+人脸比对”的检测方式需要工作人员在审批时长时间盯着用户回答,需要耗费大量审查时间;通过唇动跟踪,在后台直接记录用户唇动跟踪结果,能大大提升工作人员的审查效率,能够帮助系统规避多种网络及线下攻击手段,提高无人自助办理业务的合规性。[0118] 3)保障业务合规:按银保监会监管要求,各金融机构在产品业务办理中需要通过过程留证,采集用户的真实意愿。通过唇动跟踪的合理接入,能够最大限度地保障用户真实意愿的表达,保障业务合规,防止各方相互推诿。[0119] 综上所述,本发明提高了用户真实意愿采集的准确率,规避风险。通过“ASR语音识别+唇动跟踪+人脸比对”的多维算法组合,能够提高用户一次真实意愿采集的准确性,有效避免他人代答、机器作答等作弊现象,规避金融风险。而且有效降低了人工审查成本。基于唇动跟踪检测的流程和技术,能够通过AI的方式判断语音和视频均来自用户本人,并实时输出检测结果,减少人工后台审查和复核的工作量,提高金融机构工作效率,降低人力成本。[0120] 在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的。[0121] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。[0122] 虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
专利地区:北京
专利申请日期:2022-09-28
专利公开日期:2024-09-03
专利公告号:CN116259100B