专利名称:基于人工智能的语义识别方法、装置、设备及存储介质
专利类型:发明专利
专利申请号:CN202111537450.0
专利申请(专利权)人:平安科技(深圳)有限公司
权利人地址:广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
专利发明(设计)人:赵仕豪,马骏,王少军
专利摘要:本发明涉及人工智能,公开一种基于人工智能的语义识别方法、装置、设备及介质,包括:接收客户端发送的语音应答数据,对语音应答数据进行语音转文本处理,得到至少两个转译文本数据,通过预设的转译评估模型对转译文本数据进行转译评分,获取转译评分最高的k个转译文本数据,作为目标数据,针对每个目标数据,从数据库中召回与目标数据关联的n个候选结果,通过孪生网络模型分析转译文本和候选结果之间的文本语义匹配度,得到相似度得分,按转译评分和相似度得分的综合评分由高到低对所有预测结果进行排列,返回评分最高的预测结果,作为目标结果,获取目标结果对应的转译文本数据,作为识别结果,采用本发明可提高语义识别的准确率。
主权利要求:
1.一种基于人工智能的语义识别方法,其特征在于,所述基于人工智能的语义识别方法包括:接收客户端发送的语音应答数据;
采用语音识别算法对语音应答数据进行语音转文本处理,得到至少两个转译文本数据;
通过预设的转译评估模型对所述转译文本数据进行转译评分,并获取转译评分最高的k个转译文本数据,作为目标数据,其中,k为正整数;
针对每个所述目标数据,通过设定的召回策略,从数据库中召回与所述目标数据关联的n个候选结果,其中,n为正整数,每个所述目标数据对应所述数据库中的多个候选结果,所述候选结果为数据库存储的与目标数据语境相同的标准语句;
将每个目标数据及召回的候选结果传入到孪生网络模型中,通过所述孪生网络模型分析转译文本和候选结果之间的文本语义匹配度,得到相似度得分;
结合所述转译评分以及所述相似度得分确定综合评分,按所述综合评分由高到低对所有预测结果进行排列,返回评分最高的预测结果,作为目标结果,并获取目标结果对应的转译文本数据,作为识别结果;
所述通过设定的召回策略从数据库中召回与所述目标数据关联的n个候选结果包括:对数据库中所述目标数据对应的每个候选结果进行语素解析,得到若干基础语素,将同一候选结果对应的基础语素,作为一组基础语素;
计算每个所述基础语素与所述目标数据的相关性得分;
将所述相关性得分进行加权求和,得到该组基础语素与所述目标数据的相关性得分;
对所有相关性得分按照由大到小的顺序进行排序,并从前往后选取n个候选结果,作为召回的候选结果;
所述对所有相关性得分按照由大到小的顺序进行排序,并从前往后选取n个候选结果,作为召回的候选结果包括:获取预设相关性得分阈值;
将n个召回的候选结果对应的相关性得分与所述预设相关性得分阈值进行比较,得到比较结果;
若比较结果中存在召回的候选结果对应的相关性得分小于所述预设相关性得分阈值,则将该候选结果作为无效候选结果,并从所述召回的候选结果中剔除所述无效候选结果;
所述通过所述孪生网络模型分析转译文本和候选结果之间的文本语义匹配度,得到相似度得分包括:采用长短时记忆神经网络分别对转译文本和候选结果进行编码,得到第一编码和第二编码;
采用曼哈顿距离来度量所述第一编码和第二编码的空间相似度;
基于所述空间相似度,确定所述相似度得分;
在获取目标结果对应的转译文本数据,作为识别结果之后,还包括:将所述转译文本数据和识别结果作为新的标注数据;
采用所述新的标注数据对所述孪生网络模型进行训练,得到更新后的孪生网络模型。
2.如权利要求1所述的基于人工智能的语义识别方法,其特征在于,所述将所述相关性得分进行加权求和,得到该组基础语素与所述目标数据的相关性得分包括:采用如下公式计算该组基础语素与所述目标数据的相关性得分:;
其中, 为该组基础语素与目标数据的相关性得分, 表示所述候选结果,表示每个所述候选结果解析之后的一个语素,d为所述目标数据; 表示语素 的权重;
表示语素 与所述目标数据d的相关性得分。
3.如权利要求1所述的基于人工智能的语义识别方法,其特征在于,所述获取转译评分最高的k个转译文本数据,作为目标数据包括:基于最小堆Top‑k算法,从所有转译文本数据中,任意选取k个转译文本数据的转译评分,建立最小堆,其中,所述最小堆包括堆顶,所述堆顶为k个转译文本数据的转译评分中的最小分数,未被选取的转译文本数据作为剩余转译数据;
选取所述剩余转译数据中任一个的转译评分,作为对比评分,并将所述对比评分与所述堆顶的评分进行比较,直到所述剩余转译数据选取完毕;
若所述对比评分不大于所述堆顶的评分,则返回选取任一个剩余转译数据的评分,作为对比评分继续执行;
若所述对比评分大于所述堆顶的评分,则将所述对比评分,作为新的堆顶的评分。
4.一种基于人工智能的语义识别装置,其特征在于,所述基于人工智能的语义识别装置执行时实现如权利要求1至3任一项所述的基于人工智能的语义识别方法,包括:数据接收模块,用于接收客户端发送的语音应答数据;
文本转译模块,用于采用语音识别算法对语音应答数据进行语音转文本处理,得到至少两个转译文本数据;
数据评分模块,用于通过预设的转译评估模型对所述转译文本数据进行转译评分,并获取转译评分最高的k个转译文本数据,作为目标数据,其中,k为正整数;
关联召回模块,用于针对每个所述目标数据,通过设定的召回策略,从数据库中召回与所述目标数据关联的n个候选结果,其中,n为正整数,每个所述目标数据对应所述数据库中的多个候选结果,所述候选结果为数据库存储的与目标数据语境相同的标准语句;
语义匹配模块,用于将每个目标数据及召回的候选结果传入到孪生网络模型中,通过所述孪生网络模型分析转译文本和候选结果之间的文本语义匹配度,得到相似度得分;
结果确定模块,用于结合转译评分以及相似度得分确定综合评分,按综合评分由高到低对所有预测结果进行排列,返回评分最高的预测结果,作为目标结果,并获取目标结果对应的转译文本数据,作为识别结果。
5.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至
3任一项所述的基于人工智能的语义识别方法。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的基于人工智能的语义识别方法。 说明书 : 基于人工智能的语义识别方法、装置、设备及存储介质技术领域[0001] 本发明涉及自然语言处理领域,尤其涉及一种基于人工智能的语义识别方法、装置、设备及存储介质。背景技术[0002] 自然语言理解(NLU)是人工智能领域重要的领域之一,语言理解对于人类来说是一件轻松的事,但对于人工智能来说,却是一种极具挑战的事。人最常用的方式是使用口语来表达自己的观点和想法,通过对口语进行数据提取分析,可以识别出口语的语义。能快速准确地识别客户的需求这在智能客服行业有巨大的应用,这能够帮助企业改善服务质量,提高客户满意度。[0003] 传统的智能语义识别系统中,用户的回答经过语音识别(ASR)模块输出一个文本转译结果,然后通过BM25或正则等方式匹配数据库,从而识别用户的意图。但单一的文本转译结果以及简单的数据匹配方式在面对更加复杂的口语语句时,往往难以正确地识别出用户回答的意图。发明内容[0004] 本发明实施例提供一种基于人工智能的语义识别方法、装置、计算机设备和存储介质,以提高语义识别的精准性。[0005] 一种基于人工智能的语义识别方法,包括:[0006] 接收客户端发送的语音应答数据;[0007] 采用语音识别算法对语音应答数据进行语音转文本处理,得到至少两个转译文本数据;[0008] 通过预设的转译评估模型对所述转译文本数据进行转译评分,并获取转译评分最高的k个转译文本数据,作为目标数据,其中,k为正整数;[0009] 针对每个所述目标数据,通过设定的召回策略,从数据库中召回与所述目标数据关联的n个候选结果,其中,n为正整数,每个所述目标数据对应所述数据库中的多个候选结果;[0010] 将每个目标数据及召回的候选结果传入到孪生网络模型中,通过所述孪生网络模型分析转译文本和候选结果之间的文本语义匹配度,得到相似度得分;[0011] 结合转译评分以及相似度得分确定综合评分,按综合评分由高到低对所有预测结果进行排列,返回评分最高的预测结果,作为目标结果,并获取目标结果对应的转译文本数据,作为识别结果。[0012] 可选地,所述通过设定的召回策略从数据库中召回与所述目标数据关联的n个候选结果包括:[0013] 对数据库中所述目标数据对应的每个候选结果进行语素解析,得到若干基础语素,将同一候选结果对应的基础语素,作为一组基础语素;[0014] 针对每组所述基础语素,计算每个所述基础语素与所述目标数据的相关性得分;[0015] 将所述相关性得分进行加权求和,得到该组基础语素与所述目标数据的相关性得分;[0016] 对所有相关性得分按照由大到小的顺序进行排序,并从前往后选取n个候选结果,作为召回的候选结果。[0017] 可选地,所述将所述相关性得分进行加权求和,得到该组基础语素与所述目标数据的相关性得分包括:[0018] 采用如下公式计算该组基础语素与目标数据的相关性得分:[0019][0020] 其中,Score(Q,d)为该组基础语素与目标数据的相关性得分,Q表示候选结果,qi表示每个候选结果解析之后的一个语素,d为目标数据;w表示语素qi的权重;R(qi,d)表示语素qi与目标数据d的相关性得分。[0021] 可选地,所述对所有相关性得分按照由大到小的顺序进行排序,并从前往后选取n个候选结果,作为召回的候选结果包括:[0022] 获取预设相关性得分阈值;[0023] 将n个召回的候选结果对应的相关性得分与所述预设相关性得分阈值进行比较,得到比较结果;[0024] 若比较结果中存在召回的候选结果对应的相关性得分小于所述预设相关性得分阈值,则将该类候选结果作为无效候选结果,并从所述召回的候选结果中剔除所述无效候选结果。[0025] 可选地,所述获取转译评分最高的k个转译文本数据,作为目标数据包括:[0026] 基于最小堆Top‑k算法,从所有转译文本数据中,任意选取k个转译文本数据的转译评分,建立最小堆,其中,所述最小堆包括堆顶,所述堆顶为k个转译文本数据的转译评分中的最小分数,未被选取的转译文本数据作为剩余转译数据;[0027] 选取所述剩余转译数据中任一个的转译评分,作为对比评分,并将所述对比评分与所述堆顶的评分进行比较,直到所述剩余转译数据选取完毕;[0028] 若所述对比评分不大于所述堆顶的评分,则返回选取任一个剩余转译数据的评分,作为对比评分继续执行;[0029] 若所述对比评分大于所述堆顶的评分,则将所述对比评分,作为新的堆顶的评分。[0030] 可选地,所述通过所述孪生网络模型分析转译文本和候选结果之间的文本语义匹配度,得到相似度得分包括:[0031] 采用长短时记忆神经网络分别对来对转译文本和候选结果进行编码,得到第一编码和第二编码;[0032] 采用曼哈顿距离来度量所述第一编码和第二编码的空间相似度;[0033] 基于所述空间相似度,确定所述相似度得分。[0034] 可选地,所述在获取目标结果对应的转译文本数据,作为识别结果之后,还包括:[0035] 将所述转译文本数据和识别结果作为新的标注数据;[0036] 采用所述新的标注数据对所述孪生网络模型进行训练,得到更新后的孪生网络模型。[0037] 一种基于人工智能的语义识别装置,包括:[0038] 数据接收模块,用于接收客户端发送的语音应答数据;[0039] 文本转译模块,用于采用语音识别算法对语音应答数据进行语音转文本处理,得到至少两个转译文本数据;[0040] 数据评分模块,用于通过预设的转译评估模型对所述转译文本数据进行转译评分,并获取转译评分最高的k个转译文本数据,作为目标数据,其中,k为正整数;[0041] 关联召回模块,用于针对每个所述目标数据,通过设定的召回策略,从数据库中召回与所述目标数据关联的n个候选结果,其中,n为正整数,每个所述目标数据对应所述数据库中的多个候选结果;[0042] 语义匹配模块,用于将每个目标数据及召回的候选结果传入到孪生网络模型中,通过所述孪生网络模型分析转译文本和候选结果之间的文本语义匹配度,得到相似度得分;[0043] 结果确定模块,用于结合转译评分以及相似度得分确定综合评分,按综合评分由高到低对所有预测结果进行排列,返回评分最高的预测结果,作为目标结果,并获取目标结果对应的转译文本数据,作为识别结果。[0044] 可选地,所述关联召回模块包括:[0045] 语素解析单元,用于对数据库中所述目标数据对应的每个候选结果进行语素解析,得到若干基础语素,将同一候选结果对应的基础语素,作为一组基础语素;[0046] 第一相关性计算单元,用于针对每组所述基础语素,计算每个所述基础语素与所述目标数据的相关性得分;[0047] 第二相关性计算单元,用于将所述相关性得分进行加权求和,得到该组基础语素与所述目标数据的相关性得分;[0048] 候选结果确定单元,用于对所有相关性得分按照由大到小的顺序进行排序,并从前往后选取n个候选结果,作为召回的候选结果。[0049] 可选地,所述第二相关性计算单元包括:[0050] 计算子单元,用于采用如下公式计算该组基础语素与所述目标数据的相关性得分:[0051][0052] 其中,Score(Q,d)为该组基础语素与目标数据的相关性得分,Q表示候选结果,qi表示每候选结果解析之后的一个语素,d为目标数据;W表示语素qi的权重;R(qi,d)表示语素qi与目标数据d的相关性得分。[0053] 可选地,所述候选结果确定单元包括:[0054] 阈值获取子单元,用于获取预设相关性得分阈值;[0055] 比较子单元,用于将n个召回的候选结果对应的相关性得分与所述预设相关性得分阈值进行比较,得到比较结果;[0056] 候选结果更新子单元,用于若比较结果中存在召回的候选结果对应的相关性得分小于所述预设相关性得分阈值,则将该类候选结果作为无效候选结果,并从所述召回的候选结果中剔除所述无效候选结果。[0057] 可选地,所述数据评分模块包括:[0058] 最小堆构建单元,用于基于最小堆Top‑k算法,从所有转译文本数据中,任意选取k个转译文本数据的转译评分,建立最小堆,其中,所述最小堆包括堆顶,所述堆顶为k个转译文本数据的转译评分中的最小分数,未被选取的转译文本数据作为剩余转译数据;[0059] 比对单元,用于选取所述剩余转译数据中任一个的转译评分,作为对比评分,并将所述对比评分与所述堆顶的评分进行比较,直到所述剩余转译数据选取完毕;[0060] 第一执行单元,用于若所述对比评分不大于所述堆顶的评分,则返回选取任一个剩余转译数据的评分,作为对比评分继续执行;[0061] 第二执行单元,用于若所述对比评分大于所述堆顶的评分,则将所述对比评分,作为新的堆顶的评分。[0062] 可选地,所述语义匹配模块包括:[0063] 编码单元,用于采用长短时记忆神经网络分别对来对转译文本和候选结果进行编码,得到第一编码和第二编码;[0064] 相似度计算单元,用于采用曼哈顿距离来度量所述第一编码和第二编码的空间相似度;[0065] 评分确定单元,用于基于所述空间相似度,确定所述相似度得分。[0066] 可选地,所述装置包括:[0067] 标注数据确定模块,用于将所述转译文本数据和识别结果作为新的标注数据;[0068] 更新训练模块,用于采用所述新的标注数据对所述孪生网络模型进行训练,得到更新后的孪生网络模型。[0069] 一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于人工智能的语义识别方法的步骤。[0070] 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于人工智能的语义识别方法的步骤。[0071] 本发明实施例提供的基于人工智能的语义识别方法、装置、计算机设备及存储介质,一方面,通过接收客户端发送的语音应答数据,采用语音识别算法对语音应答数据进行语音转文本处理,得到至少两个转译文本数据,进而通过预设的转译评估模型对转译文本数据进行转译评分,并获取转译评分最高的k个转译文本数据,作为目标数据,避免采用单一转译结果作为语义转译结果导致的识别误差,有利于提高识别准确率,另一方面,针对每个目标数据,通过设定的召回策略,从数据库中召回与目标数据关联的n个候选结果,将每个目标数据及召回的候选结果传入到孪生网络模型中,通过孪生网络模型分析转译文本和候选结果之间的文本语义匹配度,得到相似度得分,结合转译评分以及相似度得分确定综合评分,按综合评分由高到低对所有预测结果进行排列,返回评分最高的预测结果,作为目标结果,并获取目标结果对应的转译文本数据,作为识别结果,实现依托数据库中的候选结果,对转译后的目标数据进行匹配预测,得到语义较为精准的识别结果,提高了语义识别的准确率。附图说明[0072] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。[0073] 图1是本发明实施例提供的基于人工智能的语义识别方法的应用示意图;[0074] 图2是本发明实施例提供的基于人工智能的语义识别方法的实现流程图;[0075] 图3是本发明实施例提供的基于人工智能的语义识别装置的示意图;[0076] 图4是本发明实施例提供的计算机设备的示意图。具体实施方式[0077] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0078] 本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。[0079] 人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。[0080] 请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。[0081] 用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。[0082] 终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureEpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureEpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。[0083] 服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。[0084] 服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。[0085] 需要说明的是,本申请实施例所提供的基于人工智能的语义识别方法由服务器执行,相应地,基于人工智能的语义识别设置于服务器中。[0086] 应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。[0087] 请参阅图2,图2示出本发明实施例提供的一种基于人工智能的语义识别方法,详述如下:[0088] S201:接收客户端发送的语音应答数据。[0089] 具体地,通过网络传输协议,接收客户端的在语音咨询过程中的语音应答数据,其中,语音应答数据是指客户端与服务端进行通讯过程中,客户端向服务端发送的语音数据。[0090] S202:采用语音识别算法对语音应答数据进行语音转文本处理,得到至少两个转译文本数据。[0091] 其中,语音识别算法(AutomaticSpeechRecognition)是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言的算法模型。语音识别技术让机器通过识别和理解过程把语音信号转变为相应的文本或命令,是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系,语音识别本质上是一种模式识别,包括特征提取、模式匹配、参考模式库等三个基本单元。[0092] 需要说明的是,本实施例中的语音识别算法包括多个不同的转译模型,基于不同转译模型,得到至少两个不同的转译文本数据。[0093] 具体地转译模型包括但不限于隐马尔可夫模型(HiddenMarkovModel,HMM)、线性预测倒谱系数(LPCC)和Mel倒谱系数(MFCC)等。[0094] S203:通过预设的转译评估模型对转译文本数据进行转译评分,并获取转译评分最高的k个转译文本数据,作为目标数据,其中,k为正整数。[0095] 其中,预设的转译评估模型是指预先设置的通过语法规范性和词义搭配的合理性规则,对转译文本进行评分的模型,可以基于实际场景需要设定相应语法规范和词义搭配规则,此处不做具体限定。[0096] 在一可选实施方式中,步骤S203中,获取转译评分最高的k个转译文本数据,作为目标数据包括:[0097] 基于最小堆Top‑k算法,从所有转译文本数据中,任意选取k个转译文本数据的转译评分,建立最小堆,其中,最小堆包括堆顶,堆顶为k个转译文本数据的转译评分中的最小分数,未被选取的转译文本数据作为剩余转译数据;[0098] 选取剩余转译数据中任一个的转译评分,作为对比评分,并将对比评分与堆顶的评分进行比较,直到剩余转译数据选取完毕;[0099] 若对比评分不大于堆顶的评分,则返回选取任一个剩余转译数据的评分,作为对比评分继续执行;[0100] 若对比评分大于堆顶的评分,则将对比评分,作为新的堆顶的评分。[0101] S204:针对每个目标数据,通过设定的召回策略,从数据库中召回与目标数据关联的n个候选结果,其中,n为正整数,每个目标数据对应数据库中的多个候选结果。[0102] 具体地,每个目标数据在数据库中对应多个候选结果,候选结果为数据库存储的与目标数据语境相同的标准语句,具体获取n个候选结果的方式,可参考后续实施例的描述。[0103] 在一可选实施方式中,步骤S204中,通过设定的召回策略从数据库中召回与目标数据关联的n个候选结果包括:[0104] 对数据库中目标数据对应的每个候选结果进行语素解析,得到若干基础语素,将同一候选结果对应的基础语素,作为一组基础语素;[0105] 针对每组基础语素,计算每个基础语素与目标数据的相关性得分;[0106] 将相关性得分进行加权求和,得到该组基础语素与目标数据的相关性得分;[0107] 对所有相关性得分按照由大到小的顺序进行排序,并从前往后选取n个候选结果,作为召回的候选结果。[0108] 需要说明的是,具体加权的方式,可以根据每个语素的出现频率、词性等,预先设定动态生成权重条件,进而根据权重对语素进行加权处理,此处不作具体限定。[0109] 在一可选实施方式中,将相关性得分进行加权求和,得到该组基础语素与目标数据的相关性得分包括:[0110] 采用如下公式计算该组基础语素与目标数据的相关性得分:[0111][0112] 其中,Score(Q,d)为该组基础语素与目标数据的相关性得分,Q表示候选结果,qi表示每候选结果解析之后的一个语素,d为目标数据;W表示语素qi的权重;R(qi,d)表示语素qi与目标数据d的相关性得分。[0113] 在一可选实施方式中,对所有相关性得分按照由大到小的顺序进行排序,并从前往后选取n个候选结果,作为召回的候选结果包括:[0114] 获取预设相关性得分阈值;[0115] 将n个召回的候选结果对应的相关性得分与预设相关性得分阈值进行比较,得到比较结果;[0116] 若比较结果中存在召回的候选结果对应的相关性得分小于预设相关性得分阈值,则将该类候选结果作为无效候选结果,并从召回的候选结果中剔除无效候选结果。[0117] 其中,预设相关性得分阈值可根据实际应用场景进行设定,此处不作具体限制。[0118] S205:将每个目标数据及召回的候选结果传入到孪生网络模型中,通过孪生网络模型分析转译文本和候选结果之间的文本语义匹配度,得到相似度得分。[0119] 具体地,孪生神经网络(Siameseneuralnetwork),又名双生神经网络,是基于两个人工神经网络建立的耦合构架。孪生神经网络以两个样本为输入,输出其嵌入高维度空间的表征,以比较两个样本的相似程度。狭义的孪生神经网络由两个结构相同,且权重共享的神经网络拼接而成。广义的孪生神经网络,或“伪孪生神经网络(pseudo‑siamesenetwork)”,可由任意两个神经网拼接而成。孪生神经网络通常具有深度结构,可由卷积神经网络、循环神经网络等组成。本实施例中,将目标数据和召回的候选结果作为孪生网络模型的输入,通过孪生网络模型进行匹配计算,得到目标数据及召回的候选结果的相似度得分。[0120] 在一可选实施方式中,步骤S205中,通过孪生网络模型分析转译文本和候选结果之间的文本语义匹配度,得到相似度得分包括:[0121] 采用长短时记忆神经网络分别对来对转译文本和候选结果进行编码,得到第一编码和第二编码;[0122] 采用曼哈顿距离来度量第一编码和第二编码的空间相似度;[0123] 基于空间相似度,确定相似度得分。[0124] 其中,长短期记忆网络(LSTM,LongShort‑TermMemory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。[0125] 在本申请中,考虑到语句中每个词汇在不同语境中不尽相同,采用长期记忆网络可以结合上下文对语义进行加权,有利于提高得到编码的准确性,进而提升后续相似度得分计算的准确性。[0126] S206:结合转译评分以及相似度得分确定综合评分,按综合评分由高到低对所有预测结果进行排列,返回评分最高的预测结果,作为目标结果,并获取目标结果对应的转译文本数据,作为识别结果。[0127] 具体地,通过对转译评分以及相似度得分进行综合,得到综合得分,进而按照综合评分由高到低的顺序进行排序,并基于排序后的序列,对综合评分对应的预测结果进行排序,并选取综合评分分值最高的预测结果作为目标结果,再获取目标结果对应的转译文本数据,作为最终的识别结果。[0128] 在一可选实施方式中,步骤S206之后,也即,在获取目标结果对应的转译文本数据,作为识别结果之后,还包括:[0129] 将转译文本数据和识别结果作为新的标注数据;[0130] 采用新的标注数据对孪生网络模型进行训练,得到更新后的孪生网络模型。[0131] 通过记录语音识别过程中的转译文本,作为新的标注数据,以优化语音识别算法的准确率。另外记录孪生网络模型的历史预测结果,标注后构建新的训练数据,以优化模型的文本匹配能力,有利于提高语义识别的精准性。[0132] 本实施例中,一方面,通过接收客户端发送的语音应答数据,采用语音识别算法对语音应答数据进行语音转文本处理,得到至少两个转译文本数据,进而通过预设的转译评估模型对转译文本数据进行转译评分,并获取转译评分最高的k个转译文本数据,作为目标数据,避免采用单一转译结果作为语义转译结果导致的识别误差,有利于提高识别准确率,另一方面,针对每个目标数据,通过设定的召回策略,从数据库中召回与目标数据关联的n个候选结果,将每个目标数据及召回的候选结果传入到孪生网络模型中,通过孪生网络模型分析转译文本和候选结果之间的文本语义匹配度,得到相似度得分,结合转译评分以及相似度得分确定综合评分,按综合评分由高到低对所有预测结果进行排列,返回评分最高的预测结果,作为目标结果,并获取目标结果对应的转译文本数据,作为识别结果,实现依托数据库中的候选结果,对转译后的目标数据进行匹配预测,得到语义较为精准的识别结果,提高了语义识别的准确率。[0133] 应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。[0134] 在一实施例中,提供一种基于人工智能的语义识别装置,该基于人工智能的语义识别装置与上述实施例中基于人工智能的语义识别方法一一对应。如图3所示,图3为该基于人工智能的语义识别装置的示意图,包括:数据接收模块31、文本转译模块32、数据评分模块33、关联召回模块34、语义匹配模块35和结果确定模块36。各功能模块详细说明如下:[0135] 数据接收模块31,用于接收客户端发送的语音应答数据;[0136] 文本转译模块32,用于采用语音识别算法对语音应答数据进行语音转文本处理,得到至少两个转译文本数据;[0137] 数据评分模块33,用于通过预设的转译评估模型对转译文本数据进行转译评分,并获取转译评分最高的k个转译文本数据,作为目标数据,其中,k为正整数;[0138] 关联召回模块34,用于针对每个目标数据,通过设定的召回策略,从数据库中召回与目标数据关联的n个候选结果,其中,n为正整数,每个目标数据对应数据库中的多个候选结果;[0139] 语义匹配模块35,用于将每个目标数据及召回的候选结果传入到孪生网络模型中,通过孪生网络模型分析转译文本和候选结果之间的文本语义匹配度,得到相似度得分;[0140] 结果确定模块36,用于结合转译评分以及相似度得分确定综合评分,按综合评分由高到低对所有预测结果进行排列,返回评分最高的预测结果,作为目标结果,并获取目标结果对应的转译文本数据,作为识别结果。[0141] 可选地,关联召回模块34包括:[0142] 语素解析单元,用于对数据库中目标数据对应的每个候选结果进行语素解析,得到若干基础语素,将同一候选结果对应的基础语素,作为一组基础语素;[0143] 第一相关性计算单元,用于针对每组基础语素,计算每个基础语素与目标数据的相关性得分;[0144] 第二相关性计算单元,用于将相关性得分进行加权求和,得到该组基础语素与目标数据的相关性得分;[0145] 候选结果确定单元,用于对所有相关性得分按照由大到小的顺序进行排序,并从前往后选取n个候选结果,作为召回的候选结果。[0146] 可选地,第二相关性计算单元包括:[0147] 计算子单元,用于采用如下公式计算该组基础语素与目标数据的相关性得分:[0148] 采用如下公式计算该组基础语素与目标数据的相关性得分:[0149][0150] 其中,Score(Q,d)为该组基础语素与目标数据的相关性得分,Q表示候选结果,qi表示每候选结果解析之后的一个语素,d为目标数据;W表示语素qi的权重;R(qi,d)表示语素qi与目标数据d的相关性得分。[0151] 可选地,候选结果确定单元包括:[0152] 阈值获取子单元,用于获取预设相关性得分阈值;[0153] 比较子单元,用于将n个召回的候选结果对应的相关性得分与预设相关性得分阈值进行比较,得到比较结果;[0154] 候选结果更新子单元,用于若比较结果中存在召回的候选结果对应的相关性得分小于预设相关性得分阈值,则将该类候选结果作为无效候选结果,并从召回的候选结果中剔除无效候选结果。[0155] 可选地,数据评分模块33包括:[0156] 最小堆构建单元,用于基于最小堆Top‑k算法,从所有转译文本数据中,任意选取k个转译文本数据的转译评分,建立最小堆,其中,最小堆包括堆顶,堆顶为k个转译文本数据的转译评分中的最小分数,未被选取的转译文本数据作为剩余转译数据;[0157] 比对单元,用于选取剩余转译数据中任一个的转译评分,作为对比评分,并将对比评分与堆顶的评分进行比较,直到剩余转译数据选取完毕;[0158] 第一执行单元,用于若对比评分不大于堆顶的评分,则返回选取任一个剩余转译数据的评分,作为对比评分继续执行;[0159] 第二执行单元,用于若对比评分大于堆顶的评分,则将对比评分,作为新的堆顶的评分。[0160] 可选地,语义匹配模块35包括:[0161] 编码单元,用于采用长短时记忆神经网络分别对来对转译文本和候选结果进行编码,得到第一编码和第二编码;[0162] 相似度计算单元,用于采用曼哈顿距离来度量第一编码和第二编码的空间相似度;[0163] 评分确定单元,用于基于空间相似度,确定相似度得分。[0164] 可选地,该基于人工智能的语义识别装置还包括:[0165] 标注数据确定模块,用于将转译文本数据和识别结果作为新的标注数据;[0166] 更新训练模块,用于采用新的标注数据对孪生网络模型进行训练,得到更新后的孪生网络模型。[0167] 关于基于人工智能的语义识别装置的具体限定可以参见上文中对于基于人工智能的语义识别方法的限定,在此不再赘述。上述基于人工智能的语义识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。[0168] 为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。[0169] 所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、可编程门阵列(Field-ProgrammableGateArray,FPGA)、数字处理器(DigitalSignalProcessor,DSP)、嵌入式设备等。[0170] 所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。[0171] 所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。[0172] 所述处理器42在一些实施例中可以是中央处理器(CentralProcessingUnit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据。[0173] 所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。[0174] 本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的信息访问方法的步骤。[0175] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。[0176] 显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
专利地区:广东
专利申请日期:2021-12-15
专利公开日期:2024-07-26
专利公告号:CN114218356B