可左右滑动选省市

基于深度学习的自然语言处理方法及系统发明专利

更新时间:2024-07-01
基于深度学习的自然语言处理方法及系统发明专利 专利申请类型:发明专利;
地区:辽宁-沈阳;
源自:沈阳高价值专利检索信息库;

专利名称:基于深度学习的自然语言处理方法及系统

专利类型:发明专利

专利申请号:CN202210868077.5

专利申请(专利权)人:东北大学
权利人地址:辽宁省沈阳市浑南区东北大学浑南校区

专利发明(设计)人:金启亮,姜琳颖

专利摘要:本发明提供一种基于深度学习的自然语言处理方法及系统,通过对目标少儿的少儿属性进行量化处理得到少儿属性量化值,根据所述少儿属性量化值对预设采集间隔时长进行偏移处理,得到第一采集间隔时长;当声音采集装置接收到唤醒词后,声音采集装置对声音进行采集得到音频数据,所述音频数据包括至少一个音频采集信息,以及音频采集信息所对应的采集时间信息;对音频采集信息进行识别,若判断具有与目标少儿对应的音频采集信息,则基于第一采集间隔时长对目标少儿对应的音频采集信息进行处理,得到少儿指令信息或成人指令信息,提高了少儿语音识别的准确度。

主权利要求:
1.一种基于深度学习的自然语言处理方法,其特征在于,包括:对目标少儿的少儿属性进行量化处理得到少儿属性量化值,根据所述少儿属性量化值对预设采集间隔时长进行偏移处理,得到第一采集间隔时长;
当声音采集装置接收到唤醒词后,声音采集装置对声音进行采集得到音频数据,所述音频数据包括至少一个音频采集信息,以及音频采集信息所对应的采集时间信息;
对音频采集信息进行识别,若判断具有与目标少儿对应的音频采集信息,则基于第一采集间隔时长对目标少儿对应的音频采集信息进行处理,得到少儿指令信息或成人指令信息;
少儿属性进行量化处理得到少儿属性量化值,根据所述少儿属性量化值对所述预设采集间隔时长进行偏移处理,得到第一目标采集间隔时长,包括:根据述少儿年龄信息进行量化处理,得到少儿属性量化值;
若所述少儿属性量化值大于最小预设量化值,则根据所述少儿属性量化值对所述预设采集间隔时长进行偏移处理,得到第一目标采集间隔时长;
通过以下公式得到第一目标采集间隔时长,
其中,ych为少儿属性量化值,ymin为最小预设量化值,M1为第一目标采集间隔时长, 为量化基准值,m为预设采集间隔时长,ktarget为第一目标采集间隔时长权重;
若所述少儿属性量化值小于最小预设量化值,则不生成第一目标采集间隔时长;
在接收到唤醒词之前,还包括以下步骤:
声音采集装置间隔预设时长采集环境声音,得到环境音频采集信息;
提取环境音频采集信息中声波波形,得到第一噪声波形信息,确定与所述第一噪声波形信息相反波形的第二噪声波形信息;
对音频采集信息进行识别,包括:
根据所述采集时间信息以及第二噪声波形信息生成第三噪声波形信息;
提取每个音频采集信息中的声波波形,得到第一组合波形信息;
根据所述第三噪声波形信息对所述第一组合波形信息进行融合处理,得到第二组合波形信息;
确定第二组合波形信息中相反的波形作为待剔除波形,将所述待剔除波形于所述第二组合波形信息内剔除,得到第三组合波形信息;
获取第三组合波形信息中每个声波波形的区间信息;
若所述声波波形的区间信息不在预设区间范围内,则判断所述声波波形为成人声波;
若所述声波波形的区间信息在所述预设区间范围内,则判断所述声波波形为少儿声波;
若判断同时存在成人声波和少儿声波,确定最终的成人声波所对应的音频采集信息;
若判断只存在成人声波或少儿声波中的一个,则确定最终的成人声波或少儿声波对应的音频采集信息;或,对音频采集信息进行识别,包括:
提取每个音频采集信息中的音色信息;
若判断所述音色信息中同时存在成人音色和少儿音色,则将成人音色对应的音频采集信息确定为最终的音频采集信息;
若判断只存在成人音色或少儿音色中的一个,则确定最终的成人音色或少儿音色的音频采集信息。
2.根据权利要求1所述的方法,其特征在于,还包括:依据用户主动输入第二目标采集间隔时长,将所述第一目标采集间隔时长调整为第二目标采集间隔时长;
若所述第二目标采集间隔时长大于第一目标采集间隔时长,则确定增加系数;
根据所述第二目标采集间隔时长与所述第一目标采集间隔时长的差值,生成增加差值;
根据所述增加系数和增加差值对所述第一目标采集间隔时长权重进行增加调整,得到增加后第一目标采集间隔时长权重;
通过以下公式得到增加后第一目标采集间隔时长权重,其中,kadd为增加后第一目标采集间隔时长权重,kM为第一目标采集间隔时长权重,A为增加系数,M2为第二目标采集间隔时长,M1为第一目标采集间隔时长,m为预设采集间隔时长。
3.根据权利要求2所述的方法,其特征在于,还包括:若所述第二目标采集间隔时长小于第一目标采集间隔时长,则确定减少系数;
根据所述第一目标采集间隔时长与所述第二目标采集间隔时长的差值,生成减少差值;
根据所述减少系数和减少差值对所述第一目标采集间隔时长权重进行减少调整,得到减少后第一目标采集间隔时长权重;
通过以下公式得到减少后第一目标采集间隔时长权重,其中,kreduce为减少后第一目标采集间隔时长权重,kM为第一目标采集间隔时长权重,I为减少系数,M3为第二目标采集间隔时长,M1为第一目标采集间隔时长,m为预设采集间隔时长。
4.根据权利要求1所述的方法,其特征在于,
根据所述采集时间信息以及第二噪声波形信息生成第三噪声波形信息,包括:若所述采集时间信息小于等于第二噪声波形信息对应的波形时间段,则根据所述采集时间信息对所述第二噪声波形信息进行截取,得到第三噪声波形信息;
若所述采集时间信息大于第二噪声波形信息对应的波形时间段,则根据所述采集时间信息、所述第二噪声波形信息对应的波形时间段确定补偿波形信息;
将所述第二噪声波形信息与所述补偿波形信息组合,得到与采集时间信息对应的第三噪声波形信息。
5.根据权利要求1所述的方法,其特征在于,
所述若判断具有与目标少儿对应的音频采集信息,则基于第一采集间隔时长对目标少儿对应的音频采集信息进行处理,包括:获取目标少儿对应的音频采集信息中的词语信息,根据所述词语信息的间隔时长生成词语间隔时长;
若所述词语间隔时长小于等于所述第一采集间隔时长,则将所述词语间隔时长对应的两个词语信息进行拼接处理;
若所述词语间隔时长大于所述第一采集间隔时长,则将所述词语间隔时长对应的两个词语信息进行分词处理。
6.一种基于深度学习的自然语言处理系统,其特征在于,包括:偏移模块,用于对目标少儿的少儿属性进行量化处理得到少儿属性量化值,根据所述少儿属性量化值对预设采集间隔时长进行偏移处理,得到第一采集间隔时长;
采集模块,用于当声音采集装置接收到唤醒词后,声音采集装置对声音进行采集得到音频数据,所述音频数据包括至少一个音频采集信息,以及音频采集信息所对应的采集时间信息;
识别模块,用于对音频采集信息进行识别,若判断具有与目标少儿对应的音频采集信息,则基于第一采集间隔时长对目标少儿对应的音频采集信息进行处理,得到少儿指令信息或成人指令信息;
少儿属性进行量化处理得到少儿属性量化值,根据所述少儿属性量化值对所述预设采集间隔时长进行偏移处理,得到第一目标采集间隔时长,包括:根据述少儿年龄信息进行量化处理,得到少儿属性量化值;
若所述少儿属性量化值大于最小预设量化值,则根据所述少儿属性量化值对所述预设采集间隔时长进行偏移处理,得到第一目标采集间隔时长;
通过以下公式得到第一目标采集间隔时长,
其中,ych为少儿属性量化值,ymin为最小预设量化值,M1为第一目标采集间隔时长, 为量化基准值,m为预设采集间隔时长,ktarget为第一目标采集间隔时长权重;
若所述少儿属性量化值小于最小预设量化值,则不生成第一目标采集间隔时长;
在接收到唤醒词之前,还包括以下步骤:
声音采集装置间隔预设时长采集环境声音,得到环境音频采集信息;
提取环境音频采集信息中声波波形,得到第一噪声波形信息,确定与所述第一噪声波形信息相反波形的第二噪声波形信息;
对音频采集信息进行识别,包括:
根据所述采集时间信息以及第二噪声波形信息生成第三噪声波形信息;
提取每个音频采集信息中的声波波形,得到第一组合波形信息;
根据所述第三噪声波形信息对所述第一组合波形信息进行融合处理,得到第二组合波形信息;
确定第二组合波形信息中相反的波形作为待剔除波形,将所述待剔除波形于所述第二组合波形信息内剔除,得到第三组合波形信息;
获取第三组合波形信息中每个声波波形的区间信息;
若所述声波波形的区间信息不在预设区间范围内,则判断所述声波波形为成人声波;
若所述声波波形的区间信息在所述预设区间范围内,则判断所述声波波形为少儿声波;
若判断同时存在成人声波和少儿声波,确定最终的成人声波所对应的音频采集信息;
若判断只存在成人声波或少儿声波中的一个,则确定最终的成人声波或少儿声波对应的音频采集信息;或,对音频采集信息进行识别,包括:
提取每个音频采集信息中的音色信息;
若判断所述音色信息中同时存在成人音色和少儿音色,则将成人音色对应的音频采集信息确定为最终的音频采集信息;
若判断只存在成人音色或少儿音色中的一个,则确定最终的成人音色或少儿音色的音频采集信息。 说明书 : 基于深度学习的自然语言处理方法及系统技术领域[0001] 本发明涉及数据处理技术,尤其涉及一种基于深度学习的自然语言处理方法及系统。背景技术[0002] 自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法;自然语言处理主要应用于机器翻译、舆情监测、语音识别等方面,其中,尤其是语音识别方面发展迅速,增强了人们与家电之间的交互。[0003] 随着科技的不断发展,人们越来越注重生活品质,具有语音识别的智能音箱也层出不穷,智能音箱通过语音识别分析出用户所表达的含义,从而通过网络控制家电进行相应的操作,极大的提升了用户体验,然而,目前现有智能音箱还无法很好的对少儿的声音做很好的识别,少儿由于年龄段的不同,对应的语速不同,导致语音识别性能降低,并且用户体验有所降低。[0004] 因此,如何针对少儿的发音特征进行很好的识别成为亟待解决的问题。发明内容[0005] 本发明实施例提供一种基于深度学习的自然语言处理方法及系统,可以根据不同少儿年龄段进行较好的语音识别,使得机器可以较为准确的识别出少儿指令。[0006] 本发明实施例的第一方面,提供一种基于深度学习的自然语言处理方法,包括:[0007] 对目标少儿的少儿属性进行量化处理得到少儿属性量化值,根据所述少儿属性量化值对预设采集间隔时长进行偏移处理,得到第一采集间隔时长;[0008] 当声音采集装置接收到唤醒词后,声音采集装置对声音进行采集得到音频数据,所述音频数据包括至少一个音频采集信息,以及音频采集信息所对应的采集时间信息;[0009] 对音频采集信息进行识别,若判断具有与目标少儿对应的音频采集信息,则基于第一采集间隔时长对目标少儿对应的音频采集信息进行处理,得到少儿指令信息或成人指令信息。[0010] 可选地,在第一方面的一种可能实现方式中,少儿属性进行量化处理得到少儿属性量化值,根据所述少儿属性量化值对所述预设采集间隔时长进行偏移处理,得到第一目标采集间隔时长,包括:[0011] 根据述少儿年龄信息进行量化处理,得到少儿属性量化值;[0012] 若所述少儿属性量化值大于最小预设量化值,则根据所述少儿属性量化值对所述预设采集间隔时长进行偏移处理,得到第一目标采集间隔时长;[0013] 通过以下公式得到第一目标采集间隔时长,[0014][0015] 其中,ych为少儿属性量化值,ymin为最小预设量化值,M1为第一目标采集间隔时长,为量化基准值,m为预设采集间隔时长,ktarget为第一目标采集间隔时长权重;[0016] 若所述少儿属性量化值小于最小预设量化值,则不生成第一目标采集间隔时长。[0017] 可选地,在第一方面的一种可能实现方式中,还包括:[0018] 依据用户主动输入第二目标采集间隔时长,将所述第一目标采集间隔时长调整为第二目标采集间隔时长;[0019] 若所述第二目标采集间隔时长大于第一目标采集间隔时长,则确定增加系数;[0020] 根据所述第二目标采集间隔时长与所述第一目标采集间隔时长的差值,生成增加差值;[0021] 根据所述增加系数和增加差值对所述第一目标采集间隔时长权重进行增加调整,得到增加后第一目标采集间隔时长权重;[0022] 通过以下公式得到增加后第一目标采集间隔时长权重,[0023][0024] 其中,kadd为增加后第一目标采集间隔时长权重,kM为第一目标采集间隔时长权重,A为增加系数,M2为第二目标采集间隔时长,M1为第一目标采集间隔时长,m为预设采集间隔时长。[0025] 可选地,在第一方面的一种可能实现方式中,还包括:[0026] 若所述第二目标采集间隔时长小于第一目标采集间隔时长,则确定减少系数;[0027] 根据所述第一目标采集间隔时长与所述第二目标采集间隔时长的差值,生成减少差值;[0028] 根据所述减少系数和减少差值对所述第一目标采集间隔时长权重进行减少调整,得到减少后第一目标采集间隔时长权重;[0029] 通过以下公式得到减少后第一目标采集间隔时长权重,[0030][0031] 其中,kreduce为减少后第一目标采集间隔时长权重,kM为第一目标采集间隔时长权重,I为减少系数,M3为第二目标采集间隔时长,M1为第一目标采集间隔时长,m为预设采集间隔时长。[0032] 可选地,在第一方面的一种可能实现方式中,在接收到唤醒词之前,还包括以下步骤:[0033] 声音采集装置间隔预设时长采集环境声音,得到环境音频采集信息;[0034] 提取环境音频采集信息中声波波形,得到第一噪声波形信息,确定与所述第一噪声波形信息相反波形的第二噪声波形信息。[0035] 可选地,在第一方面的一种可能实现方式中,对音频采集信息进行识别,包括:[0036] 根据所述采集时间信息以及第二噪声波形信息生成第三噪声波形信息;[0037] 提取每个音频采集信息中的声波波形,得到第一组合波形信息;[0038] 根据所述第三噪声波形信息对所述第一组合波形信息进行融合处理,得到第二组合波形信息;[0039] 确定第二组合波形信息中相反的波形作为待剔除波形,将所述待剔除波形于所述第二组合波形信息内剔除,得到第三组合波形信息;[0040] 获取第三组合波形信息中每个声波波形的区间信息;[0041] 若所述声波波形的区间信息不在所述预设区间范围内,则判断所述声波波形为成人声波;[0042] 若所述声波波形的区间信息在所述预设区间范围内,则判断所述声波波形为少儿声波;[0043] 若判断同时存在成人声波和少儿声波,确定最终的成人声波所对应的音频采集信息;[0044] 若判断只存在成人声波或少儿声波中的一个,则确定最终的成人声波或少儿声波对应的音频采集信息。[0045] 可选地,在第一方面的一种可能实现方式中,对音频采集信息进行识别,包括:[0046] 提取每个音频采集信息中的音色信息;[0047] 若判断所述音色信息中同时存在成人音色和少儿音色,则将成人音色对应的音频采集信息确定为最终的音频采集信息;[0048] 若判断只存在成人音色或少儿音色中的一个,则确定最终的成人音色或少儿音色的音频采集信息。[0049] 可选地,在第一方面的一种可能实现方式中,根据所述采集时间信息以及第二噪声波形信息生成第三噪声波形信息,包括:[0050] 若所述采集时间信息小于等于第二噪声波形信息对应的波形时间段,则根据所述采集时间信息对所述第二噪声波形信息进行截取,得到第三噪声波形信息;[0051] 若所述采集时间信息大于第二噪声波形信息对应的波形时间段,则根据所述采集时间信息、所述第二噪声波形信息对应的波形时间段确定补偿波形信息;[0052] 将所述第二噪声波形信息与所述补偿波形信息组合,得到与采集时间信息对应的第三噪声波形信息。[0053] 可选地,在第一方面的一种可能实现方式中,所述若判断具有与目标少儿对应的音频采集信息,则基于第一采集间隔时长对目标少儿对应的音频采集信息进行处理,包括:[0054] 获取目标少儿对应的音频采集信息中的词语信息,根据所述词语信息的间隔时长生成词语间隔时长;[0055] 若所述词语间隔时长小于等于所述第一采集间隔时长,则将所述词语间隔时长对应的两个词语信息进行拼接处理;[0056] 若所述词语间隔时长大于所述第一采集间隔时长,则将所述词语间隔时长对应的两个词语信息进行分词处理。[0057] 本发明实施例的第二方面,提供一种基于深度学习的自然语言处理系统,包括:[0058] 偏移模块,用于对目标少儿的少儿属性进行量化处理得到少儿属性量化值,根据所述少儿属性量化值对预设采集间隔时长进行偏移处理,得到第一采集间隔时长;[0059] 采集模块,用于当声音采集装置接收到唤醒词后,声音采集装置对声音进行采集得到音频数据,所述音频数据包括至少一个音频采集信息,以及音频采集信息所对应的采集时间信息;[0060] 识别模块,用于对音频采集信息进行识别,若判断具有与目标少儿对应的音频采集信息,则基于第一采集间隔时长对目标少儿对应的音频采集信息进行处理,得到少儿指令信息或成人指令信息。[0061] 本发明实施例的第三方面,提供一种电子设备,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行本发明第一方面及第一方面各种可能涉及的所述方法。[0062] 本发明实施例的第四方面,提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能涉及的所述方法。[0063] 本发明提供的一种基于深度学习的自然语言处理方法及系统,系统会根据不同少儿的年龄生成不同的第一目标采集间隔时长,少儿的年龄越小需要思考反应的时间越长,对应生成的第一目标采集间隔时长越长,随着少儿年龄的增大,思考反应的时间逐渐缩短,对应生成的第一目标采集间隔时长越短,针对少儿语音进行较好识别,并且本发明拥有自主学习调节功能,会主动记录用户的主动输入行为,当用户对第一目标采集间隔时长进行调整时,系统会自动对第一目标采集间隔时长权重进行更新,使得后续输出的结果更适用于该家庭的少儿,生成个性化的第一目标采集间隔时长,可以根据相同年龄的不同少儿生成不同的第一目标采集间隔时长,较好的提高了实用性以及适用范围。[0064] 本发明提供的技术方案,智能音箱在接收到唤醒词对声音进行采集之前,每间隔预设时长后,会自动采集固定时间下环境中一直存在的噪音,得到噪音的声波波形,通过生成相反波形的第二噪声波形信息,并根据采集时间信息确定需要的降噪的时长对第二噪声波形信息进行相应的截取或/和拼接处理得到第三噪声波形信息,对原采集声音进行降噪处理,对降噪后的声音进行语音识别,较好的提升语音识别的准确性。[0065] 本发明提供的技术方案,少儿由于声带未发育完全,声带振动频率高、声音较尖,成人由于经历了变声期,声带发育完全声带振动频率低,系统会根据声波波形的频率区间不同来判断是成人声波,还是少儿声波,如果同时存在成人声波和少儿声波,则听从成人指令,可以较好的对少儿声音和成人声音进行区分,同时存在时可以较好的阻止少儿的错误指令,或者,通过音频信息中的音色对成人音色或少儿音色进行区分,从而较好的对少儿声音和成人声音进行区分,当同时存在时,可以仅执行成人的指令,有效的阻止错误的少儿指令。[0066] 本发明提供的技术方案,当仅存在少儿语音时,系统则会获取儿对应的音频采集信息中的词语信息,根据每个词语之间的间隔时长得到对应的词语间隔时长,当词语间隔时长小于等于第一采集间隔时长时,则认为是同一句话,则进行将词语进行拼接处理生成完成的一段话,如果词语间隔时长大于第一采集间隔时长,则认为是多句话,对应可以连续执行多个少儿指令,较好的提升了用户的体验,针对少儿语音信息进行较好的识别。附图说明[0067] 图1为本发明所提供的技术方案的应用场景示意图;[0068] 图2为本发明所提供的一种基于深度学习的自然语言处理方法的流程图;[0069] 图3为本发明所提供的一种基于深度学习的自然语言处理系统的结构示意图;[0070] 图4为本发明提供的一种电子设备的硬件结构示意图。具体实施方式[0071] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0072] 本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。[0073] 应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。[0074] 应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。[0075] 应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含,“包含A、B或C”是指包含A、B、C三者之一,“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。[0076] 应当理解,在本发明中,“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。A与B的匹配,是A与B的相似度大于或等于预设的阈值。[0077] 取决于语境,如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。[0078] 下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。[0079] 如图1所示,为本发明所提供的技术方案的场景示意图,包括语音交互设备以及移动端,语音交互设备可以是智能音箱、智能机器人等具有语音识别的智能设备,移动端可以是手机、手环、电脑等连接设备,括语音交互设备以及移动端可以具有多个,用户通过移动端对少儿的年龄进行选择后传输至语音交互设备,生成对应年龄的第一采集间隔时长,根据第一采集间隔时长对少儿语音进行采集,并且可以根据不同的少儿的不同情况进行个性化的设置。[0080] 本发明提供一种基于深度学习的自然语言处理方法,如图2所示,包括:[0081] 步骤S110、对目标少儿的少儿属性进行量化处理得到少儿属性量化值,根据所述少儿属性量化值对预设采集间隔时长进行偏移处理,得到第一采集间隔时长。[0082] 本发明提供的技术方案,系统根据少儿的不同年龄进行量化处理得到少儿属性量化值,根据少儿属性量化值值的大小不同对预设采集间隔时长进行不同程度的偏移处理,得到不同的第一采集间隔时长,其中,少儿属性量化值可以理解为系统对不同年龄的少儿进行量化得出不同年龄段下对应的反应时长,可以理解的是,少儿的年龄信息可以是成人或少儿通过移动端提前输入的。[0083] 本发明提供的技术方案,在一个可能的实施方式中,步骤S110具体包括:[0084] 根据述少儿年龄信息进行量化处理,得到少儿属性量化值。[0085] 本发明提供的技术方案,系统根据不同少儿年龄进行量化处理,根据不同年龄下的少儿对应说话的反应时长进行量化统计,得到各年龄下对应的少儿属性量化值。[0086] 若所述少儿属性量化值大于最小预设量化值,则根据所述少儿属性量化值对所述预设采集间隔时长进行偏移处理,得到第一目标采集间隔时长。[0087] 本发明提供的技术方案,如果少儿属性量化值大于最小预设量化值,可以理解的是,过小的少儿无须进行语音识别,例如:3岁以下的儿童,很多还无法说出完整的话,则根据少儿属性量化值对所述预设采集间隔时长进行偏移处理,得到第一目标采集间隔时长,可以理解的是,会跟根据不同少儿的年龄得到不同的少儿属性量化值,根据少儿属性量化值对预设采集间隔时长进行偏移,年龄越小的少儿说话反应思考时间越长,对应的少儿属性量化值越大,年龄越打的少儿说话反应思考时间越端,对应的少儿属性量化值越小,根据少儿属性量化值的不同生成不同的第一目标采集间隔时长。[0088] 通过以下公式得到第一目标采集间隔时长,[0089][0090] 其中,ych为少儿属性量化值,ymin为最小预设量化值,M1为第一目标采集间隔时长,为量化基准值,m为预设采集间隔时长,ktarget为第一目标采集间隔时长权重,可以理解的是,少儿属性量化值ych是根据少儿的年龄进行量化处理得到的值,少儿属性量化值ych与第一目标采集间隔时长M1成反比,少儿的年龄越小对应的少儿属性量化值越小,对应的第一目标采集间隔时长越大,量化基准值 可以是人为预先设置的,可以理解为标准值。[0091] 若所述少儿属性量化值小于最小预设量化值,则不生成第一目标采集间隔时长。[0092] 本发明提供的技术方案,如果少儿属性量化值小于最小预设量化值,可以理解的是,如果少儿的年龄过小,则无需进行采集,则不生成第一目标采集间隔时长。[0093] 本发明提供的技术方案,会根据不同少儿的年龄不同,生成不同少儿属性量化值,针对不同年龄段的少儿生成不同的采集间隔时长,年龄越小的少儿对应说话的语速越慢,需要的声音采集间隔时长越长,例如:少儿说:我想…听…贝乐…虎…儿歌,使得智能音箱可以较好的对少儿语音进行识别。[0094] 本发明提供的技术方案,在一个可能的实施方式中,还包括:[0095] 依据用户主动输入第二目标采集间隔时长,将所述第一目标采集间隔时长调整为第二目标采集间隔时长。[0096] 本发明提供的技术方案,系统会依据用户主动输入第二目标采集间隔时长,将第一目标采集间隔时长调整为第二目标采集间隔时长,可以理解的是,第一目标采集间隔时长是系统自动生成的,第二目标采集间隔时长可以是家长进行设置的,也可以是少儿进行设置,将人为主动输入的第二目标采集间隔时长替代为第一目标采集间隔时长,可以通过人为进行个性化调整。[0097] 若所述第二目标采集间隔时长大于第一目标采集间隔时长,则确定增加系数。[0098] 本发明提供的技术方案,如果第二目标采集间隔时长大于第一目标采集间隔时长,则确定相应的增加系数,方便后续根据所述确定增加系数以及第二目标采集间隔时长与所述第一目标采集间隔时长的差值对第一目标采集间隔时长权重进行更新。[0099] 根据所述第二目标采集间隔时长与所述第一目标采集间隔时长的差值,生成增加差值。[0100] 本发明提供的技术方案,系统会根据第二目标采集间隔时长与第一目标采集间隔时长的差值生成增加差值,可以理解的是,相差越大,对第一目标采集间隔时长权重增加的就越大。[0101] 根据所述增加系数和增加差值对所述第一目标采集间隔时长权重进行增加调整,得到增加后第一目标采集间隔时长权重。[0102] 本发明提供的技术方案,系统根据增加系数和增加差值对所述第一目标采集间隔时长权重进行增加调整,得到增加后第一目标采集间隔时长权重,可以理解的是,根据人为进行调整的第二目标采集间隔时长以及增加系数对第一目标采集间隔时长权重进行增大处理,使得后续系统自动输出的后第一目标采集间隔时长更贴合少儿的说话语速,拥有个性化学习更新功能。[0103] 通过以下公式得到增加后第一目标采集间隔时长权重,[0104][0105] 其中,kadd为增加后第一目标采集间隔时长权重,kM为第一目标采集间隔时长权重,A为增加系数,M2为第二目标采集间隔时长,M1为第一目标采集间隔时长,m为预设采集间隔时长,M2‑M1为增加差值,可以理解的是,增加差值M2‑M1与增加后第一目标采集间隔时长权重kadd成正比。[0106] 本发明提供的技术方案,会主动记录调整行为并学习,对第一目标采集间隔时长权重进行自动更新,当少儿说话语速过慢时,这个时候成人或少儿会主动输入一个较长的采集间隔时长,系统会自动记录该行为并对第一目标采集间隔时长权重进行增加处理,使得后续自动输出的第一目标采集间隔时长自动增大,更贴合少儿的实际说话语速,拥有自主学习更行的功能,更有针对性的对少儿的语音进行识别。[0107] 本发明提供的技术方案,在一个可能的实施方式中,还包括:[0108] 若所述第二目标采集间隔时长小于第一目标采集间隔时长,则确定减少系数。[0109] 本发明提供的技术方案,如果第二目标采集间隔时长小于第一目标采集间隔时长,则确定减少系数,可以理解的是,当第二目标采集间隔时长小于第一目标采集间隔时长,说明成人或少儿主动设置的时间更短,说明此时少儿的语速较快,则可以依据少儿个人情况进行相应的减少设置,减少后续等待时长。[0110] 根据所述第一目标采集间隔时长与所述第二目标采集间隔时长的差值,生成减少差值。[0111] 本发明提供的技术方案,系统会根据第二目标采集间隔时长与所述第一目标采集间隔时长的差值,生成减少差值,可以理解的是,减少差值越大对应的第一目标采集间隔时长权重减少的越大,权重值越小,权重值越小后续生成的第一目标采集间隔时长越小,方便后续根据减少系数以及减少差值生成减少后第一目标采集间隔时长权重。[0112] 根据所述减少系数和减少差值对所述第一目标采集间隔时长权重进行减少调整,得到减少后第一目标采集间隔时长权重。[0113] 本发明提供的技术方案,根据减少系数和减少差值对所述第一目标采集间隔时长权重进行减少调整,得到减少后第一目标采集间隔时长权重,可以理解的是,根据人为进行调整的第二目标采集间隔时长以及减少系数对第一目标采集间隔时长权重进行减少处理,使得后续系统自动输出的后第一目标采集间隔时长更贴合少儿的说话语速,并且减少等待时间,拥有个性化学习更新功能。[0114] 通过以下公式得到减少后第一目标采集间隔时长权重,[0115][0116] 其中,kreduce为减少后第一目标采集间隔时长权重,kM为第一目标采集间隔时长权重,I为减少系数,M3为第二目标采集间隔时长,M1为第一目标采集间隔时长,m为预设采集间隔时长,M1‑M2为减少差值,可以理解的是,减少差值M1‑M2与减少后第一目标采集间隔时长权重kreduce成反比。[0117] 本发明提供的技术方案,会主动记录调整行为并学习,对第一目标采集间隔时长权重进行自动更新,当少儿说话语速较快时,这个时候成人或少儿会主动输入一个较短的采集间隔时长,系统会自动记录该行为并对第一目标采集间隔时长权重进行减少处理,使得后续自动输出的第一目标采集间隔时长自动减少,更贴合少儿的实际说话语速,拥有自主学习更行的功能,更有针对性的对少儿的语音进行识别,并且减少了等待时长。[0118] 步骤S120、当声音采集装置接收到唤醒词后,声音采集装置对声音进行采集得到音频数据,所述音频数据包括至少一个音频采集信息,以及音频采集信息所对应的采集时间信息。[0119] 本发明提供的技术方案,当声音采集装置接收到唤醒词后,声音采集装置会对后续声音进行实时采集,得到音频数据,所述音频数据包括至少一个音频采集信息,以及音频采集信息所对应的采集时间信息,其中,音频采集信息包括环境音频采集信息、成人音频采集信息、少儿音频采集信息,每个音频数据包括音色信息、波形信息以及词语信息,其中,声音采集装置可以是拾音器等声音采集装置,在此不做限定。[0120] 本发明提供的技术方案,在一个可能的实施方式中,在接收到唤醒词之前,还包括以下步骤:[0121] 声音采集装置间隔预设时长采集环境声音,得到环境音频采集信息。[0122] 发明提供的技术方案,声音采集装置间隔预设时长采集环境声音,得到环境音频采集信息,例如:拾音器每间隔10秒进行一次声音采集,每次采集的时长为6秒,对应则得到6秒的环境音频采集信息,方便后续根据环境音频采集信息反向波形进行声音的去噪,提取出成人音频采集信息或/和少儿音频采集信息,使得后续语音识别结果更加准确,减少了环境因素的影响。[0123] 提取环境音频采集信息中声波波形,得到第一噪声波形信息,确定与所述第一噪声波形信息相反波形的第二噪声波形信息。[0124] 发明提供的技术方案,系统会提取环境音频采集信息中声波波形,得到第一噪声波形信息,也就是环境的噪音波形图,确定与第一噪声波形信息相反波形的第二噪声波形信息,可以理解的是,取相反相位的声波波形图方便后续对一直存在的环境噪音进行消除,减少环境噪音导致的语音识别错误,提升识别准确度。[0125] 步骤S130、对音频采集信息进行识别,若判断具有与目标少儿对应的音频采集信息,则基于第一采集间隔时长对目标少儿对应的音频采集信息进行处理,得到少儿指令信息或成人指令信息。[0126] 本发明提供的技术方案,系统会对音频采集信息进行识别,如果判断出音频采集信息中具有少儿音频采集信息,则基于第一采集间隔时长对目标少儿对应的音频采集信息进行处理,得到少儿指令信息或成人指令信息,可以理解的是,本发明主要针对少儿语音进行识别处理,因此仅选取具有少儿音频采集信息的音频采集信息进行处理,对应可能的情况为:1、少儿音频采集信息和环境音频采集信息,2、少儿音频采集信息、成人音频采集信息和环境音频采集信息3、成人音频采集信息和环境音频采集信息,其中,如果同时存在成人与少儿的音频采集信息则说明两者同时发出指令,则执行成人指令信息,如果仅有少儿的指令则执行少儿指令。[0127] 本发明提供的技术方案,在一个可能的实施方式中,对音频采集信息进行识别,包括:[0128] 根据所述采集时间信息以及第二噪声波形信息生成第三噪声波形信息。[0129] 发明提供的技术方案,系统会根据所述采集时间信息以及第二噪声波形信息生成第三噪声波形信息,可以理解的是,系统会根据采集时间信息对应的时长,以及第二噪声波形信息对应的时长,通过截取或/和拼接的方式得到对应的第三噪声波形信息,使得第三噪声波形信息所对应的时长等于采集时间信息对应的时长,方便后续进行声音的融合降噪。[0130] 提取每个音频采集信息中的声波波形,得到第一组合波形信息。[0131] 发明提供的技术方案,系统会提取每个音频采集信息中的声波波形,得到第一组合波形信息,可以理解的是,系统会提取环境音频采集信息、成人音频采集信息、少儿音频采集信息中的声波波形,得到组合的声波信息,此时包含了环境噪音,其中,成人音频采集信息可以存在,也可以不存在,在此不做限定。[0132] 根据所述第三噪声波形信息对所述第一组合波形信息进行融合处理,得到第二组合波形信息。[0133] 发明提供的技术方案,系统会根据第三噪声波形信息(与环境噪音相反的波形)对第一组合波形信息进行融合处理,得到第二组合波形信息,可以理解的是,通过环境噪声相反波形进行了去噪,此时波形图中存在4个波形,分别为:第三噪声波形信息、成人声波、少儿声波以及环境声波,或者,波形图中存在3个波形,分别为:第三噪声波形信息、少儿声波以及环境声波,得到第二组合波形信息,或者,分别为:第三噪声波形信息、成人声波以及环境声波。[0134] 确定第二组合波形信息中相反的波形作为待剔除波形,将所述待剔除波形于所述第二组合波形信息内剔除,得到第三组合波形信息。[0135] 发明提供的技术方案,系统会确定第二组合波形信息中相反的波形作为待剔除波形,可以理解的是,相反的波形为第三噪声波形信息、环境声波,将两者作为待剔除声波,将待剔除波形于所述第二组合波形信息内剔除,得到第三组合波形信息,可以理解的是,此时第三组合波形信息内的波形信息可以为:少儿声波、成人声波、少儿声波和成人声波,对声音进行降噪后将多余的波形进行剔除,方便后续定位此时存在几种声波,是少儿和成人声波同时存在还是仅有少儿的声波,还是仅有成人声波。[0136] 获取第三组合波形信息中每个声波波形的区间信息。[0137] 发明提供的技术方案,系统自动获取第三组合波形信息中每个声波波形的声波频率区间,可以理解的是,少儿的声带尚未完全发育,声带振动频率较快,对应的声波频率区间较高,成人的声带完全发育,声带振动频率较蛮,对应的声波频率区间较低,通过声波的频率区间对少儿和成人的声音进行区分,可以较为准确的进行成人和少儿的声音区分,方便后续执行对应的指令,当同时发出指令时可以有效对少儿的错误指令进行阻止。[0138] 若所述声波波形的区间信息不在所述预设区间范围内,则判断所述声波波形为成人声波。[0139] 发明提供的技术方案,如果声波波形的频率区间信息不在预设的少儿频率区间范围内,则判断声波波形为成人声波,例如:预设区间范围:1200~120000hz,声波波形的区间信息为:100~1100hz,则判断声波波形为成人声波。[0140] 若所述声波波形的区间信息在所述预设区间范围内,则判断所述声波波形为少儿声波。[0141] 发明提供的技术方案,如果声波波形的频率区间信息在预设的少儿频率区间范围内,则判断声波波形为少儿声波,例如:预设区间范围:1200~120000hz,声波波形的区间信息为:3000~11000hz,则判断声波波形为少儿声波。[0142] 若判断同时存在成人声波和少儿声波,确定最终的成人声波所对应的音频采集信息。[0143] 发明提供的技术方案,如果判断同时存在成人声波和少儿声波,则确定最终的成人声波所对应的音频采集信息,例如:预设区间范围:1200~120000hz,声波波形的区间信息为:100~11000hz,则说明同时存在成人声波和少儿声波,则确定成人声波为最终的采集声音。[0144] 若判断只存在成人声波或少儿声波中的一个,则确定最终的成人声波或少儿声波对应的音频采集信息。[0145] 发明提供的技术方案,如果判断只存在成人声波或少儿声波中的一个,则确定成人声波或少儿声波对应的音频采集信息为最终的采集声音,预设区间范围:1200~120000hz,声波波形的区间信息为:100~1100hz,则判定成人音频采集信息为最终的采集声音,若声波波形的区间信息为:3000~11000hz,则判定少儿音频采集信息为最终的采集声音。[0146] 本发明提供的技术方案,在一个可能的实施方式中,根据所述采集时间信息以及第二噪声波形信息生成第三噪声波形信息,包括:[0147] 若所述采集时间信息小于等于第二噪声波形信息对应的波形时间段,则根据所述采集时间信息对所述第二噪声波形信息进行截取,得到第三噪声波形信息。[0148] 本发明提供的技术方案,如果所述采集时间信息小于等于第二噪声波形信息对应的波形时间段,则根据所述采集时间信息对所述第二噪声波形信息进行截取,得到第三噪声波形信息,例如:采集时间信息为:5秒小于第二噪声波形信息对应的波形时间段:6秒,则直接对第二噪声波形信息进行截取,截取相应5秒的第二噪声波形信息,方便后续对一直存在的环境噪音进行降噪处理。[0149] 若所述采集时间信息大于第二噪声波形信息对应的波形时间段,则根据所述采集时间信息、所述第二噪声波形信息对应的波形时间段确定补偿波形信息。[0150] 本发明提供的技术方案,如果采集时间信息大于第二噪声波形信息对应的波形时间段,则根据所述采集时间信息、所述第二噪声波形信息对应的波形时间段确定补偿波形信息,例如:采集时间信息为:15秒大于第二噪声波形信息对应的波形时间段:6秒,则根据15秒减去6秒,得到9秒时长,则直接确定需要9秒的补偿波形信息,或者根据9秒与6秒的比值得到1.5个,则需要补充对应时长或个数的补偿波形信息,方便后续生成对应时长的降噪波形,进行融合降噪。[0151] 将所述第二噪声波形信息与所述补偿波形信息组合,得到与采集时间信息对应的第三噪声波形信息。[0152] 本发明提供的技术方案,将第二噪声波形信息与所述补偿波形信息组合,得到与采集时间信息对应的第三噪声波形信息,可以理解的是,此时点的第三噪声波形信息对应的时长等于采集时间信息。[0153] 本发明提供的技术方案,在一个可能的实施方式中,对音频采集信息进行识别,包括:[0154] 提取每个音频采集信息中的音色信息。[0155] 本发明提供的技术方案,系统会提取每个音频采集信息中的音色信息,方便后续根据成人与少儿的音色不同,进行区分。[0156] 若判断所述音色信息中同时存在成人音色和少儿音色,则将成人音色对应的音频采集信息确定为最终的音频采集信息。[0157] 本发明提供的技术方案,如果判断所述音色信息中同时存在成人音色和少儿音色则将成人音色对应的音频采集信息确定为最终的音频采集信息,同时存在成人与少儿时,则选择成人语音信息进行执行。[0158] 若判断只存在成人音色或少儿音色中的一个,则确定最终的成人音色或少儿音色的音频采集信息。[0159] 本发明提供的技术方案,如果判断只存在成人音色或少儿音色中的一个,则确定最终的成人音色或少儿音色的音频采集信息。[0160] 本发明提供的技术方案,在一个可能的实施方式中,所述若判断具有与目标少儿对应的音频采集信息,则基于第一采集间隔时长对目标少儿对应的音频采集信息进行处理,包括:[0161] 获取目标少儿对应的音频采集信息中的词语信息,根据所述词语信息的间隔时长生成词语间隔时长。[0162] 本发明提供的技术方案,系统会获取目标少儿对应的音频采集信息中的词语信息,根据所述词语信息的间隔时长生成词语间隔时长,例如:少儿说:我想…听…贝乐…虎…儿歌,对应得到“我想”与“听”之间的词语间隔时长为2秒,“听”与“贝乐”之间的词语间隔时长为5秒,“贝乐”与“虎”之间的词语间隔时长为3秒,“虎”与“儿歌”之间的词语间隔时长为3秒,方便后续根据第一采集间隔时长将儿童的词语信息连接成句。[0163] 若所述词语间隔时长小于等于所述第一采集间隔时长,则将所述词语间隔时长对应的两个词语信息进行拼接处理。[0164] 本发明提供的技术方案,如果词语间隔时长小于等于所述第一采集间隔时长,则所述词语间隔时长对应的两个词语信息进行拼接处理,例如:第一采集间隔时长为:10秒,则“我想”与“听”之间的词语间隔时长为2秒,“听”与“贝乐”之间的词语间隔时长为5秒,“贝乐”与“虎”之间的词语间隔时长为3秒,“虎”与“儿歌”之间的词语间隔时长为3秒,均小于10秒,则将词语信息连接成句,我想听贝乐虎儿歌,可以根据不同少儿的年龄生成不同的第一采集间隔时长,进行连接成句,防止反应时间过长智能音箱无法识别。[0165] 若所述词语间隔时长大于所述第一采集间隔时长,则将所述词语间隔时长对应的两个词语信息进行分词处理。[0166] 本发明提供的技术方案,如果词语间隔时长大于所述第一采集间隔时长,则将所述词语间隔时长对应的两个词语信息进行分词处理,例如:第一采集间隔时长为:10秒,当少儿说:我想…听…贝乐…虎…儿歌后,过了一段时间又说,我…想看电影,则下个句子的“我”与“儿歌”的间隔时长为15秒,则进行分词分句处理。[0167] 为了更好的实现本发明所提供的一种基于深度学习的自然语言处理方法,本发明还提供一种基于深度学习的自然语言处理系统,如图3所示,包括:[0168] 偏移模块,用于对目标少儿的少儿属性进行量化处理得到少儿属性量化值,根据所述少儿属性量化值对预设采集间隔时长进行偏移处理,得到第一采集间隔时长;[0169] 采集模块,用于当声音采集装置接收到唤醒词后,声音采集装置对声音进行采集得到音频数据,所述音频数据包括至少一个音频采集信息,以及音频采集信息所对应的采集时间信息;[0170] 识别模块,用于对音频采集信息进行识别,若判断具有与目标少儿对应的音频采集信息,则基于第一采集间隔时长对目标少儿对应的音频采集信息进行处理,得到少儿指令信息或成人指令信息。[0171] 如图4所示,是本发明实施例提供的一种电子设备的硬件结构示意图,该电子设备50包括:处理器51、存储器52和计算机程序;其中[0172] 存储器52,用于存储所述计算机程序,该存储器还可以是闪存(flash)。所述计算机程序例如是实现上述方法的应用程序、功能模块等。[0173] 处理器51,用于执行所述存储器存储的计算机程序,以实现上述方法中设备执行的各个步骤。具体可以参见前面方法实施例中的相关描述。[0174] 可选地,存储器52既可以是独立的,也可以跟处理器51集成在一起。[0175] 当所述存储器52是独立于处理器51之外的器件时,所述设备还可以包括:[0176] 总线53,用于连接所述存储器52和处理器51。[0177] 本发明还提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。[0178] 其中,可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecificIntegratedCircuits,简称:ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD‑ROM、磁带、软盘和光数据存储设备等。[0179] 本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。[0180] 在上述设备的实施例中,应理解,处理器可以是中央处理单元(英文:CentralProcessingUnit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignalProcessor,简称:DSP)、专用集成电路(英文:ApplicationSpecificIntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。[0181] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

专利地区:辽宁

专利申请日期:2022-07-22

专利公开日期:2024-06-18

专利公告号:CN115312031B

电话咨询
读内容
搜本页
回顶部