专利名称:辅助课程教学效果评估方法及相关装置
专利类型:实用新型专利
专利申请号:CN202410580051.X
专利申请(专利权)人:深圳市大数据研究院
权利人地址:广东省深圳市龙岗区龙城街道龙翔大道2001号道远楼225室
专利发明(设计)人:张昕,卢芳,沈豪,张姗姗,刘瑞笛,赖宣似,钟淑芳
专利摘要:本申请实施例提供辅助课程教学效果评估方法及相关装置,涉及人工智能技术领域。该方法获取目标对象在辅助课程中的音频文本数据和视频文本数据,选取与参考文本数据的第一时间区间对应的至少一个第二时间区间作为参考时间区间,累加辅助类别对应的辅助时长,根据辅助时长在总时长中的占比得到辅助分值,利用参考时间区间对应的视频文本数据和参考文本数据计算语境匹配值;根据语境匹配值和辅助分值得到音频文本数据的片段评估值,基于片段评估值得到目标对象对于辅助课程的课堂评估值。通过时间对齐的方法将音频文本数据与视频文本数据相关联,综合分析教学过程中的情绪表达能力,再结合辅助分值来评估语言表达能力,使得评估结果更加准确。
主权利要求:
1.一种辅助课程教学效果评估方法,其特征在于,包括:
获取目标对象在辅助课程进行过程中的至少一个音频文本数据和至少一个视频文本数据,所述音频文本数据包括第一时间区间和声音类型,所述声音类型中包括指示空白片段的辅助类别,所述视频文本数据包括第二时间区间;
依次选取所述音频文本数据作为参考文本数据,选取与所述参考文本数据的所述第一时间区间对应的所述第二时间区间作为参考时间区间;
累加每个所述参考文本数据中所述辅助类别对应的辅助时长,根据所述辅助时长在所述第一时间区间对应的总时长中的占比得到辅助分值;
利用所述参考时间区间对应的所述视频文本数据和所述参考文本数据计算得到语境匹配值;
根据所述语境匹配值和所述辅助分值得到所述音频文本数据对应的片段评估值,基于至少一个所述片段评估值得到所述目标对象对于所述辅助课程的课堂评估结果;
所述视频文本数据还包括:动作类型和动作含义,所述动作类型包括目光类型、肢体类型和嘴部类型,所述利用所述参考时间区间对应的所述视频文本数据和所述参考文本数据计算得到语境匹配值,包括:当所述声音类型不是所述辅助类别时,获取所述参考时间区间对应的所述视频文本数据中的所述动作类型;
当所述动作类型为目光类型时,根据第一评估值得到所述语境匹配值;
当所述动作类型为肢体类型和/或嘴部类型时,根据所述动作含义和所述音频文本数据得到所述语境匹配值。
2.根据权利要求1所述的辅助课程教学效果评估方法,其特征在于,所述音频文本数据还包括识别内容,所述根据所述动作含义和所述音频文本数据得到所述语境匹配值,包括:若所述识别内容中不包含文字,获取所述第一时间区间对应的预设语境,根据所述预设语境、所述动作含义和所述声音类型计算第一语境匹配值;
若所述识别内容中包含文字,根据所述预设语境计算内容评估值,并根据第二评估值和所述内容评估值得到第二语境匹配值;
基于所述第一语境匹配值和第二语境匹配值得到所述语境匹配值。
3.根据权利要求2所述的辅助课程教学效果评估方法,其特征在于,所述根据所述预设语境、所述动作含义和所述声音类型计算第一语境匹配值,包括:若所述预设语境与所述声音类型和/或所述动作含义匹配,根据第三评估值得到所述第一语境匹配值;
若所述预设语境与所述声音类型和/或所述动作含义不匹配,根据第四评估值得到所述第一语境匹配值。
4.根据权利要求2所述的辅助课程教学效果评估方法,其特征在于,所述根据所述预设语境计算内容评估值,包括:统计所述识别内容对应的总字数,根据所述总字数和所述第一时间区间得到评估语速,并根据所述评估语速和标准语速计算得到语速评估值;
获取所述识别内容的重复属性,根据所述预设语境和所述重复属性得到重复评估值;
基于所述重复评估值和所述语速评估值得到所述内容评估值。
5.根据权利要求4所述的辅助课程教学效果评估方法,其特征在于,所述根据所述预设语境和所述重复属性得到重复评估值,包括:若所述预设语境与所述重复属性匹配,根据第五评估值得到所述重复评估值;
若所述预设语境与所述重复属性不匹配,根据第六评估值得到所述重复评估值。
6.根据权利要求4所述的辅助课程教学效果评估方法,其特征在于,所述获取所述识别内容中的重复属性,包括:获取所述识别内容中至少一个识别语句;
计算所述识别语句的相似度,若所述相似度高于预设相似度,生成指示内容重复的所述重复属性。
7.一种辅助课程教学效果评估装置,其特征在于,包括:
获取模块:用于获取目标对象在辅助课程进行过程中的至少一个音频文本数据和至少一个视频文本数据,所述音频文本数据包括第一时间区间和声音类型,所述声音类型中包括指示空白片段的辅助类别,所述视频文本数据包括第二时间区间;
时间对齐模块:用于依次选取所述音频文本数据作为参考文本数据,选取与所述参考文本数据的所述第一时间区间对应的所述第二时间区间作为参考时间区间;
辅助计算模块:用于累加每个所述参考文本数据中所述辅助类别对应的辅助时长,根据所述辅助时长在所述第一时间区间对应的总时长中的占比得到辅助分值;
语境匹配模块:用于利用所述参考时间区间对应的所述视频文本数据和所述参考文本数据计算得到语境匹配值;
评估计算模块:用于根据所述语境匹配值和所述辅助分值得到所述音频文本数据对应的片段评估值,基于至少一个所述片段评估值得到所述目标对象对于所述辅助课程的课堂评估结果;
所述视频文本数据还包括:动作类型和动作含义,所述动作类型包括目光类型、肢体类型和嘴部类型,所述利用所述参考时间区间对应的所述视频文本数据和所述参考文本数据计算得到语境匹配值,包括:当所述声音类型不是所述辅助类别时,获取所述参考时间区间对应的所述视频文本数据中的所述动作类型;
当所述动作类型为目光类型时,根据第一评估值得到所述语境匹配值;
当所述动作类型为肢体类型和/或嘴部类型时,根据所述动作含义和所述音频文本数据得到所述语境匹配值。
8.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的辅助课程教学效果评估方法。
9.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的辅助课程教学效果评估方法。 说明书 : 辅助课程教学效果评估方法及相关装置技术领域[0001] 本申请涉及人工智能技术领域,尤其涉及辅助课程教学效果评估方法及相关装置。背景技术[0002] 自闭症的辅助课程是一种针对自闭症儿童和成人的个性化和综合性的教育方案。其主要目标是提高患者的社交交往能力、语言沟通能力、学习能力和生活自理能力,以及减少行为问题和情绪障碍。[0003] 相关技术中利用辅助机器人运行辅助课程,通过教师观察患者在辅助课程中的反映,进行评估判断,从而人工评估辅助课程的课程效果。这种方式评估效率低,且容易受到教师资质、个人能力的影响,导致评估结果准确性不高。发明内容[0004] 本申请实施例的主要目的在于提出辅助课程教学效果评估方法及相关装置,提高辅助课程效果评估的效率和准确性。[0005] 为实现上述目的,本申请实施例的第一方面提出了一种辅助课程教学效果评估方法,包括:[0006] 获取目标对象在辅助课程进行过程中的至少一个音频文本数据和至少一个视频文本数据,所述音频文本数据包括第一时间区间和声音类型,所述声音类型中包括指示空白片段的辅助类别,所述视频文本数据包括第二时间区间;[0007] 依次选取所述音频文本数据作为参考文本数据,选取与所述参考文本数据的所述第一时间区间对应的所述第二时间区间作为参考时间区间;[0008] 累加每个所述参考文本数据中所述辅助类别对应的辅助时长,根据所述辅助时长在所述第一时间区间对应的总时长中的占比得到辅助分值;[0009] 利用所述参考时间区间对应的所述视频文本数据和所述参考文本数据计算得到语境匹配值;[0010] 根据所述语境匹配值和所述辅助分值得到所述音频文本数据对应的片段评估值,基于至少一个所述片段评估值得到所述目标对象对于所述辅助课程的课堂评估结果。[0011] 在一实施例中,所述视频文本数据还包括:动作类型和动作含义,所述动作类型包括目光类型、肢体类型和嘴部类型,所述利用所述参考时间区间对应的所述视频文本数据和所述参考文本数据计算得到语境匹配值,包括:[0012] 当所述声音类型不是所述辅助类别时,获取所述参考时间区间对应的所述视频文本数据中的所述动作类型;[0013] 当所述动作类型为目光类型时,根据第一评估值得到所述语境匹配值;[0014] 当所述动作类型为肢体类型和/或嘴部类型时,根据所述动作含义和所述音频文本数据得到所述语境匹配值。[0015] 在一实施例中,所述音频文本数据还包括识别内容,所述根据所述动作含义和所述音频文本数据得到所述语境匹配值,包括:[0016] 若所述识别内容中不包含文字,获取所述第一时间区间对应的预设语境,根据所述预设语境、所述动作含义和所述声音类型计算第一语境匹配值;[0017] 若所述识别内容中包含文字,根据所述预设语境计算内容评估值,并根据第二评估值和所述内容评估值得到第二语境匹配值;[0018] 基于所述第一语境匹配值和第二语境匹配值得到所述语境匹配值。[0019] 在一实施例中,所述根据所述预设语境、所述动作含义和所述声音类型计算第一语境匹配值,包括:[0020] 若所述预设语境与所述声音类型和/或所述动作含义匹配,根据第三评估值得到所述第一语境匹配值;[0021] 若所述预设语境与所述声音类型和/或所述动作含义不匹配,根据第四评估值得到所述第一语境匹配值。[0022] 在一实施例中,所述根据所述预设语境计算内容评估值,包括:[0023] 统计所述识别内容对应的总字数,根据所述总字数和所述第一时间区间得到评估语速,并根据所述评估语速和标准语速计算得到语速评估值;[0024] 获取所述识别内容的重复属性,根据所述预设语境和所述重复属性得到重复评估值;[0025] 基于所述重复评估值和所述语速评估值得到所述内容评估值。[0026] 在一实施例中,所述根据所述预设语境和所述重复属性得到重复评估值,包括:[0027] 若所述预设语境与所述重复属性匹配,根据第五评估值得到所述重复评估值;[0028] 若所述预设语境与所述重复属性不匹配,根据第六评估值得到所述重复评估值。[0029] 在一实施例中,所述获取所述识别内容中的重复属性,包括:[0030] 获取所述识别内容中至少一个识别语句;[0031] 计算所述识别语句的相似度,若所述相似度高于预设相似度,生成指示内容重复的所述重复属性。[0032] 为实现上述目的,本申请实施例的第二方面提出了一种辅助课程教学效果评估装置,包括:[0033] 获取模块:用于获取目标对象在辅助课程进行过程中的至少一个音频文本数据和至少一个视频文本数据,所述音频文本数据包括第一时间区间和声音类型,所述声音类型中包括指示空白片段的辅助类别,所述视频文本数据包括第二时间区间;[0034] 时间对齐模块:用于依次选取所述音频文本数据作为参考文本数据,选取与所述参考文本数据的所述第一时间区间对应的所述第二时间区间作为参考时间区间;[0035] 辅助计算模块:用于累加每个所述参考文本数据中所述辅助类别对应的辅助时长,根据所述辅助时长在所述第一时间区间对应的总时长中的占比得到辅助分值;[0036] 语境匹配模块:用于利用所述参考时间区间对应的所述视频文本数据和所述参考文本数据计算得到语境匹配值;[0037] 评估计算模块:用于根据所述语境匹配值和所述辅助分值得到所述音频文本数据对应的片段评估值,基于至少一个所述片段评估值得到所述目标对象对于所述辅助课程的课堂评估结果。[0038] 为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。[0039] 为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。[0040] 本申请实施例提出的辅助课程教学效果评估方法及相关装置,通过获取目标对象在辅助课程进行过程中的至少一个音频文本数据和至少一个视频文本数据,其中,音频文本数据包括指示空白片段的辅助类别,接着依次选取音频文本数据作为参考文本数据,选取与参考文本数据的第一时间区间对应的至少一个第二时间区间作为参考时间区间,累加每个参考文本数据中辅助类别对应的辅助时长,根据辅助时长在第一时间区间对应的总时长中的占比得到辅助分值,并利用参考时间区间对应的视频文本数据和参考文本数据计算得到语境匹配值;根据语境匹配值和辅助分值得到音频文本数据对应的片段评估值,基于至少一个片段评估值得到目标对象对于辅助课程的课堂评估值。本申请实施例通过将音视频数据转换成相应的文本数据,并通过时间对齐的方法,可以将音频文本数据与视频文本数据相关联。这样就可以综合分析教学过程中同一时间段内患者情绪表达与语境的匹配程度,得到语境匹配值。这个值用来指示患者在课堂中的表现是否符合语境的要求。随后通过分析音频文本数据,计算辅助分值,该分值代表无声片段的比例。鉴于自闭症患者在语言表达上与其他个体存在差异,他们往往有语言障碍,因此在分析自闭症患者的课堂表现时,结合无声片段的辅助分值来评估他们在课堂上的语言表达能力是必要的。通过结合语境匹配值和辅助分值可以得到课堂评估值,这个值能够对患者在辅助课堂上的情绪和语言表达进行全面评估,使得评估结果更加准确。此外,这种方法无需人工评估,可以有效提高评估效率。附图说明[0041] 图1是本申请实施例提供的实施场景的系统架构示意图。[0042] 图2是本申请实施例提供的辅助课程教学效果评估方法的流程图。[0043] 图3是本申请实施例提供的视频文本数据和参考文本数据示意图。[0044] 图4是本申请实施例提供的利用参考时间区间对应的视频文本数据和参考文本数据计算得到语境匹配值的流程图。[0045] 图5是本申请实施例提供的根据动作含义和音频文本数据得到语境匹配值的流程图。[0046] 图6是本申请实施例提供的根据预设语境、动作含义和声音类型计算第一语境匹配值的流程图。[0047] 图7为本申请实施例提供的根据预设语境计算内容评估值的流程图。[0048] 图8是本申请实施例提供的课堂评估结果的一种示意图。[0049] 图9是本申请实施例的辅助课程教学效果评估方法的整体流程示意图。[0050] 图10是本申请又一实施例提供的辅助课程教学效果评估装置结构框图。[0051] 图11是本申请实施例提供的电子设备的硬件结构示意图。具体实施方式[0052] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。[0053] 需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。[0054] 除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。[0055] 首先,对本申请中涉及的若干名词进行解析:[0056] 人工智能(artificialintelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。[0057] 卷积神经网络(ConvolutionalNeuralNetworks,CNN):是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。卷积神经网络仿造生物的视知觉机制构建,可以进行监督学习和非监督学习,其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征。[0058] 深度神经网络是深度学习的基础,是一种具有多层结构的人工神经网络。深度学习是一种基于人工神经网络的机器学习方法,特别是那些含有多层(深层)结构的网络。它模仿人脑处理和分析数据的方式,通过多层次的非线性变换,自动学习数据的抽象特征。应用于在图像识别、语音识别、自然语言处理等领域。[0059] 自闭症的辅助课程是一种针对自闭症儿童和成人的和综合性的教育方案。其主要目标是提高患者的社交交往能力、语言沟通能力、学习能力和生活自理能力,以及减少行为问题和情绪障碍。[0060] 相关技术中利用辅助机器人运行辅助课程,通过教师观察患者在辅助课程中的反映,进行评估判断,从而人工评估辅助课程的课程效果。这种方式评估效率低,且容易受到教师资质、个人能力的影响,导致评估结果准确性不高。[0061] 基于此,本申请实施例提供一种辅助课程教学效果评估方法及相关装置,通过将音视频数据转换成相应的文本数据,并通过时间对齐的方法,可以将音频文本数据与视频文本数据相关联。这样就可以综合分析教学过程中同一时间段内患者情绪表达与语境的匹配程度,得到语境匹配值。这个值用来指示患者在课堂中的表现是否符合语境的要求。随后通过分析音频文本数据,计算辅助分值,该分值代表无声片段的比例。鉴于自闭症患者在语言表达上与其他个体存在差异,他们往往有语言障碍,因此在分析自闭症患者的课堂表现时,结合无声片段的辅助分值来评估他们在课堂上的语言表达能力是必要的。通过结合语境匹配值和辅助分值可以得到课堂评估值,这个值能够对患者在辅助课堂上的情绪和语言表达进行全面评估,使得评估结果更加准确。此外,这种方法无需人工评估,可以有效提高评估效率。[0062] 本申请实施例提供辅助课程教学效果评估方法及相关装置,具体通过如下实施例进行说明,首先描述本申请实施例中的辅助课程教学效果评估方法。[0063] 本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。[0064] 人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。[0065] 本申请实施例提供的辅助课程教学效果评估方法,涉及人工智能技术领域。本申请实施例提供的辅助课程教学效果评估方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的计算机程序。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如支持辅助课程教学效果评估的客户端,也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。其中,终端通过网络与服务器进行通信。该辅助课程教学效果评估方法可以由终端或服务器执行,或由终端和服务器协同执行。[0066] 在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器;也可以是区块链系统中的服务节点,该区块链系统中的各服务节点之间组成点对点(P2P,PeerToPeer,P2P)网络,P2P协议是一个运行在传输控制协议(TransmissionControlProtocol,TCP)协议之上的应用层协议。终端与服务器之间可以通过蓝牙、通用串行总线(UniversalSerialBus,USB)或者网络等通讯连接方式进行连接,本实施例在此不做限制。[0067] 本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。[0068] 需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关国家和地区的相关法律法规和标准。此外,当本申请实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的用户相关数据。[0069] 首先描述本申请实施例的辅助课程教学效果评估方法实施场景的系统架构。[0070] 参照图1,图1是本申请实施例提供的实施场景的系统架构示意图。图1中教师在教师软件中选取与当前学生相关的辅助课程,然后下发指令到辅助机器人,利用辅助机器人运行辅助课程,将课程内容输出至学生。例如辅助机器人根据课程内容在指定的时间段播放音乐、播放视频、发出指令、提出问题等。然后在辅助课程的运行期间,利用图像采集设备,例如摄像头采集关于学生的视频流数据,利用音频采集设备,例如麦克风采集关于学生的音频流数据。将采集的视频流数据和音频流数据发送至音视频服务器,音视频服务器将视频流数据和音频流数据以音视频流的形式发送至分析服务器,分析服务器中的处理器通过解码、转码、切片等一系列操作将音频流数据发送至音频识别模型,将视频流数据发送至图像识别模型。音频识别模型对音频流数据进行解析,得到对应的音频文本数据,并且图像识别模型对视频流数据进行解析,得到对应的视频文本数据。处理器再根据音频文本数据和视频文本数据进行分析,得到当前学生在辅助课程下的课堂评估结果。分析服务器将课堂评估结果发送至教师软件,教师软件可以根据课堂评估结果进行后续辅助课程的推荐,并将推荐内容反馈至教师。教师根据推荐内容和学生的面对面反馈信息进行教学效果评估以及后续课程流程的调整等。[0071] 可以理解的是,图像采集设备也可以直接将视频流数据发送至分析服务器,音频采集设备直接将音频流数据发送至分析服务器,上述实施场景仅作示意,不进行限定。本申请实施例的辅助课程教学效果评估方法可以自动获取相关的课堂数据,然后对课堂数据进行分析,得到分析结果,无需人工评估,因此评估效率高。[0072] 下面描述本申请实施例的辅助课程教学效果评估方法。[0073] 图2是本申请实施例提供的辅助课程教学效果评估方法的一个可选的流程图,图2中的方法可以包括但不限于包括步骤S110至步骤S150。同时可以理解的是,本实施例对图2中步骤S110至步骤S150的顺序不做具体限定,可以根据实际需求调整步骤顺序或者减少、增加某些步骤。[0074] 步骤S110:获取目标对象在辅助课程进行过程中的至少一个音频文本数据和至少一个视频文本数据。[0075] 在一实施例中,目标对象即参与辅助课程的学生。参照图1,音频文本数据是由音频识别模型对音频流数据进行解析得到的。音频识别模型是能够将音频转化成文本的大模型,例如深度神经网络模型,通过使用深度学习技术,将音频信号转换成可读的文本。具体的处理过程包括:预处理、特征提取、解码几个过程,其中,预处理将音频流数据转换成数字信号,并进行降噪、去除非语音部分等预处理操作。接着特征提取是音频识别模型从预处理后的音频信号中提取有用的特征,例如梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)等,同时音频识别模型还根据提取的特征学习到音频信号中的语音模式和语言规律。最后的解码过程,音频识别模型利用包括通过情绪匹配、文本分析、词汇表构建等操作,将学习到的语音模式和语言规律转化为可读的文本,即可得到音频文本数据。[0076] 在一实施例中,音频流数据可以被转换成一个或多个音频文本数据。每个音频文本数据中包含第一时间区间,以及至少包括了识别内容和声音类型中的一种。第一时间区间由开始时间和结束时间定义,代表音频文本数据的持续时间。识别内容是指通过识别得到的确切文本。鉴于自闭症患者在情绪表达和语言表达方面可能存在限制,有些患者甚至可能完全缺乏语言、面部表情和肢体语言的表达,因此传统的语言识别和表情识别方法并不适用。在分析自闭症患者的语言模式时,相比于有意义的词汇和句子,语气词、笑声、哭声、尖叫声以及无声片段等元素能更充分地反映他们的情绪状态。因此本申请实施例中,音频文本数据还包括声音类型,声音类型可以是:语气词类别、笑声类别、哭声类别、尖叫声类别、正常语言类别以及辅助类别(指的是无声片段,或称为空白片段的类别)。例如,音频文本数据可以表示为:{[0s,18s],辅助类别}、{[10s,12s],笑声类别}、{[15s,18s],识别内容“你们好”}。[0077] 在一实施例中,参照图1,视频文本数据是通过图像识别模型对视频流数据进行解析得到的。图像识别模型能够将视频内容转化为文本描述,例如图像识别模型可以是卷积神经网络模型。具体的处理过程包括:目标检测、姿态估计、行为识别和场景理解等步骤。在目标检测阶段,利用目标检测算法在视频流中识别并定位学生的位置。一旦学生被检测到,利用姿态估计识别人体的关键点(如头部、肩膀、手腕、脚踝等),来理解学生的姿势和动作。随后利用行为识别步骤对这些姿势和动作进行分析,以识别出特定的运动模式,并确定学生的动作类型。接着在场景理解阶段,结合视频中的其他元素(如其他对象、场景布局等),分析这些动作类型具体代表的行为含义。最后将识别出的动作类型和对应的行为含义转换为文本形式输出,即可得到视频文本数据。[0078] 在一实施例中,视频流数据可以转化成一个或一个以上的视频文本数据,并且不同的视频文本数据可能存在时间区间的重合。视频文本数据中包括第二时间区间、动作类型和动作含义。其中,根据第二时间区间包括开始时间和结束时间,表示一个视频文本数据的持续时间。对于自闭症患者来说,在辅助课程的学习过程中,其视线、肢体动作和嘴部动作能够反映其学习效果。例如,视线可以反映他们对辅助课程对应的课堂内容的关注程度,判断学生是否关注课程内容,如果学生的视线经常偏离教师或课程内容,可能表明他们分心或对课程内容不感兴趣。嘴部动作可以判断学生是否在说话,例如需要讨论或回答问题时,可以通过学生的嘴部动作可以判断学生是否参与这个过程。而肢体动作可以判断学生在课堂上的动作是不是合理。因此本申请实施例中动作类型包括:目光类型、肢体类型和嘴部类型,并具体地,目光类型对应的动作含义可以包括:目光集中、目光游离等,肢体类型对应的动作含义可以包括:挥手、站立、走动、敲打桌面等,嘴部类型对应的动作含义可以包括:说话、微笑、咬唇等。例如,视频文本数据可以表示为:{[0s,15s],目光类型,目光集中}、{[10s,12s],嘴部类型,说话}、{[15s,18s],肢体类型,挥手}。[0079] 按照上述过程,获取目标对象在辅助课程进行过程中的至少一个音频文本数据和至少一个视频文本数据。[0080] 步骤S120:依次选取音频文本数据作为参考文本数据,选取与参考文本数据的第一时间区间对应的第二时间区间作为参考时间区间。[0081] 其中,依次对每一个音频文本数据进行分析,分析时将音频文本数据作为参考文本数据,例如,音频文本数据为:{[0s,15s],辅助类别}和{[15s,18s],识别内容“你们好”},则依次选取:{[0s,15s],辅助类别}和{[15s,18s],识别内容“你们好”}分别作为参考文本数据。[0082] 以{[0s,15s]、辅助类别}为例,第一时间区间为[0s,15s],此时选取与第一时间区间重合的第二时间区间作为参考时间区间。例如视频文本数据为:{[0s,10s]、目光类型、目光集中}、{[10s,12s]、嘴部类型、说话}、{[12s,15s]、肢体类型、挥手}。此时选取[0s,10s]、[10s,12s]和[12s,15s]三个第二时间区间作为参考时间区间。如果视频文本数据为:{[0s,20s]、目光类型、目光集中},此时第二时间区间比第一时间区间长,因此将视频文本数据进行拆分,得到两个视频文本数据,分别是{[0s,15s]、目光类型、目光集中}和{[15s,20s]、目光类型、目光集中}。此时选取的参考时间区间为[0s,15s]。[0083] 步骤S130:累加每个参考文本数据中辅助类别对应的辅助时长,根据辅助时长在第一时间区间对应的总时长中的占比得到辅助分值。[0084] 其中,有的参考文本数据中存在辅助类别,有的不存在,而辅助类别对应的辅助时长与对应参考文本数据的第一时间区间有关。例如,参考文本数据对应的第一时间区间分别是:[0s,5s]、[5s,15s]、[15s,20s]、[20s,27s]和[27s,40s],此时只有[5s,15s]这一参考文本数据中存在辅助类别,此时辅助类别的辅助时长为15s‑5s=10s。而第一时间区间对应的总时长为:5s+10s+5s+7s+13s=40s。此时辅助时长在第一时间区间对应的总时长中的占比为10s/40s=0.25。假设在总的评估结果中,辅助分值对应的总分值为20分,此时辅助分值为0.25*20=5分。[0085] 步骤S140:利用参考时间区间对应的视频文本数据和参考文本数据计算得到语境匹配值。[0086] 在一实施例中,参照图3,图3是本申请实施例提供的视频文本数据和参考文本数据示意图。其中,参考文本数据分别是:{[0s,10s],辅助类别}、{[10s,12],笑声类别}、{[15s,18s],识别文字“你们好”}、{[18s,25s],辅助类别},可见第一时间区间之间无交叉,这是因为人一般不会同时发出两种声音类型。而图中的视频文本数据分别是:{[0s,15s],目光类型,目光集中}、{[10s,12s],嘴部类型,说话}、{[15s,18s],嘴部类型,说话}、{[18s,25s],肢体类型,挥手}、{[18s,23s],嘴部类型,微笑}、{[20s,25s],目光类型,目光集中}。可见,第二时间区间之间存在部分交叉。[0087] 假设参考文本数据为:{[18s,25s],辅助类别},此时,第一时间区间为[18s,25s],对应的参考时间区间包括:{18s,23s}、[18s,25s]和[20s,25s]三个第二时间区间,因此参考时间区间对应的视频文本数据包括:{[18s,25s],肢体类型,挥手}、{[18s,23s],嘴部类型,微笑}、{[20s,25s],目光类型,目光集中},说明在18s至25s间,学生没有说话,但是边挥手边微笑,后面5s的时候,虽然在挥手,但是其目光集中在课程内容中,可以推测当前的课程内容可能是引导学生挥手。[0088] 在一实施例中,参照图4,图4是本申请实施例提供的利用参考时间区间对应的视频文本数据和参考文本数据计算得到语境匹配值的流程图,具体包括步骤S410至步骤S430:[0089] 步骤S410:当声音类型不是辅助类别时,获取参考时间区间对应的视频文本数据中的动作类型。[0090] 其中,如果声音类型不是辅助类别时,此时说明参考文本数据中蕴含其他信息,获取对应的参考时间区间对应的视频文本数据中的动作类型。例如图3所示的{[15s,18s],识别文字“你们好”}参考文本数据,此时声音类型不是辅助类别,因此获取对应的视频文本数据{[15s,18s],嘴部类型,说话}中的动作类型:嘴部类型。[0091] 步骤S420:当动作类型为目光类型时,根据第一评估值得到语境匹配值。[0092] 步骤S430:当动作类型为肢体类型和/或嘴部类型时,根据动作含义和音频文本数据得到语境匹配值。[0093] 其中,第一评估值根据实际情况设定,例如为0,如果动作类型为目光类型,则认为此时语境匹配值为第一评估值0分。如果学生存在肢体行为或者嘴部行为时,此时动作类型为嘴部类型和/或肢体类型,需要结合动作含义和相关的音频文本数据进一步计算得到语境匹配值。[0094] 在一实施例中,参照图5,图5是本申请实施例提供的根据动作含义和音频文本数据得到语境匹配值的流程图,具体包括步骤S510至步骤S530:[0095] 步骤S510:若识别内容中不包含文字,获取第一时间区间对应的预设语境,根据预设语境、动作含义和声音类型计算第一语境匹配值。[0096] 其中,如果参考文本数据中不包括识别到的文本,说明其很可能包括的是非辅助类型的其他声音类型,例如语气词类别、笑声类别、哭声类别、尖叫声类别、正常语言类别等。此时需要获取第一时间区间对应的预设语境,预设语境指的是课程内容相对应的场景,在辅助课程设计过程中,就在不同的课程内容设定相对应的场景,例如“是/否需要患者做出应答”、“是/否需要患者做出笑”、“是/否需要患者做出哭声”、“是/否需要患者做出大叫声模仿”、“是/否需要患者多次重复”,其中,默认为不需要,需要的时候,特殊标记,以提高评估的准确性。根据设定结果得到的预设语境可以是:“需要患者做出应答的场景”、“不需要患者做出笑声模仿场景”、“需要患者做出哭声模仿场景”等,预设语境在辅助课程开始时已经根据实际需求设定好。[0097] 接着而根据预设语境、动作含义和声音类型计算第一语境匹配值。参照图6,图6是本申请实施例提供的根据预设语境、动作含义和声音类型计算第一语境匹配值的流程图,具体包括步骤S610至步骤S620:[0098] 步骤S610:若预设语境与声音类型和/或动作含义匹配,根据第三评估值得到第一语境匹配值。[0099] 步骤S620:若预设语境与声音类型和/或动作含义不匹配,根据第四评估值得到第一语境匹配值。[0100] 其中,第三评估值根据实际情况设定,例如为30分,第四评估值根据实际情况设定,例如为0分。如果预设语境与声音类型或动作含义至少一个匹配之后,即可得到第一语境匹配值为30分,否则为0分。例如,在需要患者做出应答的场景下,声音类型为语气词类型且动作含义为说话,判定为预设语境匹配,此时第一语境匹配值为30分。在需要患者做出笑声模仿场景下,声音类型为笑声类型,判定为预设语境匹配,此时第一语境匹配值为30分。在需要患者做出哭声模仿场景下,声音类型为哭声类型,判定为预设语境匹配,此时第一语境匹配值为30分。在需要患者做出大叫声模仿场景下,声音类型为尖叫声类型,判定为预设语境匹配,此时第一语境匹配值为30分。[0101] 可见,第一语境匹配值能够判断学生的声音类型或动作含义之一是否符合当前的预设语境,符合的话,第一预警匹配值为第三评估值,否则第一预警匹配值为第四评估值。[0102] 步骤S520:若识别内容中包含文字,根据预设语境计算内容评估值,并根据第二评估值和内容评估值得到第二语境匹配值。[0103] 在一实施例中,如果参考文本数据中包括识别到的文字,此时说明学生在这段时间内说话,需要判断说话内容是否和预设语境相匹配。首先识别到文字后,先利用第二评估值进行加分,第二评估值根据实际需求设定,例如可以是20分。接着判断说话内容是否和预设语境相匹配,计算内容评估值。参照图7,图7为本申请实施例提供的根据预设语境计算内容评估值的流程图,具体包括步骤S710至步骤S730:[0104] 步骤S710:统计识别内容对应的总字数,根据总字数和第一时间区间得到评估语速,并根据评估语速和标准语速计算得到语速评估值。[0105] 其中,对于自闭症患者来说,其语言障碍往往体现在语速和重复性上,因此本申请实施例对语速和重复性进行评估。在对语速进行评估时,统计识别内容对应的总字数,根据总字数和第一时间区间得到评估语速。例如第一时间区间内的总字数为100,第一时间区间的时长为20s,此时评估语速为100字/20s。接下来获取标准语速,标准语速可以根据实际情况设定,例如设定为25字/10s,此时,根据评估语速和标准语速计算得到语速评估值,首先将评估语速与标准语速进行量纲对齐,对齐后评估语速变为50字/10s,接着将标准语速和评估语速的差值绝对值作为计量语速,计量语速越小,说明评估语速与标准语速越接近,语速评估值越大,可见,语速评估值和计量语速成反比。假设语速评估值的最大值为20,则可以预先得到语速评估值和计量语速的比例关系,根据比例关系和计量语速计算得到对应的语速评估值。[0106] 步骤S720:获取识别内容的重复属性,根据预设语境和重复属性得到重复评估值。[0107] 在一实施例中,在评估完语速之后,还需要对重复性进行评估,得到重复评估值。首先对识别内容进行划分,获取识别内容中至少一个识别语句,然后计算识别语句的相似度,若相似度高于预设相似度,生成指示内容重复的重复属性。例如利用词嵌入等方式对识别语句进行向量表示,然后利用余弦相似度、词移距离等方式计算识别语句之间的相似度,选取最大的相似度与预设相似度进行比较,例如最大的相似度为90%,预设相似度为80%,则当前识别内容的重复属性为“存在重复”,否则为“不存在重复”。[0108] 接下来,根据预设语境和重复属性得到重复评估值。具体是:若预设语境与重复属性匹配,根据第五评估值得到重复评估值,若预设语境与重复属性不匹配,根据第六评估值得到重复评估值。[0109] 其中,第五评估值根据实际情况设定,例如为10分,第六评估值根据实际情况设定,例如为0分。如果预设语境为“需要患者多次重复的场景”,此时如果重复属性为“存在重复”,比如“好的好的”“是的是的”,则判断预设语境与重复属性匹配,重复评估值为第五评估值10分,否则重复评估值为第六评估值0分。[0110] 步骤S730:基于重复评估值和语速评估值得到内容评估值。[0111] 其中,将重复评估值和语速评估值加起来,得到内容评估值。再将内容评估值和第二评估值加起来,得到第二语境匹配值。[0112] 步骤S530:基于第一语境匹配值和第二语境匹配值得到语境匹配值。[0113] 其中,将第一语境匹配值和第二语境匹配值加起来得到语境匹配值。[0114] 步骤S150:根据语境匹配值和辅助分值得到音频文本数据对应的片段评估值,基于至少一个片段评估值得到目标对象对于辅助课程的课堂评估结果。[0115] 其中,将语境匹配值和辅助分值加起来,得到音频文本数据对应的片段评估值。按照需求设定不同的时间段,例如将1小时的课程时间,按照10分钟为时间段,划分成6个时间段,每个时间段中均可能包括多个音频文本数据和视频文本数据,然后以时间段进行评估,在这个时间段中,将对应的音频文本数据的片段评估值相加,即得到这个时间段的总评估值,根据每个时间段的总评估值得到课堂评估结果。[0116] 可以理解的是,在一个时间段中不同的音频文本数据,可能某些音频文本数据作为参考文本数据时,只有辅助分值,语境匹配值为0,其片段评估值由辅助分值计算得到。有的音频文本数据作为参考文本数据时,辅助分值为0,能够计算到对应的语境匹配值,其片段评估值由语境匹配值计算得到。在计算该时间段的总评估值时,将每个音频文本数据的片段评估值相加即可,总评估值也可以拆分成辅助分值、语速评估值、重复评估值、第一语境匹配值等分值单独相加之和。[0117] 参照图8,图8是本申请实施例提供的课堂评估结果的一种示意图。图8中以曲线图的形式展示不同时间段的课堂评估结果的变化情况,以及每个总评估值对应的辅助分值、语速评估值、重复评估值、第一语境匹配值等分值。可见,随着时间变化课堂评估结果逐渐降低,说明学生的课堂效果在降低。但是重复评估值基本不变化,第一语境匹配值和语速评估值都是存在升高后降低的现象,说明学生对于预设语境配合度由好变差。可见根据上述不同的分值在一定程度上都能反映学生的课堂学习效果,课堂学习效果也就是目标对象对于辅助课程的课堂评估结果。可以理解的是,根据课堂评估结果能够对课程内容进行调整,例如学生在游戏类课程内容上表现较好,则可以重点推送游戏类课程,来提高课堂学习效果。[0118] 下面描述本申请实施例的辅助课程教学效果评估方法的整体流程。[0119] 参照图9,图9是本申请实施例的辅助课程教学效果评估方法的整体流程示意图。具体地,由音频识别模型对音频流数据进行解析得到音频文本数据,通过图像识别模型对视频流数据进行解析得到视频文本数据。然后依次选取音频文本数据作为参考文本数据,选取与参考文本数据的第一时间区间对应的第二时间区间作为参考时间区间,并获取参考时间区间对应的视频文本数据。对于任一个参考文本数据,判断其声音类别是否包括辅助类别,如果是,则累加每个参考文本数据中辅助类别对应的辅助时长,根据辅助时长在第一时间区间对应的总时长中的占比得到辅助分值。当声音类型不是辅助类别时,获取参考时间区间对应的视频文本数据中的动作类型。接着判断动作类型是否是目光类型,如果是,则根据第一评估值得到语境匹配值。否则,动作类型为肢体类型和/或嘴部类型,判断识别内容中是否包含文字,如果识别内容中不包含文字,获取第一时间区间对应的预设语境,获取当前的声音类型和/或动作含义,判断声音类型和/或动作含义是否与预设语境一致,若预设语境与声音类型和/或动作含义匹配,根据第三评估值得到第一语境匹配值,否则,根据第四评估值得到第一语境匹配值。如果识别内容中包含文字,则首先加上第二评估值,接着,统计识别内容对应的总字数,根据总字数和第一时间区间得到评估语速,根据评估语速和标准语速计算得到语速评估值。然后获取识别内容的重复属性,判断预设语境和重复属性是否匹配,若预设语境与重复属性匹配,根据第五评估值得到重复评估值,若预设语境与重复属性不匹配,根据第六评估值得到重复评估值。其中,语速评估值和重复评估值构成内容评估值,内容评估值和第二评估值构成第二语境匹配值,第一语境匹配值和第二语境匹配值得到语境匹配值,语境匹配值和辅助分值得到片段评估值。最后结合每个音频文本数据的片段评估值等可以得到最后的课堂评估结果。[0120] 本申请实施例提供的技术方案,通过获取目标对象在辅助课程进行过程中的至少一个音频文本数据和至少一个视频文本数据,其中,音频文本数据包括指示空白片段的辅助类别,接着依次选取音频文本数据作为参考文本数据,选取与参考文本数据的第一时间区间对应的至少一个第二时间区间作为参考时间区间,累加每个参考文本数据中辅助类别对应的辅助时长,根据辅助时长在第一时间区间对应的总时长中的占比得到辅助分值,并利用参考时间区间对应的视频文本数据和参考文本数据计算得到语境匹配值;根据语境匹配值和辅助分值得到音频文本数据对应的片段评估值,基于至少一个片段评估值得到目标对象对于辅助课程的课堂评估值。本申请实施例通过将音视频数据转换成相应的文本数据,并通过时间对齐的方法,可以将音频文本数据与视频文本数据相关联。这样就可以综合分析教学过程中同一时间段内患者情绪表达与语境的匹配程度,得到语境匹配值。这个值用来指示患者在课堂中的表现是否符合语境的要求。随后通过分析音频文本数据,计算辅助分值,该分值代表无声片段的比例。鉴于自闭症患者在语言表达上与其他个体存在差异,他们往往有语言障碍,因此在分析自闭症患者的课堂表现时,结合无声片段的辅助分值来评估他们在课堂上的语言表达能力是必要的。通过结合语境匹配值和辅助分值可以得到课堂评估值,这个值能够对患者在辅助课堂上的情绪和语言表达进行全面评估,使得评估结果更加准确。此外,这种方法无需人工评估,可以有效提高评估效率。[0121] 本申请实施例还提供一种辅助课程教学效果评估装置,可以实现上述辅助课程教学效果评估方法,参照图10,该装置包括:[0122] 获取模块1010:用于获取目标对象在辅助课程进行过程中的至少一个音频文本数据和至少一个视频文本数据,音频文本数据包括第一时间区间和声音类型,声音类型中包括指示空白片段的辅助类别,视频文本数据包括第二时间区间。[0123] 时间对齐模块1020:用于依次选取音频文本数据作为参考文本数据,选取与参考文本数据的第一时间区间对应的第二时间区间作为参考时间区间。[0124] 辅助计算模块1030:用于累加每个参考文本数据中辅助类别对应的辅助时长,根据辅助时长在第一时间区间对应的总时长中的占比得到辅助分值。[0125] 语境匹配模块1040:用于利用参考时间区间对应的视频文本数据和参考文本数据计算得到语境匹配值。[0126] 评估计算模块1050:用于根据语境匹配值和辅助分值得到音频文本数据对应的片段评估值,基于至少一个片段评估值得到目标对象对于辅助课程的课堂评估结果。[0127] 本实施例的辅助课程教学效果评估装置的具体实施方式与上述辅助课程教学效果评估方法的具体实施方式基本一致,在此不再赘述。[0128] 本申请实施例还提供了一种电子设备,包括:[0129] 至少一个存储器;[0130] 至少一个处理器;[0131] 至少一个程序;[0132] 所述程序被存储在存储器中,处理器执行所述至少一个程序以实现本申请实施上述的辅助课程教学效果评估方法。该电子设备可以为包括手机、平板电脑、个人数字助理(PersonalDigitalAssistant,简称PDA)、车载电脑等任意智能终端。[0133] 请参阅图11,图11示意了另一实施例的电子设备的硬件结构,电子设备包括:[0134] 处理器1101,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;[0135] 存储器1102,可以采用ROM(ReadOnlyMemory,只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory,随机存取存储器)等形式实现。存储器1102可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1102中,并由处理器1101来调用执行本申请实施例的辅助课程教学效果评估方法;[0136] 输入/输出接口1103,用于实现信息输入及输出;[0137] 通信接口1104,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;和[0138] 总线1105,在设备的各个组件(例如处理器1101、存储器1102、输入/输出接口1103和通信接口1104)之间传输信息;[0139] 其中处理器1101、存储器1102、输入/输出接口1103和通信接口1104通过总线1105实现彼此之间在设备内部的通信连接。[0140] 本申请实施例还提供了一种存储介质,存储介质为存储介质,该存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述辅助课程教学效果评估方法。[0141] 存储器作为一种非暂态存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。[0142] 本申请实施例提出的辅助课程教学效果评估方法及相关装置,通过获取目标对象在辅助课程进行过程中的至少一个音频文本数据和至少一个视频文本数据,其中,音频文本数据包括指示空白片段的辅助类别,接着依次选取音频文本数据作为参考文本数据,选取与参考文本数据的第一时间区间对应的至少一个第二时间区间作为参考时间区间,累加每个参考文本数据中辅助类别对应的辅助时长,根据辅助时长在第一时间区间对应的总时长中的占比得到辅助分值,并利用参考时间区间对应的视频文本数据和参考文本数据计算得到语境匹配值;根据语境匹配值和辅助分值得到音频文本数据对应的片段评估值,基于至少一个片段评估值得到目标对象对于辅助课程的课堂评估值。本申请实施例通过将音视频数据转换成相应的文本数据,并通过时间对齐的方法,可以将音频文本数据与视频文本数据相关联。这样就可以综合分析教学过程中同一时间段内患者情绪表达与语境的匹配程度,得到语境匹配值。这个值用来指示患者在课堂中的表现是否符合语境的要求。随后通过分析音频文本数据,计算辅助分值,该分值代表无声片段的比例。鉴于自闭症患者在语言表达上与其他个体存在差异,他们往往有语言障碍,因此在分析自闭症患者的课堂表现时,结合无声片段的辅助分值来评估他们在课堂上的语言表达能力是必要的。通过结合语境匹配值和辅助分值可以得到课堂评估值,这个值能够对患者在辅助课堂上的情绪和语言表达进行全面评估,使得评估结果更加准确。此外,这种方法无需人工评估,可以有效提高评估效率。[0143] 本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。[0144] 本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。[0145] 以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。[0146] 本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。[0147] 本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。[0148] 应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。[0149] 在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。[0150] 上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。[0151] 另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。[0152] 集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read‑OnlyMemory,简称ROM)、随机存取存储器(RandomAccessMemory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。[0153] 以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。
专利地区:广东
专利申请日期:2024-05-11
专利公开日期:2024-09-03
专利公告号:CN118154051B