专利名称:一种基于在线教育平台数据的课程推荐方法
专利类型:发明专利
专利申请号:CN202111433160.1
专利申请(专利权)人:华中师范大学
权利人地址:湖北省武汉市武昌区珞瑜路152号
专利发明(设计)人:杨宗凯,刘智,刘三女牙,粟柱,张格
专利摘要:本发明属于教育信息化领域,提供一种基于在线教育平台数据的课程推荐方法,利用embedding技术以及图神经网络模型,基于学生基础信息以及学生在学习过程中产生的历史数据,考虑了不同学生之间的交互数据的影响,全面发挥数据的价值,利用前沿的图神经网络GNN算法模型,深度挖掘了学生与学生之间的关系,同时也考虑了课程与课程之间的相似度、学生与课程的历史交互数据,从而实现更加可靠的推荐方式。
主权利要求:
1.一种基于在线教育平台数据的课程推荐方法,其特征在于该课程推荐方法是基于学生基础信息以及学生在学习过程中产生的历史数据,包括以下步骤:(1)从在线教育平台数据库中获取学生与课程的相关数据D0;
(2)从数据D0中得到学生的相关数据,包括基础信息数据D1、学生与课程之间的历史交互数据D2、学生与学生之间的历史交互数据D3;
(3)根据基础信息数据D1建立学生基础属性数据矩阵X;
(4)根据学生与课程之间的历史交互数据D2建立学生参加过的课程序列,获取每一门课程的向量表达方式,即courseembedding;
(5)再次根据学生与课程之间的历史交互数据D2获取每一个学生对参加过的课程的评分,并建立一个评分矩阵R,其数据样式为{“studentid”,“courseid”,“coursegrade”};
(6)根据学生与学生之间的历史交互数据D3,建立学生与学生之间的邻接矩阵A,矩阵A存储的值为0或1,0代表学生之间产生的交互,1代表学生之间并未产生交互;
(7)通过矩阵X与矩阵A以及GAE算法模型建立一个字典student_embedding_dict,其数据样式为{“studentid”:“studentembedding”},其中studentembedding是一种向量,其维度大小与courseembedding维度大小保持一致;
具体的,将获取的学生的属性数据矩阵Xn*p以及获取的邻接矩阵An*n这两个矩阵输入到GAE算法模型当中,得到所有每一个学生的向量表示,实例化数据样式为{“StudentID”,“StudentEmbedding”},并设定“StudentEmbedding”的维度大小为d,GAE是一种基于GCN实现的GNN算法,该算法基于图的数据结构计算图中每一个节点embedding向量,利用PyG开源库实现该算法,其实现所需的基本步骤为设置两层GCN卷积层,再设置其激活函数为ReLU,ReLU函数是一种分段线性函数,把所有的负值都变为0,而正值不变,在算法训练时,设置 相对熵 函数为 其损 失函数 ,相 对熵损 失函数 的数 学表达 形式 为最后以随机梯度的训练方式得到学生的向量表达结果;
(8)通过字典course_embedding_dict、student_embedding_dict以及评分矩阵R计算每一个学生对于未参加过的课程的预估评分;
具体的,假设每一个学生i的embedding向量为ui,每一门课程j的embedding向量为ci,从步骤(5)中获取的每一个学生i对每一个课程的真实评分为rateij,利用以下公式计算学生i对于课程j的预估得分为:其中,N(j)表示上过课程j的其他学生的集合,|N(j)|表示上过该课程j的所有的学生人数,Product(ui,up)表示学生i与学生p的向量点积,ratepj表示学生p对课程j的真实评分,S(i)表示学生i上过的其他课程的集合,|S(j)|表示学生i上过的其他课程总的数量,Product(cq,cj)表示课程q与课程j的向量点积;
(9)根据预估评分得到针对每一个学生的待推荐课程列表,从待推荐课程列表中按照预估评分的降序排列方式选取TopN作为实际推荐课程推送给相关学生。
2.根据权利要求1所述的基于在线教育平台数据的课程推荐方法,其特征在于步骤(9)中N值取10。 说明书 : 一种基于在线教育平台数据的课程推荐方法技术领域[0001] 本发明属于教育信息化领域,具体涉及一种基于在线教育平台数据的课程推荐方法,涉及学生基础属性以及学生社交关系的在线课程推荐方法。背景技术[0002] 随着信息技术的飞速发展,信息资源以几何增长的形式存储在互联网平台,人们需要花费越来越多的时间来查找自己所需要的信息资源。近些年来,推荐算法在越来越多的平台开始使用,比如在电影推荐、书籍推荐等方面取得了不错的成效,为人们的日常生活节约了宝贵的时间。在互联网在线教育平台,无数的学子们在使用过程中产生了大量的学习行为数据,利用这些历史行为数据,可以对学生进行个性化课程推荐,使学生更加快速的获取自己想要的课程,从而达到更好的学习效果。[0003] 自从2013年在人工智能领域研究人员正式提出了词向量技术,即embedding技术。在此之后embedding技术在人工智能各个领域迅速推广,如自然语言处理领域以及智能推荐算法领域。现今在推荐算法领域,越来越多的人将各种不同的物品转换成向量,通过embedding技术,数字向量可以代表一种事物,这是一种数字化的表达方式,如此,推荐算法在计算事物之间的相似度更加准确。在图神经网络中,将物品或者人构造节点,通过人与人、人与物之间的关系,构造出图神经网络中节点与节点之间形成的边的关系。图神经网络使得人与人、人与物品之间形成了一个整体,不再是彼此之间相互独立的关系,通过图神经网络得到的向量在代表人或事物的时候更加准确有效。发明内容[0004] 本发明的目的就是为了克服现有技术中的不足之处,利用embedding技术以及图神经网络模型,提供一种基于在线教育平台数据的课程推荐方法,该方法以学生为中心,考虑了不同学生之间的交互数据的影响,全面发挥数据的价值,利用前沿的图神经网络GNN算法模型,深度挖掘了学生与学生之间的关系,同时也考虑了课程与课程之间的相似度、学生与课程的历史交互数据,从而实现更加可靠的推荐方式。[0005] 本发明的目的是通过如下技术措施来实现的。[0006] 一种基于在线教育平台数据的课程推荐方法,该课程推荐方法是基于学生基础信息以及学生在学习过程中产生的历史数据,包括以下步骤:[0007] (1)从在线教育平台数据库中获取学生与课程的相关数据D0;[0008] (2)从数据D0中得到学生的相关数据,包括基础信息数据D1、学生与课程之间的历史交互数据D2、学生与学生之间的历史交互数据D3;[0009] (3)根据基础信息数据D1建立学生基础属性数据矩阵X;[0010] (4)根据学生与课程之间的历史交互数据D2建立学生参加过的课程序列,获取每一门课程的向量表达方式,即course_embedding_dict,其数据样式为{“courseid”:“courseembedding”};[0011] (5)再次根据学生与课程之间的历史交互数据D2获取每一个学生对参加过的课程的评分,并建立一个评分矩阵R,其数据样式为{“studentid”,“courseid”,“coursegrade”};[0012] (6)根据学生与学生之间的历史交互数据D3,建立学生与学生之间的邻接矩阵A,矩阵A存储的值为0或1,0代表学生之间产生的交互,1代表学生之间并未产生交互;[0013] (7)通过矩阵X与矩阵A以及GAE算法模型建立一个字典student_embedding_dict,其数据样式为{“studentid”:“studentembedding”},其中studentembedding是一种向量,其维度大小与courseembedding维度大小保持一致;[0014] (8)通过字典course_embedding_dict、student_embedding_dict以及评分矩阵R计算每一个学生对于未参加过的课程的预估评分。[0015] (9)根据预估评分得到针对每一个学生的待推荐课程列表,从待推荐课程列表中按照预估评分的降序排列方式选取TopN作为实际推荐课程推送给相关学生。[0016] 本发明基于在线教育平台数据的课程推荐方法与现有课程推荐方式相比,具有如下优势:[0017] 本发明在数据利用方面更加全面,考虑到学生与学生之间交互的影响:如果学生之间产生了交互行为,如关注、点赞,那么其中一位学生更有可能需要学习其关注或点赞对象所学习过的课程。另外,本发明利用embedding技术使得在推荐流程中学生与课程以更准确的数据化方式表达出来。附图说明[0018] 图1是本发明基于在线教育平台数据的课程推荐方法流程图。具体实施方式[0019] 下面将结合附图及实施例,对本发明中的技术方案进行具体描述。显然所描述的实施例是本发明部分实施例,而不是全部实施例。基于本发明的实施例,本领域普通技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。[0020] 下面结合图1,具体介绍本发明的实现步骤。[0021] S1,如图1所示,以数据埋点或者数据日志的方式获取学生与课程的相关数据,并将这些数据存储在本地服务器中的数据库得到相关数据D0。[0022] S2,首先从在线教育平台的数据库下载学生的基础信息数据D1,学生与课程进行历史交互数据D2,学生与学生之间的历史互动数据D3,对于D1、D2以及D3数据中有缺失的部分,如果缺失比例大于20%,利用众数填补缺失数据,如果缺失比例小于20%,直接删除该条数据。[0023] S3,根据基础信息数据D1,获取学生的总人数n,遍历每一个学生的基础数据,建立一个关于学生的属性数据矩阵Xn*p,其中p代表的是学生的基础属性维度大小。学生的基础属性维度包括但不限定为年龄、性别、专业等。Xn*p的数据样式为{“StudentID”,“age”,“HighestDegree”,“PostCount”,“ReplyCount”“IsStudent”,“LearnLongTimeCount”…}。[0024] S4,根据学生与课程进行历史交互数据D2遍历每一个学生与课程的交互数据,建立学生参加过的课程序列,该序列按照学生与课程交互的时间顺序排列,将所有学生的课程序列组合起来形成一个列表course_embedding_dict,其数据样式为{“StudentID”,[“MathID”,“EnglishID”,“PhysicsID”…]},将该数据输入到genism算法库中从而得到一个字典,其数据样式为{“courseid”:“courseembedding”},其中courseembedding一种向量,其维度大小是设为d。genism是一个python开源库,可以运行在Linux,Windows以及MacOS不同平台,只要将语料库作为输入并设置向量大小即可得到事物的向量表达方式,学生的课程序列即可作为语料库输入到genism库当中,最终得到课程向量的表达结果。[0025] S5,根据学生与课程进行历史交互数据D2,遍历每一个学生与课程的交互数据,建立一个关于学生与课程交互信息的矩阵Sm*3,其中m代表的是学生与课程之间交互形成数据量,一个学生可以对应多门课程,Sm*3的数据样式为{“StudentID”,“CourseID”,“Grade”},任意一名学生i对一门课程j的真实评分Grade记作rateij。[0026] S6,根据学生与学生之间的历史互动数据D3,先获取学生总的人数n,然后建立一个邻接矩阵An*n。对于矩阵An*n里面第i行、第j列元素的值aij,代表的是第i个学生与第j个学生的互动情况,对于i≠j的情况,第i个学生与第j个学生之间存在任意互动行为,则记aij=1,否则aij=0,对于i=j的情况,直接令aij=1。[0027] S7,将获取的学生的属性数据矩阵Xn*p以及上一步骤获取的邻接矩阵An*n这两个矩阵输入到GAE算法模型当中,得到所有每一个学生的向量表示,实例化数据样式为{“StudentID”,“StudentEmbedding”},并设定“StudentEmbedding”的维度大小为d。GAE是一种基于GCN实现的GNN算法,该算法基于图的数据结构计算图中每一个节点embedding向量,利用PyG开源库可以实现该算法,其实现所需的基本步骤为设置两层GCN卷积层,再设置其激活函数为ReLU,ReLU函数是一种分段线性函数,把所有的负值都变为0,而正值不变。在算法训练时,设置相对熵函数为其损失函数,相对熵损失函数的数学表达形式为最后以随机梯度的训练方式得到学生的向量表达结果。[0028] S8,假设以上数据中每一个学生i的embedding向量为ui,每一门课程j的embedding向量为ci,从步骤S5中获取的每一个学生i对每一个课程的真实评分为rateij,利用以下公式计算学生i对于课程j的预估得分为:[0029][0030] 对此公式的解释如下:[0031] N(j)表示上过课程j的其他学生的集合,|N(j)|表示上过该课程j的所有的学生人数,Product(ui,up)表示学生i与学生p的向量点积,ratepj表示学生p对课程j的真实评分,S(i)表示学生i上过的其他课程的集合,|S(j)|表示学生i上过的其他课程总的数量,Product(cq,cj)表示课程q与课程j的向量点积。[0032] S9,对步骤8中计算出的每一个学生对课程的预估评分进行降序排列,筛选并排除掉学生已经上过的所有的课程,最后得到针对每一个学生的待推荐课程列表,其数据样式为{“studentID”,[“MathID”,“EnglishID”,“PhysicsID”…]}。[0033] S10,从每位学生所有的待推荐课程中选取前N门课程推荐,N值大小一般取10。[0034] 本说明书未作详细描述的内容,属于本专业技术人员公知的现有技术。[0035] 应当说明的是,以上包含的本发明实例内容说明,是为了详解释本发明的技术特征。在不脱离本发明的前提下,所做出的若干改进和修饰也受本发明的保护,因此本发明的保护范围应当以本申请的权利要求所界定的内容为标准。
专利地区:湖北
专利申请日期:2021-11-29
专利公开日期:2024-07-26
专利公告号:CN114154839B