专利名称:质量抽检项目确定方法、系统、电子设备及可读存储介质
专利类型:发明专利
专利申请号:CN201810866301.0
专利申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司
权利人地址:北京市海淀区杏石口路65号西杉创意园四区11号楼东段1-4层西段1-4层
专利发明(设计)人:向彪
专利摘要:本发明公开了一种质量抽检项目确定方法、系统、电子设备及可读存储介质,所述物品质量抽检项目确定方法包括:获取一物品的第一评价数据;对所述第一评价数据进行分词处理,得到多个评价分词;预设一抽检项目库;所述抽检项目库存储有多个待抽检项目及每个待抽检项目对应的主题词;计算每个主题词与所述评价分词的相似度,并统计所述相似度大于相似度阈值的频次;选取所述频次最高的N个主题词对应的N个待抽检项目作为质量抽检项目,N为正整数。本发明根据用户的评价数据实现自动选择质量抽检项目,从而摆脱对专业人员的依赖,实现自动、科学的抽检,抽检项目依托用户的评价数据,更具有代表性,使得抽检项目更可靠。
主权利要求:
1.一种物品质量抽检项目确定方法,其特征在于,所述物品质量抽检项目确定方法包括:获取一物品的第一评价数据;
判断所述第一评价数据是否包含对所述物品质量的负面评价,若是,则滤除没有包含对所述物品质量的负面评价的第一评价数据;
对滤除后的所述第一评价数据进行分词处理,得到多个评价分词;
预设一抽检项目库;所述抽检项目库存储有多个待抽检项目及每个待抽检项目对应的主题词;
计算每个主题词与所述评价分词的相似度,并统计所述相似度大于相似度阈值的频次;
选取所述频次最高的N个主题词对应的N个待抽检项目作为质量抽检项目,N为正整数;
所述判断所述第一评价数据是否包含对所述物品质量的负面评价的步骤具体包括:获取一预设时间内目标物品的第二评价数据;
对所述第二评价数据赋予目标特征标签,所述目标特征标签用于表征所述第二评价数据是否体现所述目标物品具有质量问题;
根据所述第二评价数据创建评判物品质量的文本信息库;
根据所述文本信息库和所述目标特征标签训练得到物品评价数据评判模型;
利用所述物品评价数据评判模型判断所述第一评价数据是否包含对所述物品质量的负面评价。
2.如权利要求1所述的物品质量抽检项目确定方法,其特征在于,所述根据所述第二评价数据创建评判物品质量的文本信息库的步骤具体包括:预设一词向量库;所述词向量库存储有多个标准分词及与每个标准分词对应的词向量;
对所述第二评价数据进行分词处理,得到多个分词;
从所述词向量库中获取与所述多个分词对应的分词向量;所述文本信息库包括所述分词向量;
所述根据所述文本信息库训练得到物品评价数据评判模型的步骤具体包括:将所述分词向量和所述目标特征标签作为训练样本输入到机器学习模型中,训练得到所述物品评价数据评判模型。
3.如权利要求2所述的物品质量抽检项目确定方法,其特征在于,所述利用所述物品评价数据评判模型判断所述第一评价数据是否包含对所述物品质量的负面评价的步骤具体包括:从所述词向量库中获取与所述多个评价分词对应的评价分词向量;
将所述评价分词向量输入到所述物品评价数据评判模型中,输出所述第一评价数据的特征标签;所述特征标签用于表征所述第一评价数据是否包含对所述物品质量的负面评价;
根据所述特征标签评判模型判断第一评价数据是否包含对所述物品质量的负面评价。
4.如权利要求2所述的物品质量抽检项目确定方法,其特征在于,所述从所述词向量库中获取与所述多个分词对应的分词向量的步骤之前,所述物品质量抽检项目确定方法还包括:滤除所述多个分词中的停用词;
所述从所述词向量库中获取与所述多个分词对应的分词向量的步骤中,对滤除后的多个分词获取对应的分词向量。
5.如权利要求3所述的物品质量抽检项目确定方法,其特征在于,所述计算每个主题词与所述评价分词的相似度的步骤具体包括:从所述词向量库中获取与所述主题词对应的主题词向量;
基于余弦相似度算法计算所述主题词向量和所述评价分词向量的余弦相似度作为所述相似度。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的物品质量抽检项目确定方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至5任一项所述的物品质量抽检项目确定方法的步骤。
8.一种物品质量抽检项目确定系统,其特征在于,所述物品质量抽检项目确定系统包括数据获取模块、分词模块、相似度计算模块、频次统计模块、质量抽检项目选取模块和一抽检项目库;所述抽检项目库存储有多个待抽检项目及每个待抽检项目对应的主题词;
所述数据获取模块用于获取一物品的第一评价数据;
所述分词模块用于对所述第一评价数据进行分词处理,得到多个评价分词;
所述相似度计算模块用于计算每个主题词与所述评价分词的相似度,并调用所述频次统计模块;
所述频次统计模块用于统计每个主题词与所述评价分词的相似度大于相似度阈值的频次;
所述质量抽检项目选取模块用于选取所述频次最高的N个主题词对应的N个待抽检项目作为质量抽检项目,N为正整数;
所述物品质量抽检项目确定系统还包括判断模块;
所述判断模块用于判断所述第一评价数据是否包含对所述物品质量的负面评价;
所述判断模块包括评价数据获取单元、标签赋予单元、文本信息库创建单元和物品评价数据评判模型训练单元;
所述评价数据获取单元用于获取一预设时间内目标物品的第二评价数据;
所述标签赋予单元用于对所述第二评价数据赋予目标特征标签,所述目标特征标签用于表征所述第二评价数据是否体现所述目标物品具有质量问题;
所述文本信息库创建单元用于根据所述第二评价数据创建评判物品质量的文本信息库;
所述物品评价数据评判模型训练单元用于根据所述文本信息库和所述目标特征标签训练得到物品评价数据评判模型;
所述判断模块用于利用所述物品评价数据评判模型判断所述第一评价数据是否包含对所述物品质量的负面评价;所述物品质量抽检项目确定系统还包括评价数据滤除模块;
若所述第一评价数据包含对所述物品质量的负面评价,则调用所述评价数据滤除模块;
所述评价数据滤除模块用于滤除没有包含对所述物品质量的负面评价的第一评价数据;
所述分词模块用于对滤除后的第一评价数据进行分词处理。
9.如权利要求8所述的物品质量抽检项目确定系统,其特征在于,所述判断模块还包括分词单元和一词向量库;所述词向量库存储有多个标准分词及与每个标准分词对应的词向量;
所述分词单元用于对所述第二评价数据进行分词处理,得到多个分词;
所述文本信息库创建单元用于从所述词向量库中获取与所述多个分词对应的分词向量;所述文本信息库包括所述分词向量;
所述物品评价数据评判模型训练单元用于将所述分词向量和所述目标特征标签作为训练样本输入到机器学习模型中,训练得到所述物品评价数据评判模型。
10.如权利要求9所述的物品质量抽检项目确定系统,其特征在于,所述判断模块还包括词向量获取单元和标签输出单元;
所述词向量获取单元用于从所述词向量库中获取与所述多个评价分词对应的评价分词向量;
所述标签输出单元用于将所述评价分词向量输入到所述物品评价数据评判模型中,并输出所述第一评价数据的特征标签;所述特征标签用于表征所述第一评价数据是否包含对所述物品质量的负面评价;
所述判断模块用于根据所述特征标签评判模型判断第一评价数据是否包含对所述物品质量的负面评价。
11.如权利要求9所述的物品质量抽检项目确定系统,其特征在于,所述判断模块还包括停用词滤除单元;
所述停用词滤除单元用于滤除所述多个分词中的停用词;
所述词向量获取单元用于对滤除后的多个分词获取对应的分词向量。
12.如权利要求10所述的物品质量抽检项目确定系统,其特征在于,所述词向量获取单元还用于从所述词向量库中获取与所述主题词对应的主题词向量;
所述相似度计算模块用于基于余弦相似度算法计算所述主题词向量和所述评价分词向量的余弦相似度作为所述相似度。 说明书 : 质量抽检项目确定方法、系统、电子设备及可读存储介质技术领域[0001] 本发明属于大数据处理领域,特别涉及一种质量抽检项目确定方法、系统、电子设备及可读存储介质。背景技术[0002] 物品质量抽检作为一项有效的质量监督与管理办法,被国家政府质量监管部门、行业、企业所普遍认可并采用,互联网作为物品流通的一种平台和渠道,也同样需要进行物品质量抽检。通常,物品质量抽检的重要环节就是抽检项的选择,在现有的抽检项选择过程中,主要还是依赖质控人员的相关经验,根据物品的描述,再结合国家质量主管部门制定的质量标准,判断该物品所属的类别并选定本次抽检的抽检项目或者简单的选择全部项目。[0003] 这样的抽检方法严重依赖于质控人员的相关经验,对人的专业性要求较高,而由于互联网平台的物品种类多数量大、更迭频繁,导致这种依赖质控人员的模式不具有很好的推广性,同时响应时间和成本均较难控制,并且,由于质控人员对物品信息的了解很容易具有个人倾向、片面性,从而导致抽检过程中选定的抽检项目不合理而不能高效、低成本的发现质量问题,造成抽检效率降低、成本上升、不具有可持续性和推广性。发明内容[0004] 本发明要解决的技术问题是为了克服现有技术中互联网物品质量抽检主要依赖质控人员的检验导致抽检效率降低且不具有推广性的缺陷,提供一种质量抽检项目确定方法、系统、电子设备及可读存储介质。[0005] 本发明是通过下述技术方案来解决上述技术问题:[0006] 一种物品质量抽检项目确定方法,所述物品质量抽检项目确定方法包括:[0007] 获取一物品的第一评价数据;[0008] 对所述第一评价数据进行分词处理,得到多个评价分词;[0009] 预设一抽检项目库;所述抽检项目库存储有多个待抽检项目及每个待抽检项目对应的主题词;[0010] 计算每个主题词与所述评价分词的相似度,并统计所述相似度大于相似度阈值的频次;[0011] 选取所述频次最高的N个主题词对应的N个待抽检项目作为质量抽检项目,N为正整数。[0012] 较佳地,所述获取一物品的第一评价数据的步骤之后,所述物品质量抽检项目确定方法还包括:[0013] 判断所述第一评价数据是否包含对所述物品质量的负面评价,若是,则滤除没有包含对所述物品质量的负面评价的第一评价数据;[0014] 所述对所述第一评价数据进行分词处理的步骤中,对滤除后的第一评价数据进行分词处理。[0015] 较佳地,所述判断所述第一评价数据是否包含对所述物品质量的负面评价的步骤具体包括:[0016] 获取一预设时间内目标物品的第二评价数据;[0017] 对所述第二评价数据赋予目标特征标签,所述目标特征标签用于表征所述第二评价数据是否体现所述目标物品具有质量问题;[0018] 根据所述第二评价数据创建评判物品质量的文本信息库;[0019] 根据所述文本信息库和所述目标特征标签训练得到物品评价数据评判模型;[0020] 利用所述物品评价数据评判模型判断所述第一评价数据是否包含对所述物品质量的负面评价。[0021] 较佳地,所述根据所述评价数据创建评判物品质量的文本信息库的步骤具体包括:[0022] 预设一词向量库;所述词向量库存储有多个标准分词及与每个标准分词对应的词向量;[0023] 对所述第二评价数据进行分词处理,得到多个分词;[0024] 从所述词向量库中获取与所述多个分词对应的分词向量;所述文本信息库包括所述分词向量;[0025] 所述根据所述文本信息库训练得到物品评价数据评判模型的步骤具体包括:[0026] 将所述分词向量和所述目标特征标签作为训练样本输入到机器学习模型中,训练得到所述物品评价数据评判模型。[0027] 较佳地,所述利用所述物品评价数据评判模型判断第一评价数据是否包含对所述物品质量的负面评价的步骤具体包括:[0028] 从所述词向量库中获取与所述多个评价分词对应的评价分词向量;[0029] 将所述评价分词向量输入到所述物品评价数据评判模型中,输出所述第一评价数据的特征标签;所述特征标签用于表征所述第一评价数据是否包含对所述物品质量的负面评价;[0030] 根据所述特征标签评判模型判断第一评价数据是否包含对所述物品质量的负面评价。[0031] 较佳地,所述从所述词向量库中查询与所述多个分词对应的分词向量的步骤之前,所述质量抽检项目确定方法还包括:[0032] 滤除所述多个分词中的停用词;[0033] 所述从所述词向量库中查询与所述多个分词对应的分词向量的步骤中,对滤除后的多个分词获取对应的分词向量。[0034] 较佳地,所述计算每个主题词与所述评价分词的相似度的步骤具体包括:[0035] 从所述词向量库中获取与所述主题词对应的主题词向量;[0036] 基于余弦相似度算法计算所述主题词向量和所述评价分词向量的余弦相似度作为所述相似度。[0037] 一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的质量抽检项目确定方法。[0038] 一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的质量抽检项目确定方法的步骤。[0039] 一种物品质量抽检项目确定系统,所述物品质量抽检项目确定系统包括数据获取模块、分词模块、相似度计算模块、频次统计模块、质量抽检项目选取模块和一抽检项目库;所述抽检项目库存储有多个待抽检项目及每个待抽检项目对应的主题词;[0040] 所述数据获取模块用于获取一物品的第一评价数据;[0041] 所述分词模块用于对所述第一评价数据进行分词处理,得到多个评价分词;[0042] 所述相似度计算模块用于计算每个主题词与所述评价分词的相似度,并调用所述频次统计模块;[0043] 所述频次统计模块用于统计每个主题词与所述评价分词的相似度大于相似度阈值的频次;[0044] 所述质量抽检项目选取模块用于选取所述频次最高的N个主题词对应的N个待抽检项目作为质量抽检项目,N为正整数。[0045] 较佳地,所述物品质量抽检项目确定系统还包括判断模块和滤除模块;[0046] 所述判断模块用于判断所述第一评价数据是否包含对所述物品质量的负面评价,若是,则调用所述评价数据滤除模块;[0047] 所述评价数据滤除模块用于滤除没有包含对所述物品质量的负面评价的第一评价数据;[0048] 所述分词模块用于对滤除后的第一评价数据进行分词处理。[0049] 较佳地,所述判断模块包括评价数据获取单元、标签赋予单元、文本信息库创建单元和物品评价数据评判模型训练单元;[0050] 所述评价数据获取单元用于获取一预设时间内目标物品的第二评价数据;[0051] 所述标签赋予单元用于对所述第二评价数据赋予目标特征标签,所述目标特征标签用于表征所述第二评价数据是否体现所述目标物品具有质量问题;[0052] 所述文本信息库创建单元用于根据所述第二评价数据创建评判物品质量的文本信息库;[0053] 所述物品评价数据评判模型训练单元用于根据所述文本信息库和所述目标特征标签训练得到物品评价数据评判模型;[0054] 所述判断模块用于利用所述物品评价数据评判模型判断所述第一评价数据是否包含对所述物品质量的负面评价。[0055] 较佳地,所述判断模块还包括分词单元和一词向量库;所述词向量库存储有多个标准分词及与每个标准分词对应的词向量;[0056] 所述分词单元用于对所述第二评价数据进行分词处理,得到多个分词;[0057] 所述文本信息库创建单元用于从所述词向量库中获取与所述多个分词对应的分词向量;所述文本信息库包括所述分词向量;[0058] 所述物品评价数据评判模型训练单元用于将所述分词向量和所述目标特征标签作为训练样本输入到机器学习模型中,训练得到所述物品评价数据评判模型。[0059] 较佳地,所述判断模块还包括词向量获取单元和标签输出单元;[0060] 所述词向量获取单元用于从所述词向量库中获取与所述多个评价分词对应的评价分词向量;[0061] 所述标签输出单元用于将所述评价分词向量输入到所述物品评价数据评判模型中,并输出所述第一评价数据的特征标签;所述特征标签用于表征所述第一评价数据是否包含对所述物品质量的负面评价;[0062] 所述判断模块用于根据所述特征标签评判模型判断第一评价数据是否包含对所述物品质量的负面评价。[0063] 较佳地,所述文本信息库创建模块还包括停用词滤除单元;[0064] 所述停用词滤除单元用于滤除所述多个分词中的停用词;[0065] 所述词向量获取单元用于对滤除后的多个分词获取对应的分词向量。[0066] 较佳地,所述词向量获取单元还用于从所述词向量库中获取与所述主题词对应的主题词向量;[0067] 所述相似度计算模块用于基于余弦相似度算法计算所述主题词向量和所述评价分词向量的余弦相似度作为所述相似度。[0068] 本发明的积极进步效果在于:本发明根据用户的评价数据实现自动选择质量抽检项目,从而摆脱对专业人员的依赖,实现自动、科学的抽检,抽检项目依托用户的评价数据,更具有代表性,使得抽检项目更可靠。附图说明[0069] 图1为本发明实施例1的物品质量抽检项目确定方法的流程图。[0070] 图2为本发明实施例2的物品质量抽检项目确定方法的流程图。[0071] 图3为本发明实施例2的物品质量抽检项目确定方法中步骤11的具体流程图。[0072] 图4为本发明实施例2的物品质量抽检项目确定方法中步骤113的具体流程图。[0073] 图5为本发明实施例2的物品质量抽检项目确定方法中步骤115的具体流程图。[0074] 图6为本发明实施例3的物品质量抽检项目确定方法中步骤113的具体流程图。[0075] 图7为本发明实施例3的物品质量抽检项目确定方法中步骤40的具体流程图。[0076] 图8为本发明实施例4的一种电子设备的结构示意图。[0077] 图9为本发明实施例6的物品质量抽检项目确定系统的模块示意图。[0078] 图10为本发明实施例7的物品质量抽检项目确定系统的模块示意图。[0079] 图11为本发明实施例7的物品质量抽检项目确定系统中判断模块的模块示意图。[0080] 图12为本发明实施例8的物品质量抽检项目确定系统中判断模块的模块示意图。具体实施方式[0081] 下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。[0082] 实施例1[0083] 一种物品质量抽检项目确定方法,如图1所示,所述物品质量抽检项目确定方法包括:[0084] 步骤10、获取一物品的第一评价数据;在本实施例中选取的是待抽检物品对应的过去3个月时间范围内的评价及退换修内容作为其评价数据,以保证内容能更好的反应该物品的近期质量问题;[0085] 步骤20、对第一评价数据进行分词处理,得到多个评价分词;[0086] 步骤30、预设一抽检项目库;所述抽检项目库存储有多个待抽检项目及每个待抽检项目对应的主题词;[0087] 步骤40、计算每个主题词与评价分词的相似度,并统计相似度大于相似度阈值的频次;[0088] 步骤50、选取频次最高的N个主题词对应的N个待抽检项目作为质量抽检项目;N为正整数。[0089] 在推荐过程中,本实施例可以采用:把所有待抽检项目按照频次值降序排列,取排名前5,同时也可以对频次设定限制,比如,要求频次大于10的待抽检项目,上述阈值可以根据实际应用情况灵活调整,作为最终的质量抽检项目;[0090] 本实施例根据用户的评价数据实现自动选择质量抽检项目,从而摆脱对专业人员的依赖,实现自动、科学的抽检,抽检项目依托用户的评价数据,更具有代表性,使得抽检项目更可靠。[0091] 实施例2[0092] 本实施例的物品质量抽检项目确定方法是在实施例1的基础上进一步改进,如图2所示,步骤10之后,所述物品质量抽检项目确定方法还包括:[0093] 步骤11、判断第一评价数据是否包含对物品质量的负面评价,若是,则执行步骤12;若否,则不需要对数据进行滤除;[0094] 步骤12、滤除没有包含对物品质量的负面评价的第一评价数据;[0095] 进一步的,用步骤20‑1替换步骤20,具体包括:[0096] 步骤20‑1、对滤除后的第一评价数据进行分词处理,得到多个评价分词;[0097] 需要说明的是,一般来说,质量抽检的目的是为了能够对物品有效的监督和管理,尤其是有问题的物品更是需要得到重视,因此,本实施例中,预先对评论数据进行筛选过滤,把抽检重点放在有质量问题的物品上,其中,如图3所示,步骤11具体包括:[0098] 步骤111、获取一预设时间内目标物品的第二评价数据;[0099] 步骤112、对第二评价数据赋予目标特征标签;所述目标特征标签用于表征所述第二评价数据是否体现所述目标物品具有质量问题;此处,目标特征标签的标定可以从现有的评价数据中挑取部分数据用于进行人工打标,标记其是否属于质量问题,比如,若属于物品质量问题,则标记为1,否则标记为0;[0100] 步骤113、根据第二评价数据创建评判物品质量的文本信息库;[0101] 步骤114、根据文本信息库和目标特征标签训练得到物品评价数据评判模型;[0102] 步骤115、利用物品评价数据评判模型判断第一评价数据是否包含对物品质量的负面评价。[0103] 进一步地,本实施例中,如图4所示,步骤113具体包括:[0104] 步骤1131、预设一词向量库;词向量库存储有多个标准分词及与每个标准分词对应的词向量;[0105] 步骤1132、对第二评价数据进行分词处理,得到多个分词;[0106] 步骤1133、从词向量库中获取与多个分词对应的分词向量;所述文本信息库包括所述分词向量;[0107] 步骤114中,将所述分词向量和所述目标特征标签作为训练样本输入到机器学习模型中,训练得到所述物品评价数据评判模型。[0108] 需要说明的是,词向量是指使用一个多维的数组来表示一个词,通过使用词向量,可以使得相近的词在计算余弦距离时距离更近,词向量的生成具有相对成熟的开源实现技术。本实施例中的词向量库的生成可以通过收集的物品类目信息、物品描述信息及物品反馈信息等,对每一个类目下的所有反馈文本内容,进行分词并学习每个词的词向量表述方式,并最终生成每个物品类目对应的词向量库。[0109] 进一步的,在训练得到物品评价数据评判模型后,如图5所示,步骤115具体包括:[0110] 步骤1151、从词向量库中获取与多个评价分词对应的评价分词向量;[0111] 步骤1152、将评价分词向量输入到物品评价数据评判模型中,输出第一评价数据的特征标签;所述特征标签用于表征所述第一评价数据是否包含对所述物品质量的负面评价;[0112] 步骤1153、根据特征标签评判模型判断第一评价数据是否包含对物品质量的负面评价。[0113] 本实施例中,对第二评论数据进行分词后,基于词向量库获取对应的分词向量,然后将分词向量和目标特征标签作为训练语料进行训练得到物品评价数据评判模型,再基于物品评价数据评判模型来对第一评价数据进行判断。[0114] 实施例3[0115] 本实施例的物品质量抽检项目确定方法是在实施例2的基础上进一步改进,如图6所示,由于部分用户评价数据中含有很多不规范用语、标点符号、无效内容等,因此对评价数据进行分词后,对诸如停用词、符号进行去除,以提升模型的准确度,因此,步骤1133之前,步骤113还包括:[0116] 步骤1134、滤除所述多个分词中的停用词;[0117] 进一步地,用步骤1133‑1替换步骤1133,具体包括:[0118] 步骤1133‑1、从词向量库中对滤除后的多个分词获取对应的分词向量;[0119] 另外,基于词向量库可以查询到主题词和评价分词的向量表示,因此可以通过对向量的余弦相似度计算,得到两个词之间的相邻程度,具体地,如图7所示,步骤40具体包括:[0120] 步骤401、从词向量库中获取与主题词对应的主题词向量;[0121] 步骤402、基于余弦相似度算法计算主题词向量和评价分词向量的余弦相似度作为相似度。[0122] 本实施例中,在具体实现过程中,可以根据国家、行业质量标准中定义的具体质量项目要求中涉及的主题词,计算评价数据中每个词与各主题词之间的余弦距离,若某个词与主题词的余弦距离大于某个阈值(比如设定的阈值为0.8),则表明该条记录反馈的问题在很大概率上与该主题词接近,故该主题计数增加1,最后就能够得出各个质量主题对应的计数数量。[0123] 实施例4[0124] 一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例1至3任一个实施例所述的物品质量抽检项目确定方法。[0125] 图8为本发明实施例4提供的一种电子设备的结构示意图。图8示出了适于用来实现本发明实施方式的示例性电子设备90的框图。图8显示的电子设备90仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。[0126] 如图8所示,电子设备90可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备90的组件可以包括但不限于:至少一个处理器91、至少一个存储器92、连接不同系统组件(包括存储器92和处理器91)的总线93。[0127] 总线93包括数据总线、地址总线和控制总线。[0128] 存储器92可以包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。[0129] 存储器92还可以包括具有一组(至少一个)程序模块924的程序工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。[0130] 处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理。[0131] 电子设备90也可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,电子设备90还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备90的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。[0132] 应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。[0133] 实施例5[0134] 一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1‑3中任意一个实施例所述的物品质量抽检项目确定方法的步骤。[0135] 其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。[0136] 在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1‑3中任意一个实施例所述的物品质量抽检项目确定方法的步骤。[0137] 其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。[0138] 实施例6[0139] 一种物品质量抽检项目确定系统,如图9所示,所述物品质量抽检项目确定系统包括数据获取模块1、分词模块2、相似度计算模块3、频次统计模块4、质量抽检项目选取模块5和一抽检项目库6;所述抽检项目库6存储有多个待抽检项目及每个待抽检项目对应的主题词;[0140] 所述数据获取模块1用于获取一物品的第一评价数据;在本实施例中选取的是待抽检物品对应的过去3个月时间范围内的评价及退换修内容作为其评价数据,以保证内容能更好的反应该物品的近期质量问题;[0141] 所述分词模块2用于对所述第一评价数据进行分词处理,得到多个评价分词;[0142] 所述相似度计算模块3用于计算每个主题词与所述评价分词的相似度,并调用所述频次统计模块4;[0143] 所述频次统计模块4用于统计每个主题词与所述评价分词的相似度大于相似度阈值的频次;[0144] 所述质量抽检项目选取模块5用于选取所述频次最高的N个主题词对应的N个待抽检项目作为质量抽检项目,N为正整数。[0145] 在抽检项目确定过程中,本实施例可以采用:把所有待抽检项目按照频次值降序排列,取排名前5,同时也可以对频次设定限制,比如,要求频次大于10的待抽检项目,上述阈值可以根据实际应用情况灵活调整,作为最终的质量抽检项目;[0146] 本实施例根据用户的评价数据实现自动选择质量抽检项目,从而摆脱对专业人员的依赖,实现自动、科学的抽检,抽检项目依托用户的评价数据,更具有代表性,使得抽检项目更可靠。[0147] 实施例7[0148] 本实施例的所述物品质量抽检项目确定系统是在实施例6的基础上进一步改进,如图10所示,所述物品质量抽检项目确定系统还包括判断模块7和滤除模块8;[0149] 所述判断模块7用于判断所述第一评价数据是否包含对所述物品质量的负面评价,若是,则调用所述评价数据滤除模块8;[0150] 所述评价数据滤除模块8用于滤除没有包含对所述物品质量的负面评价的第一评价数据;[0151] 所述分词模块2用于对滤除后的第一评价数据进行分词处理。[0152] 需要说明的是,一般来说,质量抽检的目的是为了能够对物品有效的监督和管理,尤其是有问题的物品更是需要得到重视,因此,本实施例中,预先对评论数据进行筛选过滤,把抽检重点放在有质量问题的物品上,具体地,如图11所示,所述判断模块7包括评价数据获取单元71、标签赋予单元72、文本信息库创建单元73和物品评价数据评判模型训练单元74;[0153] 所述评价数据获取单元71用于获取一预设时间内目标物品的第二评价数据;[0154] 所述标签赋予单元72用于对所述第二评价数据赋予目标特征标签,所述目标特征标签用于表征所述第二评价数据是否体现所述目标物品具有质量问题;此处,目标特征标签的标定可以从现有的评价数据中挑取部分数据用于进行人工打标,标记其是否属于质量问题,比如,若属于物品质量问题,则标记为1,否则标记为0;[0155] 所述文本信息库创建单元73用于根据所述第二评价数据创建评判物品质量的文本信息库;[0156] 所述物品评价数据评判模型训练单元74用于根据所述文本信息库和所述目标特征标签训练得到物品评价数据评判模型;[0157] 所述判断模块7用于利用所述物品评价数据评判模型判断所述第一评价数据是否包含对所述物品质量的负面评价。[0158] 其中,参照图11,所述判断模块7还包括分词单元75和一词向量库76;所述词向量库76存储有多个标准分词及与每个标准分词对应的词向量;[0159] 所述分词单元75用于对所述第二评价数据进行分词处理,得到多个分词;[0160] 所述文本信息库创建单元73用于从所述词向量库76中获取与所述多个分词对应的分词向量;所述文本信息库包括所述分词向量;[0161] 所述物品评价数据评判模型训练单元74用于将所述分词向量和所述目标特征标签作为训练样本输入到机器学习模型中,训练得到所述物品评价数据评判模型。[0162] 需要说明的是,词向量是指使用一个多维的数组来表示一个词,通过使用词向量,可以使得相近的词在计算余弦距离时距离更近,词向量的生成具有相对成熟的开源实现技术。本实施例中的词向量库76的生成可以通过收集的物品类目信息、物品描述信息及物品反馈信息等,对每一个类目下的所有反馈文本内容,进行分词并学习每个词的词向量表述方式,并最终生成每个物品类目对应的词向量库76。[0163] 本实施例中,参照图11,所述判断模块7还包括词向量获取单元77和标签输出单元78;[0164] 所述词向量获取单元77用于从所述词向量库76中获取与所述多个评价分词对应的评价分词向量;[0165] 所述标签输出单元78用于将所述评价分词向量输入到所述物品评价数据评判模型中,并输出所述第一评价数据的特征标签;所述特征标签用于表征所述第一评价数据是否包含对所述物品质量的负面评价;[0166] 所述判断模块7用于根据所述特征标签评判模型判断第一评价数据是否包含对所述物品质量的负面评价。[0167] 本实施例中,对第二评论数据进行分词后,基于词向量库76获取对应的分词向量,然后将分词向量和目标特征标签作为训练语料进行训练得到物品评价数据评判模型,再基于物品评价数据评判模型来对第一评价数据进行判断。[0168] 实施例8[0169] 本实施例的物品质量抽检项目确定系统法是在实施例6的基础上进一步改进,由于部分用户评价数据中含有很多不规范用语、标点符号、无效内容等,因此对评价数据进行分词后,对诸如停用词、符号进行去除,以提升模型的准确度,如图12所示,所述判断模块还包括停用词滤除单元79;[0170] 所述停用词滤除单元79用于滤除所述多个分词中的停用词;[0171] 所述词向量获取单元77用于对滤除后的多个分词获取对应的分词向量。[0172] 另外,基于词向量库76可以查询到主题词和评价分词的向量表示,因此可以通过对向量的余弦相似度计算,得到两个词之间的相邻程度,具体地:[0173] 所述词向量获取单元77还用于从所述词向量库76中获取与所述主题词对应的主题词向量;[0174] 所述相似度计算模块用于基于余弦相似度算法计算所述主题词向量和所述评价分词向量的余弦相似度作为所述相似度。[0175] 本实施例中,在具体实现过程中,可以根据国家、行业质量标准中定义的具体质量项目要求中涉及的主题词,计算评价数据中每个词与各主题词之间的余弦距离,若某个词与主题词的余弦距离大于某个阈值(比如设定的阈值为0.8),则表明该条记录反馈的问题在很大概率上与该主题词接近,故该主题计数增加1,最后就能够得出各个质量主题对应的计数数量。[0176] 虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
专利地区:北京
专利申请日期:2018-08-01
专利公开日期:2024-06-18
专利公告号:CN110807082B