可左右滑动选省市

模型评估方法、装置、电子设备和存储介质实用新型专利

更新时间:2024-10-01
模型评估方法、装置、电子设备和存储介质实用新型专利 专利申请类型:实用新型专利;
源自:北京高价值专利检索信息库;

专利名称:模型评估方法、装置、电子设备和存储介质

专利类型:实用新型专利

专利申请号:CN201910668542.9

专利申请(专利权)人:百度时代网络技术(北京)有限公司
权利人地址:北京市海淀区东北旺西路8号中关村软件园17号楼二层A2

专利发明(设计)人:徐浩广,董长阳,叶云喜,马鹏飞,吴杰,张琼,魏发翔

专利摘要:本申请提出一种模型评估方法、装置、电子设备和存储介质,其中,方法包括:通过获取模型评估请求信息,对模型请求信息进行解析得到模型标识和第一模型版本号,从预设模型数据库中获取与模型标识和第一模型版本号对应的待评估模型,从预设样本数据库中获取与待评估模型对应的评估样本,将评估样本输入到待评估模型中进行评估处理得到评估准确率和评估召回率,评估准确率大于等于第一预设准确率阈值且评估召回率大于等于第一预设召回率阈值,确定待评估模型满足预设使用条件。解决现有技术中模型使用率下降的问题,通过从预设样本数据库中获取评估样本来自动对模型评估,保证评估结果的客观准确,提高模型的使用率。

主权利要求:
1.一种模型评估方法,其特征在于,包括以下步骤:获取模型评估请求信息,对所述模型请求信息进行解析得到模型标识和第一模型版本号;
从预设模型数据库中获取与所述模型标识和第一模型版本号对应的待评估模型;
从预设样本数据库中获取与所述待评估模型对应的评估样本,其中,所述预设样本数据库中存储着各个所述待评估模型对应的评估样本,不同的所述待评估模型对应的评估样本不同;
将所述评估样本输入到所述待评估模型中进行评估处理得到评估准确率和评估召回率;
若所述评估准确率大于等于第一预设准确率阈值,且所述评估召回率大于等于第一预设召回率阈值,则确定所述待评估模型满足预设使用条件;
获取与所述待评估模型对应的第二模型版本号;
从预设评估结果数据库中获取与所述模型标识和所述第二模型版本号对应的目标准确率和目标召回率;
根据所述评估准确率、所述评估召回率、所述目标准确率和所述目标召回率确定所述待评估模型在所述第一模型版本号和所述第二模型版本号之间是否满足预设优化条件。
2.如权利要求1所述的方法,其特征在于,在所述从预设模型数据库中获取与所述模型标识和第一模型版本号对应的待评估模型之前,还包括:获取模型训练请求,并获取待训练模型;
从所述预设样本数据库中获取训练样本,将所述训练样本输入到所述待训练模型中进行训练处理,得到训练准确率和训练召回率;
若所述训练准确率大于等于第二预设准确率阈值,且所述训练召回率大于等于第二预设召回率阈值,则确定所述待训练模型满足预设训练条件;
将所述待训练模型存储在所述预设模型数据库中。
3.如权利要求1所述的方法,其特征在于,在所述从预设样本数据库中获取与所述待评估模型对应的评估样本之前,还包括:获取标注平台发送的标注样本;
获取业务方发送的使用样本;
根据所述标注样本和所述使用样本生成所述评估样本和所述训练样本;
将所述评估样本和所述训练样本存储在所述预设样本数据库。
4.如权利要求1所述的方法,其特征在于,在所述若所述评估准确率大于等于第一预设准确率阈值,且所述评估召回率大于等于预设召回率阈值,则确定所述待评估模型满足预设使用条件之前,还包括:从样本评估轨迹表中获取所有样本对应的风险信息;
从基准样本信息表中获取所述评估样本对应的基准风险信息;
根据所述所有样本对应的风险信息和所述基准风险信息计算所述第一预设准确率阈值和所述第一预设召回率阈值。
5.一种模型评估装置,其特征在于,包括:
获取解析模块,用于获取模型评估请求信息,对所述模型请求信息进行解析得到模型标识和第一模型版本号;
第一获取模块,用于从预设模型数据库中获取与所述模型标识和第一模型版本号对应的待评估模型;
第二获取模块,用于从预设样本数据库中获取与所述待评估模型对应的评估样本,其中,所述预设样本数据库中存储着各个所述待评估模型对应的评估样本,不同的所述待评估模型对应的评估样本不同;
评估模块,用于将所述评估样本输入到所述待评估模型中进行评估处理得到评估准确率和评估召回率;
第一确定模块,用于若所述评估准确率大于等于第一预设准确率阈值,且所述评估召回率大于等于第一预设召回率阈值,则确定所述待评估模型满足预设使用条件;
第六获取模块,用于获取与所述待评估模型对应的第二模型版本号;
第七获取模块,用于从预设评估结果数据库中获取与所述模型标识和所述第二模型版本号对应的目标准确率和目标召回率;
第三确定模块,用于根据所述评估准确率、所述评估召回率、所述目标准确率和所述目标召回率确定所述待评估模型在所述第一模型版本号和所述第二模型版本号之间是否满足预设优化条件。
6.如权利要求5所述的装置,其特征在于,还包括:第三获取模块,用于获取模型训练请求,并获取待训练模型;
训练模块,用于从所述预设样本数据库中获取训练样本,将所述训练样本输入到所述待训练模型中进行训练处理,得到训练准确率和训练召回率;
第二确定模块,用于若所述训练准确率大于等于第二预设准确率阈值,且所述训练召回率大于等于第二预设召回率阈值,则确定所述待训练模型满足预设训练条件;
第一存储模块,用于将所述待训练模型存储在所述预设模型数据库中。
7.如权利要求5所述的装置,其特征在于,还包括:第四获取模块,用于获取标注平台发送的标注样本;
第五获取模块,用于获取业务方发送的使用样本;
生成模块,用于根据所述标注样本和所述使用样本生成所述评估样本和所述训练样本;
第二存储模块,用于将所述评估样本和所述训练样本存储在所述预设样本数据库。
8.如权利要求5所述的装置,其特征在于,还包括:第八获取模块,用于从样本评估轨迹表中获取所有样本对应的风险信息;
第九获取模块,用于从基准样本信息表中获取所述评估样本对应的基准风险信息;
计算模块,用于根据所述所有样本对应的风险信息和所述基准风险信息计算所述第一预设准确性阈值和所述第一预设召回率阈值。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1‑3任一所述的模型评估方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1‑3任一所述的模型评估方法。
11.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1‑3中任一项所述的模型评估方法。 说明书 : 模型评估方法、装置、电子设备和存储介质技术领域[0001] 本申请涉及自动驾驶技术领域,尤其涉及一种模型评估方法、装置、电子设备和存储介质。背景技术[0002] 目前,随着人工智能技术的不断发展和应用场景的逐渐多样化,机器模型的研发和迭代速度不断加快,在模型发布前需要用评估样本对模型进行评估,只有评估结果符合上线要求时才允许发布。[0003] 相关技术中,模型评估由模型开发人员来执行,这种方案需要模型开发人员在线下收集和管理评估样本,并基于线下样本搭建线下的模型评估环境来优化模型,增加了开发人员的工作量,并且开发人员收集的评估样本容易因主观因素导致评估样本的准确性不高,导致模型的评估结果得不到业务方的认可。[0004] 申请内容[0005] 本申请旨在至少在一定程度上解决上述相关技术中的技术问题之一。[0006] 为此,本申请的第一个目的在于提出一种模型评估方法,解决了现有技术中模型的评估结果得不到业务方的认可,导致模型使用率下降的问题,通过从预设样本数据库中获取评估样本来自动对模型评估,保证评估结果的客观准确,提高模型的使用率。[0007] 本申请的第二个目的在于提出一种模型评估装置。[0008] 本申请的第三个目的在于提出一种计算机设备。[0009] 本申请的第四个目的在于提出一种非临时性计算机可读存储介质。[0010] 为达上述目的,本申请第一方面实施例提出了一种模型评估方法,包括:获取模型评估请求信息,对所述模型请求信息进行解析得到模型标识和第一模型版本号;从预设模型数据库中获取与所述模型标识和第一模型版本号对应的待评估模型;从预设样本数据库中获取与所述待评估模型对应的评估样本;将所述评估样本输入到所述待评估模型中进行评估处理得到评估准确率和评估召回率;若所述评估准确率大于等于第一预设准确率阈值,且所述评估召回率大于等于第一预设召回率阈值,则确定所述待评估模型满足预设使用条件。[0011] 另外,本申请实施例的模型评估方法,还具有如下附加的技术特征:[0012] 可选地,在所述从预设模型数据库中获取与所述模型标识和第一模型版本号对应的待评估模型之前,还包括:获取模型训练请求,并获取待训练模型;从所述预设样本数据库中获取训练样本,将所述训练样本输入到所述待训练模型中进行训练处理,得到训练准确率和训练召回率;若所述训练准确率大于等于第二预设准确率阈值,且所述训练召回率大于等于第二预设召回率阈值,则确定所述待训练模型满足预设训练条件;将所述待训练模型存储在所述预设模型数据库中。[0013] 可选地,在所述从预设样本数据库中获取与所述待评估模型对应的评估样本之前,还包括:获取标注平台发送的标注样本;获取业务方发送的使用样本;根据所述标注样本和所述使用样本生成所述评估样本和所述训练样本;将所述评估样本和所述训练样本存储在所述预设样本数据库。[0014] 可选地,所述的方法,还包括:获取与所述待评估模型对应的第二模型版本号;从预设评估结果数据库中获取与所述模型标识和所述第二模型版本号对应的目标准确率和目标召回率;根据所述评估准确率、所述评估召回率、所述目标准确率和所述目标召回率确定所述待评估模型在所述第一模型版本号和所述第二模型版本号之间是否满足预设优化条件。[0015] 可选地,在所述若所述评估准确率大于等于预设准确率阈值,且所述评估召回率大于等于预设召回率阈值,则确定所述待评估模型满足预设使用条件之前,还包括:从样本评估轨迹表中获取所有样本对应的风险信息;从基准样本信息表中获取所述评估样本对应的基准风险信息;根据所述所有样本对应的风险信息和所述基准风险信息计算所述第一预设准确性阈值和所述第一预设召回率阈值。[0016] 为达上述目的,本申请第二方面实施例提出了一种模型评估装置,包括:获取解析模块,用于获取模型评估请求信息,对所述模型请求信息进行解析得到模型标识和第一模型版本号;第一获取模块,用于从预设模型数据库中获取与所述模型标识和第一模型版本号对应的待评估模型;第二获取模块,用于从预设样本数据库中获取与所述待评估模型对应的评估样本;评估模块,用于将所述评估样本输入到所述待评估模型中进行评估处理得到评估准确率和评估召回率;第一确定模块,用于若所述评估准确率大于等于第一预设准确率阈值,且所述评估召回率大于等于第一预设召回率阈值,则确定所述待评估模型满足预设使用条件。[0017] 另外,本申请实施例的模型评估装置,还具有如下附加的技术特征:[0018] 可选地,所述的装置,还包括:第三获取模块,用于获取模型训练请求,并获取待训练模型;训练模块,用于从所述预设样本数据库中获取训练样本,将所述训练样本输入到所述待训练模型中进行训练处理,得到训练准确率和训练召回率;第二确定模块,用于若所述训练准确率大于等于第二预设准确率阈值,且所述训练召回率大于等于第二预设召回率阈值,则确定所述待训练模型满足预设训练条件;第一存储模块,用于将所述待训练模型存储在所述预设模型数据库中。[0019] 可选地,所述装置,还包括:第四获取模块,用于获取标注平台发送的标注样本;第五获取模块,用于获取业务方发送的使用样本;生成模块,用于根据所述标注样本和所述使用样本生成所述评估样本和所述训练样本;第二存储模块,用于将所述评估样本和所述训练样本存储在所述预设样本数据库。[0020] 可选地,所述的装置,还包括:第六获取模块,用于获取与所述待评估模型对应的第二模型版本号;第七获取模块,用于从预设评估结果数据库中获取与所述模型标识和所述第二模型版本号对应的目标准确率和目标召回率;第三确定模块,用于根据所述评估准确率、所述评估召回率、所述目标准确率和所述目标召回率确定所述待评估模型在所述第一模型版本号和所述第二模型版本号之间是否满足预设优化条件。[0021] 可选地,所述的装置,还包括:第八获取模块,用于从样本评估轨迹表中获取所有样本对应的风险信息;第九获取模块,用于从基准样本信息表中获取所述评估样本对应的基准风险信息;计算模块,用于根据所述所有样本对应的风险信息和所述基准风险信息计算所述第一预设准确性阈值和所述第一预设召回率阈值。[0022] 为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的模型评估方法。[0023] 为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的模型评估方法。[0024] 为达上述目的,本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如第一方面实施例所述的模型评估方法。[0025] 本申请实施例提供的技术方案可以包含如下的有益效果:[0026] 获取模型评估请求信息,对模型请求信息进行解析得到模型标识和第一模型版本号;从预设模型数据库中获取与模型标识和第一模型版本号对应的待评估模型;从预设样本数据库中获取与待评估模型对应的评估样本;将评估样本输入到待评估模型中进行评估处理得到评估准确率和评估召回率;若评估准确率大于等于第一预设准确率阈值,且评估召回率大于等于第一预设召回率阈值,则确定待评估模型满足预设使用条件。有效解决了现有技术中模型的评估结果得不到业务方的认可,导致模型使用率下降的问题,通过从预设样本数据库中获取评估样本来自动对模型评估,保证评估结果的客观准确,提高模型的使用率。[0027] 本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明[0028] 本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:[0029] 图1是根据本申请一个实施例的模型评估方法的流程图;[0030] 图2a‑图2e是根据本申请一个实施例的模型评估各个信息列表的示例图;[0031] 图3是根据本申请另一个实施例的模型评估方法的流程图;[0032] 图4是根据本申请又一个实施例的模型评估方法的流程图;[0033] 图5是根据本申请再一个实施例的模型评估方法的流程图;[0034] 图6是根据本申请一个实施例的模型评估系统的示例图;[0035] 图7是根据本申请一个实施例的模型评估装置的结构示意图;[0036] 图8是根据本申请另一个实施例的模型评估装置的结构示意图;[0037] 图9是根据本申请又一个实施例的模型评估装置的结构示意图;[0038] 图10是根据本申请再一个实施例的模型评估装置的结构示意图;[0039] 图11是根据本申请还一个实施例的模型评估装置的结构示意图。具体实施方式[0040] 下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。[0041] 下面参考附图描述本申请实施例的模型评估方法、装置、电子设备和存储介质。[0042] 针对背景技术中提到的,现有技术中模型评估方式增加了开发人员的工作量,并且开发人员收集的评估样本容易因主观因素导致评估样本的准确性不高,导致模型的评估结果得不到业务方的认可的技术问题,本申请提出了一种模型评估的方法,通过从预设样本数据库中获取评估样本来自动对模型评估,保证评估结果的客观准确,提高模型的使用率。[0043] 具体而言,图1是根据本申请一个实施例的模型评估方法的流程图,如图1所示,该方法包括:[0044] 步骤101,获取模型评估请求信息,对模型请求信息进行解析得到模型标识和第一模型版本号。[0045] 步骤102,从预设模型数据库中获取与模型标识和第一模型版本号对应的待评估模型。[0046] 在实际应用当中,为了提高处理效率和提升用户使用满意度,很多视频、即时通信等应用程序都会使用各种各样的机器模型来对相关内容进行处理,比如低俗过滤模型来对视频应用程序中的低俗内容进行自动过滤,再比如信息安全检测模型来对即时通信应用程序中的信息内容进行自动安全检测等等。[0047] 可以理解的是,业务方比如视频应用程序管理方,对于模型的要求肯定是使用的效果和预期一致是最好的,因此在使用该模型前会对模型进行评估,并在评估结果符合要求才上线使用。[0048] 具体地,获取模型评估请求信息,可以理解的是,该模型评估请求信息是业务方根据应用需要选择的模型以及模型版本号通过手动输入、自动选择等方式发送的。[0049] 进一步地,对模型请求信息进行解析得到模型标识和第一模型版本号,其中,根据模型标识能够定位到具体模型,比如模型标识A对应到低俗过滤模型,第一模型版本号能够定位到具体模型版本号,比如第一模型版本号B能够对应的模型1.0版本,也就是说模型标识A和第一模型版本号可以从预设模型数据库中获取1.0版本的低俗过滤模型作为待评估模型。[0050] 其中,预设模型数据库中存储着各种各样待评估的不同模型版本号的模型,在生成模型后,开发方可以自己获取相关训练样本对模型进行训练即自我评估,在训练结果满足一定条件即开发方觉得已经满足上线条件了将模型存储在预设模型数据库作为待评估模型以后续进行评估。[0051] 步骤103,从预设样本数据库中获取与待评估模型对应的评估样本。[0052] 步骤104,将评估样本输入到待评估模型中进行评估处理得到评估准确率和评估召回率。[0053] 步骤105,若评估准确率大于等于第一预设准确率阈值,且评估召回率大于等于第一预设召回率阈值,则确定待评估模型满足预设使用条件。[0054] 具体,在确定待评估模型后,从预设样本数据库中获取与待评估模型对应的评估样本,可以理解的是,预设样本数据库中存储着各个待评估模型对应的评估样本,也就是说不同的待评估模型对应的评估样本不一样,比如低俗过滤模型对应的穿着视频样本、语音低俗视频样本等,再比如信息安全检测模型对应的链接信息样本、联系信息样本等。[0055] 其中,预设样本数据库中样本的数据主要来源于标注平台和业务方,其中,标注平台的数据是人工根据模型的标签精确标注出来的样本,样本数据完全可信,用于模型训练过程,业务方提供的数据主要是评估样本。[0056] 进一步地,将评估样本输入到待评估模型中进行评估处理得到评估准确率和评估召回率,评估准确率大于等于第一预设准确率阈值,且评估召回率大于等于第一预设召回率阈值时确定待评估模型满足预设使用条件,也就是可以上线使用该模型。[0057] 需要说明的是,评估准确率小于第一预设准确率阈值或者评估召回率小于第一预设召回率阈值时都不符合预设使用条件,需要对模型参数进行调整,重新训练再次进行评估直到满足预设使用条件才可以上线。[0058] 其中,第一预设准确率阈值和第一预设召回率阈值可以根据实际应用需要进行设置,一般具有标准值,作为一种可能实现方式,从样本评估轨迹表如图2a所示中获取所有样本对应的风险信息,从基准样本信息表如图2b所示中获取评估样本对应的基准风险信息,根据所有样本对应的风险信息和基准风险信息计算第一预设准确性阈值和第一预设召回率阈值。[0059] 举例而言,模型为低俗过滤模型,评估样本为1万个视频、低俗视频有一千个,在将评估样本输入到待评估模型中进行评估处理得到筛选出一千五百个视频为低俗视频,其中,真正为低俗视频有五百个,即评估准确率为三分之一,评估召回率为百分之五十,第一预设准确率阈值为百分之九十和第一预设召回率阈值百分之九十,由此,可以看出该低俗过滤模型不符合预设使用条件。[0060] 综上,本申请实施例的模型评估方法,通过获取模型评估请求信息,对模型请求信息进行解析得到模型标识和第一模型版本号,并从预设模型数据库中获取与模型标识和第一模型版本号对应的待评估模型,接着从预设样本数据库中获取与待评估模型对应的评估样本,将评估样本输入到待评估模型中进行评估处理得到评估准确率和评估召回率,若评估准确率大于等于第一预设准确率阈值,且评估召回率大于等于第一预设召回率阈值,则确定待评估模型满足预设使用条件。有效解决了现有技术中模型的评估结果得不到业务方的认可,导致模型使用率下降的问题,通过从预设样本数据库中获取评估样本来自动对模型评估,保证评估结果的客观准确,提高模型的使用率。[0061] 基于上述实施例的描述,还可以理解的是,模型训练由模型开发人员来执行,模型开发人员在线下收集和管理训练样本,并基于线下样本搭建线下的模型训练环境来优化模型,模型训练效率比较低,因此,本申请通过从预设样本数据库中获取训练样本来自动对模型训练,提高模型的训练效率,具体如图3所示:[0062] 步骤201,获取模型训练请求,并获取待训练模型。[0063] 具体地,在生成模型后,在于开发方而言,需要进行自我评估的一个过程即对模型进行训练,在于开发方这边是否已经符合上线条件,首先获取模型训练请求后,根据模型训练请求的解析获取对应的待训练模型。[0064] 步骤202,从预设样本数据库中获取训练样本,将训练样本输入到待训练模型中进行训练处理,得到训练准确率和训练召回率。[0065] 步骤203,若训练准确率大于等于第二预设准确率阈值,且训练召回率大于等于第二预设召回率阈值,则确定待训练模型满足预设训练条件。[0066] 步骤204,将待训练模型存储在预设模型数据库中。[0067] 具体,在确定待训练模型后,从预设样本数据库中获取与待训练模型对应的训练样本,可以理解的是,预设样本数据库中存储着各个待训练模型对应的训练样本,也就是说不同的待训练模型对应的训练样本不一样,比如低俗过滤模型对应的穿着视频样本、语音低俗视频样本等,再比如信息安全检测模型对应的链接信息样本、联系信息样本等。[0068] 其中,预设样本数据库中样本的数据主要来源于标注平台和业务方,其中,标注平台的数据是人工根据模型的标签精确标注出来的样本,样本数据完全可信,用于模型训练过程,业务方提供的数据主要是训练样本。[0069] 进一步地,将训练样本输入到待训练模型中进行训练处理得到训练准确率和训练召回率,训练准确率大于等于第一预设准确率阈值,且训练召回率大于等于第一预设召回率阈值时确定待训练模型满足预设训练条件,也就是可以存储在预设模型数据库中供业务方进行评估。[0070] 需要说明的是,训练准确率小于第二预设准确率阈值或者训练召回率小于第二预设召回率阈值时都不符合预设使用条件,需要对模型参数进行调整,重新训练再次进行训练直到满足预设训练条件才可以存储在所述预设模型数据库中。[0071] 其中,第二预设准确率阈值和第二预设召回率阈值可以根据实际应用需要进行设置,具有标准值,比如模型为低俗过滤模型,训练样本为1万个视频、低俗视频有一千个,在将训练样本输入到待训练模型中进行训练处理得到筛选出一千五百个视频为低俗视频,其中,真正为低俗视频有五百个,即训练准确率为三分之一,训练召回率为百分之五十,第二预设准确率阈值为百分之九十和第二预设召回率阈值百分之九十,由此,可以看出该低俗过滤模型不符合预设训练条件。[0072] 其中,可以通过模型管理模块负责对样本集合的整个迭代过程中模型信息的管理,主要包括模型的添加、删除、修改和检索,同时能够导出对某种样本集合的迭代模型轨迹。更具体地,模型管理模块管理的对象是每次需要评估的模型信息,比如图2c所示,包括模型标识、模型版本号、模型需要的样本集合、模型包的路径地址和模型的添加者等信息,每次评估任务发起后会来访问模型的样本集合和模型包等数据完成具体模型的训练和测试,同时模型管理模块可以导出某个样本集合上的模型评估历史数据,查看迭代过程。[0073] 由此,通过从预设样本数据库中获取训练样本来自动对模型训练,提高模型的训练效率和准确率。[0074] 基于上述实施例的描述,还可以理解的是,预设样本数据库是预先生成的,具体过程如图4所示:[0075] 步骤301,获取标注平台发送的标注样本。[0076] 步骤302,获取业务方发送的使用样本。[0077] 步骤303,根据标注样本和使用样本生成评估样本和训练样本。[0078] 步骤304,将评估样本和训练样本存储在预设样本数据库。[0079] 具体地,预设样本数据库中的样本的数据主要来源于标注平台和业务方,其中,标注平台的数据是人工根据模型的标签精确标注出来的样本,样本数据完全可信,主要用于模型训练过程,业务方提供的数据主要是评估样本,模型在发布前只有在业务方提供的样本的准确率和召回率达到一定要求时才能上线。比如图2d所示的样本集合表,包括样本集合标识、风险标签等也就是说可以以样本集合表的形式存储在预设样本数据库中。[0080] 可以理解的是,预设样本数据库中所有的样本的操作(添加、删除、修改、检索和数据导出等)都可以通过样本管理模块提供相关接口操作,保证样本数据的统一管理。更具体地,通过http服务接口的方式提供给调用方,其中,样本删除会有一个逻辑删除到物理删除的过程,避免样本的误删,样本数据的主要来源是通过标注平台review确认过后的数据,对每个样本的增删改查操作都会记录下操作用户和操作时间等信息。[0081] 由此,通过预设样本数据库就可以很方便的收集各种样本数据,服务于模型的训练和评估,提高处理效率。[0082] 基于上述实施例,还可以理解的是,针对同一模型在迭代后,不同版本之间的评估结果可能不同,可以根据评估结果来确定迭代是否满足预设优化条件,具体如图5所示:[0083] 步骤401,获取与待评估模型对应的第二模型版本号。[0084] 步骤402,从预设评估结果数据库中获取与模型标识和第二模型版本号对应的目标准确率和目标召回率。[0085] 步骤403,根据评估准确率、评估召回率、目标准确率和目标召回率确定待评估模型在第一模型版本号和第二模型版本号之间是否满足预设优化条件。[0086] 具体地,根据需要可以获取待评估模型对应的任一模型版本号的评估结果来进行比较,比如第二模型版本号,并从预设评估结果数据库中获取与模型标识和第二模型版本号对应的目标准确率和目标召回率,根据评估准确率和目标准确率的差值是否大于等于预设阈值,以及根据评估召回率和目标召回率的差值是否大于等于预设阈值等方式确定是否满足预设优化条件,也就是两个版本之间是否达到预期的优化效果,即准确率和召回率大幅度提高。[0087] 其中,在每次进行模型评估后,都可以按照模型标识和模型版本号与对应的准确率和召回率按照预设的方式(比如列表等)进行存储生成预设评估结果数据库。[0088] 由此,能够快速了解模型在不同版本之间是否得到优化,提升模型评估效率。[0089] 为了本领域人员更加清楚上述过程,下面结合图6所示基于样本库的模型自动评估系统来进行描述,该系统主要分为样本管理模块、模型管理模块、评估管理模块、模型计算模块和结果计算模块五个部分,五个模块在功能逻辑上相互独立。[0090] 如图6所示,(1)样本管理模块:预设样本数据库中所有的样本的操作(添加、删除、修改、检索和数据导出等)都可以通过样本管理模块提供相关接口操作,保证样本数据的统一管理。更具体地,通过http服务接口的方式提供给调用方,其中,样本删除会有一个逻辑删除到物理删除的过程,避免样本的误删,样本数据的主要来源是通过标注平台review确认过后的数据,对每个样本的增删改查操作都会记录下操作用户和操作时间等信息。[0091] (2)模型管理模块:负责对样本集合的整个迭代过程中模型信息的管理,主要包括模型的添加、删除、修改和检索,同时能够导出对某种样本集合的迭代模型轨迹。更具体地,模型管理模块管理的对象是每次需要评估的模型信息,包括模型标识、模型版本号、模型需要的样本集合、模型包的路径地址和模型的添加者等信息,每次评估任务发起后会来访问模型的样本集合和模型包等数据完成具体模型的训练和测试,同时模型管理模块可以导出某个样本集合上的模型评估历史数据,查看迭代过程。[0092] (3)评估管理模块;负责模型评估任务的增删改查,同时在评估前负责样本集合的训练样本和评估样本的拆分操作,在发起评估后,可通过该模块提供的接口导出本次评估的结果,比如图2d的评估任务表,包括模型标识、样本集合标识等信息。[0093] (4)模型计算模块;这个模块的核心功能是根据提供的样本数据和模型数据,来将模型运行在样本集合上,并将模型的结果写回样本库。[0094] 需要说明的是,模型具体运行过程中,本申请可以通过异步计算或同步计算得到模型结果,并将模型结果写入数据库,针对异步计算场景,如视频策略评估,按照当前模式,需通过视频理解模块计算视频标签,之后通过流式计算框架打通数据流,得到模型结果,针对其他计算场景,比如图片策略评估,可考虑采取同步服务模式直接计算结果,模型计算结果按照每个样本的维度进行存储,针对不同的业务场景,比如策略模型评估,产品线策略效果评估,外部数据评估需求,选取不同的计算模式,异步计算模式中,搭建模型运行调度服务,加载模型文件和数据文件跑任务等评估模式。[0095] (5)结果计算模块;最基础的功能负责对模型评估后对本次任务的朱雀率和召回率计算,同时还需要支持将模型的评估结果与指定历史评估任务结果的对比,其实就是图1描述的一次任务的评估过程或者是图4描述的针对一模型不同版本号之间评估结果的对比。[0096] 比如在输入任务标识后,直接根据从样本评估轨迹表中获取所有样本对应的风险信息,从基准样本信息表中获取评估样本对应的基准风险信息,根据所有样本对应的风险信息和基准风险信息计算准确率和召回率;还可以是在输入任务标识后,在输入对比任务标识,通过上述方式计算不同任务标识的准确率和召回率,并进行对比,生成对应的对比结果并存储。[0097] 本申请通过对模型的自动评估的机制,来有效解藕了模型开发与模型评估的过程,同时通过预设样本数据库来高效管理可信的模型训练样本和评估样本,使得模型开发人员只需将精力放在模型的开发上,对于模型的训练样本和评估样本可以通过预设样本数据库快速导出,当模型需要评估时只需要提供模型的基础信息即可,剩下的评估过程和评估结果分析反馈由系统自动完成,在这种设计下能快提高模型的迭代优化效率,有效提高模型使用效率。[0098] 为了实现上述实施例,本申请还提出了一种模型训练装置。图7是根据本申请一个实施例的模型训练装置的结构示意图,如图7所示,该模型训练装置包括:获取解析模块701、第一获取模块702、第二获取模块703、评估模块704和第一确定模块705,其中,[0099] 获取解析模块701,用于获取模型评估请求信息,对所述模型请求信息进行解析得到模型标识和第一模型版本号。[0100] 第一获取模块702,用于从预设模型数据库中获取与所述模型标识和第一模型版本号对应的待评估模型。[0101] 第二获取模块703,用于从预设样本数据库中获取与所述待评估模型对应的评估样本。[0102] 评估模块704,用于将所述评估样本输入到所述待评估模型中进行评估处理得到评估准确率和评估召回率。[0103] 第一确定模块705,用于若所述评估准确率大于等于第一预设准确率阈值,且所述评估召回率大于等于第一预设召回率阈值,则确定所述待评估模型满足预设使用条件。[0104] 在本申请的一个实施例中,如图8所示,在如图7所示的基础上,还包括:第三获取模块706、训练模块707、第二确定模块708和第一存储模块709。[0105] 其中,第三获取模块706,用于获取模型训练请求,并获取待训练模型。[0106] 训练模块707,用于从所述预设样本数据库中获取训练样本,将所述训练样本输入到所述待训练模型中进行训练处理,得到训练准确率和训练召回率。[0107] 第二确定模块708,用于若所述训练准确率大于等于第二预设准确率阈值,且所述训练召回率大于等于第二预设召回率阈值,则确定所述待训练模型满足预设训练条件。[0108] 第一存储模块709,用于将所述待训练模型存储在所述预设模型数据库中。[0109] 在本申请的一个实施例中,在本申请的一个实施例中,如图9所示,在如图7所示的基础上,还包括:第四获取模块710、第五获取模块711、生成模块712和第二存储模块713。[0110] 其中,第四获取模块710,用于获取标注平台发送的标注样本。[0111] 第五获取模块711,用于获取业务方发送的使用样本。[0112] 生成模块712,用于根据所述标注样本和所述使用样本生成所述评估样本和所述训练样本。[0113] 第二存储模块713,用于将所述评估样本和所述训练样本存储在所述预设样本数据库。[0114] 在本申请的一个实施例中,如图10所示,在如图7所示的基础上,还包括:第六获取模块714、第七获取模块715和第三确定模块716。[0115] 第六获取模块714,用于获取与所述待评估模型对应的第二模型版本号。[0116] 第七获取模块715,用于从预设评估结果数据库中获取与所述模型标识和所述第二模型版本号对应的目标准确率和目标召回率。[0117] 第三确定模块716,用于根据所述评估准确率、所述评估召回率、所述目标准确率和所述目标召回率确定所述待评估模型在所述第一模型版本号和所述第二模型版本号之间是否满足预设优化条件。[0118] 在本申请的一个实施例中,如图11所示,在如图7所示的基础上,还包括:第八获取模块717、第九获取模块718和计算模块719。[0119] 其中,第八获取模块717,用于从样本评估轨迹表中获取所有样本对应的风险信息。[0120] 第九获取模块718,用于从基准样本信息表中获取所述评估样本对应的基准风险信息。[0121] 计算模块719,用于根据所述所有样本对应的风险信息和所述基准风险信息计算所述第一预设准确性阈值和所述第一预设召回率阈值。[0122] 需要说明的是,前述对模型训练方法实施例的解释说明也适用于该实施例的模型训练装置,此处不再赘述。[0123] 综上,本申请实施例的模型训练装置,获取模型评估请求信息,对模型请求信息进行解析得到模型标识和第一模型版本号;从预设模型数据库中获取与模型标识和第一模型版本号对应的待评估模型;从预设样本数据库中获取与待评估模型对应的评估样本;将评估样本输入到待评估模型中进行评估处理得到评估准确率和评估召回率;若评估准确率大于等于第一预设准确率阈值,且评估召回率大于等于第一预设召回率阈值,则确定待评估模型满足预设使用条件。有效解决了现有技术中模型的评估结果得不到业务方的认可,导致模型使用率下降的问题,通过从预设样本数据库中获取评估样本来自动对模型评估,保证评估结果的客观准确,提高模型的使用率。[0124] 为了实现上述实施例,本申请还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现如前述实施例所描述的模型训练方法。[0125] 为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例所描述的模型训练方法。[0126] 为了实现上述实施例,本申请还提出一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如第一方面实施例所述的模型评估方法。[0127] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。[0128] 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。[0129] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。[0130] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。[0131] 应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。[0132] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。[0133] 此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。[0134] 上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

专利地区:北京

专利申请日期:2019-07-23

专利公开日期:2024-07-26

专利公告号:CN112288092B


以上信息来自国家知识产权局,如信息有误请联系我方更正!
电话咨询
读内容
搜本页
回顶部