专利名称:模型训练方法、概率确定方法、装置、设备、介质及产品
专利类型:发明专利
专利申请号:CN202210518775.2
专利申请(专利权)人:建信金融科技有限责任公司
权利人地址:上海市浦东新区中国(上海)自由贸易试验区银城路99号12层、15层
专利发明(设计)人:刘钱,张建
专利摘要:本发明实施例涉及智慧金融技术领域,尤其涉及模型训练方法、概率确定方法、装置、设备、介质及产品。该方法包括:获取目标样本集,其中,所述目标样本集为基于样本评价指标对样本企业的历史源数据进行筛选后得到的样本集;将所述目标样本集中的第一数据样本输入预先建立的随机森林模型,得到企业异常预测概率;根据基于所述企业异常预测概率和所述第一数据样本对应的标签信息形成的目标函数,训练所述随机森林模型的参数,通过本发明的技术方案,能够基于样本评价指标过滤贡献率较低的历史源数据,进而在有效避免过拟合的同时,贡献较高的价值,提升模型的训练效率和精度。
主权利要求:
1.一种模型训练方法,其特征在于,包括:
获取目标样本集,其中,所述目标样本集为基于样本评价指标对样本企业的历史源数据进行筛选后得到的样本集;
将所述目标样本集中的第一数据样本输入预先建立的随机森林模型,得到企业异常预测概率;
根据基于所述企业异常预测概率和所述第一数据样本对应的标签信息形成的目标函数,训练所述随机森林模型的参数;
获取目标样本集,包括:
获取历史源数据,其中,所述历史源数据包括:至少一个第一数据样本和所述至少一个第一数据样本对应的标签信息;
对所述历史源数据进行随机欠采样,得到目标样本矩阵,其中,所述目标样本矩阵包括:至少一列第一数据样本;
获取所述目标样本矩阵中每列第一数据样本的相关性值、每列第一数据样本的特征重要性值以及每列第一数据样本的方差分析值;
根据所述每列第一数据样本的相关性值、所述每列第一数据样本的特征重要性值以及所述每列第一数据样本的方差分析值确定所述每列第一数据样本对应的样本评价指标值;
根据所述每列第一数据样本对应的样本评价指标值对所述目标样本矩阵进行筛选,得到目标样本集。
2.根据权利要求1所述的方法,其特征在于,获取所述目标样本矩阵中每列第一数据样本的相关性值,包括:获取所述目标样本矩阵中每列第一数据样本的秩次、标签信息的秩次以及历史源数据中的第一数据样本总数;
根据所述每列第一数据样本的秩次、所述标签信息的秩次以及所述目标样本矩阵中的第一数据样本总数确定每列第一数据样本的相关性值。
3.根据权利要求1所述的方法,其特征在于,获取所述目标样本矩阵中每列第一数据样本的方差分析值,包括:获取所述目标样本矩阵中每列第一数据样本的组间均方和每列第一数据样本的组内均方;
根据所述每列第一数据样本的组间均方和所述每列第一数据样本的组内均方的比值确定每列第一数据样本的方差分析值。
4.根据权利要求1所述的方法,其特征在于,根据所述每列第一数据样本对应的样本评价指标值对所述目标样本矩阵进行筛选,得到目标样本集,包括:将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到目标样本集。
5.根据权利要求4所述的方法,其特征在于,将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到目标样本集,包括:将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到第一样本矩阵;
基于奇异值分解对所述第一样本矩阵进行PCA降维,得到目标样本集。
6.根据权利要求5所述的方法,其特征在于,基于奇异值分解对所述第一样本矩阵进行PCA降维,得到目标样本集,包括:对所述第一样本矩阵进行去中心化,得到第二样本矩阵;
基于奇异值分解对所述第二样本矩阵进行PCA降维,得到目标样本集。
7.根据权利要求6所述的方法,其特征在于,对所述第一样本矩阵进行去中心化,得到第二样本矩阵,包括:对所述第一样本矩阵中的每个第一数据样本替换为第一数据样本与第一数据样本所属列的均值的比值,得到第二样本矩阵。
8.根据权利要求7所述的方法,其特征在于,基于奇异值分解对所述第二样本矩阵进行PCA降维,得到目标样本集,包括:获取所述第二样本矩阵中每列第一数据样本的容忍度;
将第二样本矩阵中容忍度大于列容忍度均值的至少一列第一数据样本删除,得到第三样本矩阵;
获取第四样本矩阵,其中,所述第四样本矩阵为所述第三样本矩阵对应的特征向量矩阵;
将所述第三样本矩阵和所述第四样本矩阵的转置的乘积确定为第五样本矩阵;
获取所述第五样本矩阵中每列第一数据样本对应的方差贡献率;
按照方差贡献率从大到小的顺序对所述第五样本矩阵进行重新排序,得到第六样本矩阵;
若所述第六样本矩阵中的第N列第一数据样本对应的累积方差贡献率大于或者等于设定阈值,且所述第六样本矩阵中的第N‑1列第一数据样本对应的累积方差贡献率小于设定阈值,则根据所述第六样本矩阵中的前N列第一数据样本生成目标样本集,其中,N为大于或者等于1的正整数。
9.根据权利要求8所述的方法,其特征在于,获取第四样本矩阵,包括:获取第三样本矩阵的协方差矩阵;
通过奇异值分解获取所述第三样本矩阵的协方差矩阵中每个第一数据样本的特征值;
将所述第三样本矩阵的协方差矩阵中每个第一数据样本的特征值和所述第三样本矩阵中每个第一数据样本相乘后得到的矩阵确定为第四样本矩阵。
10.一种企业异常概率确定方法,其特征在于,包括:获取待识别企业对应的源数据;
将所述待识别企业对应的源数据输入目标模型,得到所述待识别企业对应的企业异常概率;其中,所述目标模型是按照权利要求1‑9中任一项所述的模型训练方法训练得到。
11.一种模型训练装置,其特征在于,包括:
样本集获取模块,用于获取目标样本集,其中,所述目标样本集为基于样本评价指标对样本企业的历史源数据进行筛选后得到的样本集;
企业异常预测概率确定模块,用于将所述目标样本集中的第一数据样本输入预先建立的随机森林模型,得到企业异常预测概率;
训练模块,用于根据基于所述企业异常预测概率和所述第一数据样本对应的标签信息形成的目标函数,训练所述随机森林模型的参数;
所述样本集获取模块具体用于:
获取历史源数据,其中,所述历史源数据包括:至少一个第一数据样本和所述至少一个第一数据样本对应的标签信息;
对所述历史源数据进行随机欠采样,得到目标样本矩阵,其中,所述目标样本矩阵包括:至少一列第一数据样本;
获取所述目标样本矩阵中每列第一数据样本的相关性值、每列第一数据样本的特征重要性值以及每列第一数据样本的方差分析值;
根据所述每列第一数据样本的相关性值、所述每列第一数据样本的特征重要性值以及所述每列第一数据样本的方差分析值确定所述每列第一数据样本对应的样本评价指标值;
根据所述每列第一数据样本对应的样本评价指标值对所述目标样本矩阵进行筛选,得到目标样本集。
12.一种企业异常概率确定装置,其特征在于,包括:源数据获取模块,用于获取待识别企业对应的源数据;
企业异常概率确定模块,用于将所述待识别企业对应的源数据输入目标模型,得到所述待识别企业对应的企业异常概率;其中,所述目标模型是按照权利要求1‑9中任一项所述的模型训练方法训练得到的。
13.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑9中任一项所述的模型训练方法,或者,以使所述至少一个处理器能够执行权利要求10中所述的企业异常概率确定方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1‑9中任一项所述的模型训练方法,或者,所述计算机指令用于使处理器执行时实现权利要求10中所述的企业异常概率确定方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1‑9中任一项所述的模型训练方法,或者,所述计算机程序在被处理器执行时实现根据权利要求10中所述的企业异常概率确定方法。 说明书 : 模型训练方法、概率确定方法、装置、设备、介质及产品技术领域[0001] 本发明实施例涉及智慧金融技术领域,尤其涉及模型训练方法、概率确定方法、装置、设备、介质及产品。背景技术[0002] 实际业务场景中包含多种企业异常场景,对于多种企业异常场景,现有技术中大多通过神经网络模型确定企业异常概率,但是由于异常企业占比为极少数,会存在样本不均衡的现象,通过不均衡的样本对模型进行训练降低了模型的精度。并且由于某些业务涉及的源数据较为繁多,在对源数据进行处理的时候,容易出现过拟合的情况,降低了模型训练的效率。发明内容[0003] 本发明实施例提供一种模型训练方法、概率确定方法、装置、设备、介质及产品,以实现能够基于样本评价指标过滤贡献率较低的历史源数据,进而能够在有效避免过拟合的同时,使得过滤后的源数据贡献较高的价值,提升模型的训练效率和精度。[0004] 根据本发明的一方面,提供了一种模型训练方法,包括:[0005] 获取目标样本集,其中,所述目标样本集为基于样本评价指标对样本企业的历史源数据进行筛选后得到的样本集;[0006] 将所述目标样本集中的第一数据样本输入预先建立的随机森林模型,得到企业异常预测概率;[0007] 根据基于所述企业异常预测概率和所述第一数据样本对应的标签信息形成的目标函数,训练所述随机森林模型的参数。[0008] 进一步的,获取目标样本集,包括:[0009] 获取历史源数据,其中,所述历史源数据包括:至少一个第一数据样本和所述至少一个第一数据样本对应的标签信息;[0010] 对所述历史源数据进行随机欠采样,得到目标样本矩阵,其中,所述目标样本矩阵包括:至少一列第一数据样本;[0011] 获取所述目标样本矩阵中每列第一数据样本的相关性值、每列第一数据样本的特征重要性值以及每列第一数据样本的方差分析值;[0012] 根据所述每列第一数据样本的相关性值、所述每列第一数据样本的特征重要性值以及所述每列第一数据样本的方差分析值确定所述每列第一数据样本对应的样本评价指标值;[0013] 根据所述每列第一数据样本对应的样本评价指标值对所述目标样本矩阵进行筛选,得到目标样本集。[0014] 进一步的,获取所述目标样本矩阵中每列第一数据样本的相关性值,包括:[0015] 获取所述目标样本矩阵中每列第一数据样本的秩次、标签信息的秩次以及历史源数据中的第一数据样本总数;[0016] 根据所述每列第一数据样本的秩次、所述标签信息的秩次以及所述目标样本矩阵中的第一数据样本总数确定每列第一数据样本的相关性值。[0017] 进一步的,获取所述目标样本矩阵中每列第一数据样本的方差分析值,包括:[0018] 获取所述目标样本矩阵中每列第一数据样本的组间均方和每列第一数据样本的组内均方;[0019] 根据所述每列第一数据样本的组间均方和所述每列第一数据样本的组内均方的比值确定每列第一数据样本的方差分析值。[0020] 进一步的,根据所述每列第一数据样本对应的样本评价指标值对所述目标样本矩阵进行筛选,得到目标样本集,包括:[0021] 将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到目标样本集。[0022] 进一步的,将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到目标样本集,包括:[0023] 将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到第一样本矩阵;[0024] 基于奇异值分解对所述第一样本矩阵进行PCA降维,得到目标样本集。[0025] 进一步的,基于奇异值分解对所述第一样本矩阵进行PCA降维,得到目标样本集,包括:[0026] 对所述第一样本矩阵进行去中心化,得到第二样本矩阵;[0027] 基于奇异值分解对所述第二样本矩阵进行PCA降维,得到目标样本集。[0028] 进一步的,对所述第一样本矩阵进行去中心化,得到第二样本矩阵,包括:[0029] 对所述第一样本矩阵中的每个第一数据样本替换为第一数据样本与第一数据样本所属列的均值的比值,得到第二样本矩阵。[0030] 进一步的,基于奇异值分解对所述第二样本矩阵进行PCA降维,得到目标样本集,包括:[0031] 获取所述第二样本矩阵中每列第一数据样本的容忍度;[0032] 将第二样本矩阵中容忍度大于列容忍度均值的至少一列第一数据样本删除,得到第三样本矩阵;[0033] 获取第四样本矩阵,其中,所述第四样本矩阵为所述第三样本矩阵对应的特征向量矩阵;[0034] 将所述第三样本矩阵和所述第四样本矩阵的转置的乘积确定为第五样本矩阵;[0035] 获取所述第五样本矩阵中每列第一数据样本对应的方差贡献率;[0036] 按照方差贡献率从大到小的顺序对所述第五样本矩阵进行重新排序,得到第六样本矩阵;[0037] 若所述第六样本矩阵中的第N列第一数据样本对应的累积方差贡献率大于或者等于设定阈值,且所述第六样本矩阵中的第N‑1列第一数据样本对应的累积方差贡献率小于设定阈值,则根据所述第六样本矩阵中的前N列第一数据样本生成目标样本集,其中,N为大于或者等于1的正整数。[0038] 进一步的,获取第四样本矩阵,包括:[0039] 获取第三样本矩阵的协方差矩阵;[0040] 通过奇异值分解获取所述第三样本矩阵的协方差矩阵中每个第一数据样本的特征值;[0041] 将所述第三样本矩阵的协方差矩阵中每个第一数据样本的特征值和所述第三样本矩阵中每个第一数据样本相乘后得到的矩阵确定为第四样本矩阵。[0042] 根据本发明的另一方面,提供了一种企业异常概率确定方法,该企业异常概率确定方法包括:[0043] 获取待识别企业对应的源数据;[0044] 将所述待识别企业对应的源数据输入目标模型,得到所述待识别企业对应的企业异常概率;[0045] 根据本发明的另一方面,提供了一种模型训练装置,该模型训练装置包括:样本集获取模块,用于获取目标样本集,其中,所述目标样本集为基于样本评价指标对样本企业的历史源数据进行筛选后得到的样本集;[0046] 企业异常预测概率确定模块,用于将所述目标样本集中的第一数据样本输入预先建立的随机森林模型,得到企业异常预测概率;[0047] 训练模块,用于根据基于所述企业异常预测概率和所述第一数据样本对应的标签信息形成的目标函数,训练所述随机森林模型的参数。[0048] 进一步的,所述样本集获取模块具体用于:[0049] 获取历史源数据,其中,所述历史源数据包括:至少一个第一数据样本和所述至少一个第一数据样本对应的标签信息;[0050] 对所述历史源数据进行随机欠采样,得到目标样本矩阵,其中,所述目标样本矩阵包括:至少一列第一数据样本;[0051] 获取所述目标样本矩阵中每列第一数据样本的相关性值、每列第一数据样本的特征重要性值以及每列第一数据样本的方差分析值;[0052] 根据所述每列第一数据样本的相关性值、所述每列第一数据样本的特征重要性值以及所述每列第一数据样本的方差分析值确定所述每列第一数据样本对应的样本评价指标值;[0053] 根据所述每列第一数据样本对应的样本评价指标值对所述目标样本矩阵进行筛选,得到目标样本集。[0054] 进一步的,所述样本集获取模块具体用于:[0055] 获取所述目标样本矩阵中每列第一数据样本的秩次、标签信息的秩次以及历史源数据中的第一数据样本总数;[0056] 根据所述每列第一数据样本的秩次、所述标签信息的秩次以及所述目标样本矩阵中的第一数据样本总数确定每列第一数据样本的相关性值。[0057] 进一步的,所述样本集获取模块具体用于:[0058] 获取所述目标样本矩阵中每列第一数据样本的组间均方和每列第一数据样本的组内均方;[0059] 根据所述每列第一数据样本的组间均方和所述每列第一数据样本的组内均方的比值确定每列第一数据样本的方差分析值。[0060] 进一步的,所述样本集获取模块具体用于:[0061] 将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到目标样本集。[0062] 进一步的,所述样本集获取模块具体用于:[0063] 将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到第一样本矩阵;[0064] 基于奇异值分解对所述第一样本矩阵进行PCA降维,得到目标样本集。[0065] 进一步的,所述样本集获取模块具体用于:[0066] 对所述第一样本矩阵进行去中心化,得到第二样本矩阵;[0067] 基于奇异值分解对所述第二样本矩阵进行PCA降维,得到目标样本集。[0068] 进一步的,所述样本集获取模块具体用于:[0069] 对所述第一样本矩阵中的每个第一数据样本替换为第一数据样本与第一数据样本所属列的均值的比值,得到第二样本矩阵。[0070] 进一步的,所述样本集获取模块具体用于:[0071] 获取所述第二样本矩阵中每列第一数据样本的容忍度;[0072] 将第二样本矩阵中容忍度大于列容忍度均值的至少一列第一数据样本删除,得到第三样本矩阵;[0073] 获取第四样本矩阵,其中,所述第四样本矩阵为所述第三样本矩阵对应的特征向量矩阵;[0074] 将所述第三样本矩阵和所述第四样本矩阵的转置的乘积确定为第五样本矩阵;[0075] 获取所述第五样本矩阵中每列第一数据样本对应的方差贡献率;[0076] 按照方差贡献率从大到小的顺序对所述第五样本矩阵进行重新排序,得到第六样本矩阵;[0077] 若所述第六样本矩阵中的第N列第一数据样本对应的累积方差贡献率大于或者等于设定阈值,且所述第六样本矩阵中的第N‑1列第一数据样本对应的累积方差贡献率小于设定阈值,则根据所述第六样本矩阵中的前N列第一数据样本生成目标样本集,其中,N为大于或者等于1的正整数。[0078] 进一步的,所述样本集获取模块具体用于:[0079] 获取第三样本矩阵的协方差矩阵;[0080] 通过奇异值分解获取所述第三样本矩阵的协方差矩阵中每个第一数据样本的特征值;[0081] 将所述第三样本矩阵的协方差矩阵中每个第一数据样本的特征值和所述第三样本矩阵中每个第一数据样本相乘后得到的矩阵确定为第四样本矩阵。[0082] 根据本发明的另一方面,提供了一种企业异常概率确定装置,该企业异常概率确定装置包括:[0083] 源数据获取模块,用于获取待识别企业对应的源数据;[0084] 企业异常概率确定模块,用于将所述待识别企业对应的源数据输入目标模型,得到所述待识别企业对应的企业异常概率;其中,所述目标模型是按照本发明任一实施例所述的模型训练方法训练得到的。[0085] 根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:[0086] 至少一个处理器;以及[0087] 与所述至少一个处理器通信连接的存储器;其中,[0088] 所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的模型训练方法,或者,以使所述至少一个处理器能够执行本发明任一实施例所述的企业异常概率确定法。[0089] 根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的模型训练方法,或者,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的企业异常概率确定法。[0090] 根据本发明的另一方面,提供了一种计算机程序产品,所述计算机程序在被处理器执行时实现如本发明实施例中任一所述的模型训练方法,或者,所述计算机程序在被处理器执行时实现如本发明实施例中任一所述的企业异常概率确定法。[0091] 本发明实施例基于样本评价指标对样本企业的历史源数据进行筛选后得到目标样本集,在将目标样本集中的第一数据样本输入预先建立的随机森林模型,得到企业异常预测概率之后,根据基于所述企业异常预测概率和所述第一数据样本对应的标签信息形成的目标函数,训练所述随机森林模型的参数,能够基于样本评价指标过滤贡献率较低的历史源数据,进而在有效避免过拟合的同时,贡献较高的价值,提升模型的训练效率和精度。[0092] 应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。附图说明[0093] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。[0094] 图1是本发明实施例中的一种模型训练方法的流程图;[0095] 图2是本发明实施例中的第五样本矩阵中的每列第一数据样本对应的累积方差贡献率曲线图;[0096] 图3是本发明实施例中的模型训练过程中的AUC迭代曲线图;[0097] 图4是本发明实施例中的ROC曲线图;[0098] 图5是本发明实施例中的一种企业异常概率确定方法的流程图;[0099] 图6是本发明实施例中的一种模型训练装置的结构示意图;[0100] 图7是本发明实施例中的一种企业异常概率确定装置的结构示意图;[0101] 图8是本发明实施例中的一种电子设备的结构示意图。具体实施方式[0102] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。[0103] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。[0104] 本申请所涉及技术方案中对数据的获取、存储和/或处理,符合国家法律法规的相关规定。[0105] 实施例一[0106] 图1为本发明实施例提供的一种模型训练方法的流程图,本实施例可适用于模型训练的情况,该方法可以由本发明实施例中的模型训练装置来执行,该模型训练装置可采用软件和/或硬件的方式实现,如图1所示,该方法具体包括如下步骤:[0107] S110,获取目标样本集,其中,所述目标样本集为基于样本评价指标对样本企业的历史源数据进行筛选后得到的样本集。[0108] 其中,所述历史源数据为所述样本企业授权公开的企业数据,例如可以包括:样本企业的基本信息。[0109] 其中,所述目标样本集的获取方式可以为:获取历史源数据,其中,所述历史源数据包括:至少一个第一数据样本和至少一个第一数据样本对应的标签信息(需要说明的是,实际业务中涉及的历史源数据的数据量非常多,因此,一般情况下,所述历史源数据中包括多个第一数据样本);对所述历史源数据进行随机欠采样,得到目标样本矩阵,其中,所述目标样本矩阵包括:至少一列第一数据样本;获取所述目标样本矩阵中每列第一数据样本的相关性值、每列第一数据样本的特征重要性值以及每列第一数据样本的方差分析值;根据所述每列第一数据样本的相关性值、所述每列第一数据样本的特征重要性值以及所述每列第一数据样本的方差分析值确定所述每列第一数据样本对应的样本评价指标值;根据所述每列第一数据样本对应的样本评价指标值对所述目标样本矩阵进行筛选,得到目标样本集。[0110] 所述目标样本集的获取方式还可以为:获取历史源数据,其中,所述历史源数据包括:至少一个第一数据样本和至少一个第一数据样本对应的标签信息;对所述历史源数据进行随机欠采样,得到目标样本矩阵,其中,所述目标样本矩阵包括:至少一列第一数据样本;获取所述目标样本矩阵中每列第一数据样本的秩次、标签信息的秩次以及历史源数据中的第一数据样本总数;根据所述每列第一数据样本的秩次、所述标签信息的秩次以及所述目标样本矩阵中的第一数据样本总数确定每列第一数据样本的相关性值;获取所述目标样本矩阵中每列第一数据样本的组间均方和每列第一数据样本的组内均方;根据所述每列第一数据样本的组间均方和所述每列第一数据样本的组内均方的比值确定每列第一数据样本的方差分析值;获取所述目标样本矩阵中每列第一数据样本的特征重要性值;根据所述每列第一数据样本的相关性值、所述每列第一数据样本的特征重要性值以及所述每列第一数据样本的方差分析值确定所述每列第一数据样本对应的样本评价指标值;根据所述每列第一数据样本对应的样本评价指标值对所述目标样本矩阵进行筛选,得到目标样本集。[0111] 所述目标样本集的获取方式还可以为:获取历史源数据,其中,所述历史源数据包括:至少一个第一数据样本和至少一个第一数据样本对应的标签信息;对所述历史源数据进行随机欠采样,得到目标样本矩阵,其中,所述目标样本矩阵包括:至少一列第一数据样本;获取所述目标样本矩阵中每列第一数据样本的相关性值、每列第一数据样本的特征重要性值以及每列第一数据样本的方差分析值;根据所述每列第一数据样本的相关性值、所述每列第一数据样本的特征重要性值以及所述每列第一数据样本的方差分析值确定所述每列第一数据样本对应的样本评价指标值;将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到目标样本集。[0112] 所述目标样本集的获取方式还可以为:获取历史源数据,其中,所述历史源数据包括:至少一个第一数据样本和至少一个第一数据样本对应的标签信息;对所述历史源数据进行随机欠采样,得到目标样本矩阵,其中,所述目标样本矩阵包括:至少一列第一数据样本;获取所述目标样本矩阵中每列第一数据样本的相关性值、每列第一数据样本的特征重要性值以及每列第一数据样本的方差分析值;根据所述每列第一数据样本的相关性值、所述每列第一数据样本的特征重要性值以及所述每列第一数据样本的方差分析值确定所述每列第一数据样本对应的样本评价指标值;将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到第一样本矩阵;基于奇异值分解对所述第一样本矩阵进行PCA降维,得到目标样本集。[0113] 所述目标样本集的获取方式还可以为:获取历史源数据,其中,所述历史源数据包括:至少一个第一数据样本和至少一个第一数据样本对应的标签信息;对所述历史源数据进行随机欠采样,得到目标样本矩阵,其中,所述目标样本矩阵包括:至少一列第一数据样本;获取所述目标样本矩阵中每列第一数据样本的相关性值、每列第一数据样本的特征重要性值以及每列第一数据样本的方差分析值;根据所述每列第一数据样本的相关性值、所述每列第一数据样本的特征重要性值以及所述每列第一数据样本的方差分析值确定所述每列第一数据样本对应的样本评价指标值;将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到第一样本矩阵;获取所述第二样本矩阵中每列第一数据样本的容忍度;将第二样本矩阵中容忍度大于列容忍度均值的至少一列第一数据样本删除,得到第三样本矩阵;获取第四样本矩阵,其中,所述第四样本矩阵为所述第三样本矩阵对应的特征向量矩阵;将所述第三样本矩阵和所述第四样本矩阵的转置的乘积确定为第五样本矩阵;获取所述第五样本矩阵中每列第一数据样本对应的方差贡献率;按照方差贡献率从大到小的顺序对所述第五样本矩阵进行重新排序,得到第六样本矩阵;若所述第六样本矩阵中的第N列第一数据样本对应的累积方差贡献率大于或者等于设定阈值,且所述第六样本矩阵中的第N‑1列第一数据样本对应的累积方差贡献率小于设定阈值,则根据所述第六样本矩阵中的前N列第一数据样本生成目标样本集,其中,N为大于或者等于1的正整数。[0114] S120,将所述目标样本集中的第一数据样本输入预先建立的随机森林模型,得到企业异常预测概率。[0115] 其中,所述第一数据样本为所述目标样本集中的任一数据样本。[0116] 其中,所述随机森林包括至少一个决策树。决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。[0117] 具体的,将所述目标样本集中的第一数据样本输入预先建立的随机森林模型,得到企业异常预测概率,例如可以是,将企业R的第一数据样本输入预先建立的随机森林模型,得到企业R对应的企业异常预测概率为P。[0118] S130,根据基于所述企业异常预测概率和所述第一数据样本对应的标签信息形成的目标函数,训练所述随机森林模型的参数。[0119] 其中,所述随机森林模型的参数可以包括:决策树的数量、在每个节点上随机采样的特征数量、叶节点上允许的最小样本数以及允许的最大叶节点数等,本发明实施例对此不进行限制。[0120] 其中,所述标签信息可以为第一数据样本对应的企业为异常企业,所述标签信息还可以为第一数据样本对应的企业为正常企业。[0121] 具体的,在根据基于所述企业异常预测概率和所述第一数据样本对应的标签信息形成的目标函数,训练所述随机森林模型的参数之后,循环执行上述步骤,以对随机森林模型进行迭代训练,得到目标模型。[0122] 可选的,获取目标样本集,包括:[0123] 获取历史源数据,其中,所述历史源数据包括:至少一个第一数据样本和所述至少一个第一数据样本对应的标签信息;[0124] 对所述历史源数据进行随机欠采样,得到目标样本矩阵,其中,所述目标样本矩阵包括:至少一列第一数据样本;[0125] 获取所述目标样本矩阵中每列第一数据样本的相关性值、每列第一数据样本的特征重要性值以及每列第一数据样本的方差分析值;[0126] 根据所述每列第一数据样本的相关性值、所述每列第一数据样本的特征重要性值以及所述每列第一数据样本的方差分析值确定所述每列第一数据样本对应的样本评价指标值;[0127] 根据所述每列第一数据样本对应的样本评价指标值对所述目标样本矩阵进行筛选,得到目标样本集。[0128] 具体的,为了解决样本不均衡的问题,本发明实施例使用重采样中的随机欠采样方法对历史源数据进行重构,即剔除一定比例的多数类样本。[0129] 其中,所述相关性值可以为斯皮尔曼相关性系数,通常也叫斯皮尔曼秩相关系数。“秩”,可以理解成就是一种顺序或者排序,根据目标样本矩阵中每列第一数据样本的排序位置进行求解。基于如下公式计算相关性值:[0130][0131] di=rg(Xi)‑rg(Yi);[0132] 首先对第i列第一数据样本xi和第i列第一数据样本对应的标签信息Yi进行排序,然后记下排序以后的位置,根据排序以后的位置进行求解,得到rg(xi)和rg(Yi),rg(xi)和rg(Yi)就称为秩次,秩次的差值就是上面公式中的di,n就是目标样本矩阵中第一数据样本的个数,m为目标样本矩阵的列数,所述目标样本矩阵可以为:D={x1,x2,…,xm},xi=(xi1,xi2,…,xij),n=j*m,D为目标样本矩阵,i=1,2,…,m。[0133] 其中,每列第一数据样本的特征重要性值的获取方式可以为:预先根据目标样本矩阵中的每列第一数据样本和每列第一数据样本对应的标签信息构建树模型,每列第一数据样本的特征重要性值通过每列第一数据样本在单棵树中的重要度的平均值来衡量。[0134] 其中,每列第一数据样本的方差分析值的获取方式可以为:获取所述目标样本矩阵中每列第一数据样本的组间均方和每列第一数据样本的组内均方;根据所述每列第一数据样本的组间均方和所述每列第一数据样本的组内均方的比值确定每列第一数据样本的方差分析值。[0135] 具体的,根据所述每列第一数据样本的相关性值、所述每列第一数据样本的特征重要性值以及所述每列第一数据样本的方差分析值确定所述每列第一数据样本对应的样本评价指标值的方式可以为:根据所述每列第一数据样本的相关性值确定相关性值向量,根据所述每列第一数据样本的特征重要性值确定特征重要性向量,根据所述每列第一数据样本的方差分析值确定方差分析值向量。对相关性值向量做相对性转换,得到转换后的相关性值向量,对特征重要性向量做相对性转换,得到转换后的特征重要性向量,对方差分析值向量做相对性转换,得到转换后的方差分析值向量。设置特征重要性值的权重、相关性值的权重以及方差分析值的权重,根据特征重要性值的权重、相关性值的权重、方差分析值的权重、转换后的相关性值向量、转换后的特征重要性向量以及转换后的方差分析值向量确定每列第一数据样本对应的样本评价指标值,进而得到样本评价指标向量。[0136] 在一个具体的例子中,根据目标样本矩阵中每列第一数据样本的相关性值确定相关性值向量R, 其中, 为第1列第一数据样本x1的相关性值, 为第2列第一数据样本x2的相关性值, 为第m列第一数据样本xm的相关性值。根据目标样本矩阵中每列第一数据样本的特征重要性值确定特征重要性向量V, 其中, 为第1列第一数据样本x1的特征重要性值, 为第2列第一数据样本x2的特征重要性值, 为第m列第一数据样本xm的特征重要性值。根据目标样本矩阵中每列第一数据样本的方差分析值确定方差分析值向量F, 其中, 为第1列第一数据样本x1的方差分析值, 为第2列第一数据样本x2的方差分析值, 为第m列第一数据样本xm的方差分析值。基于如下公式对相关性值向量R做相对性转换,得到向量R′:其中,max(R)为相关性值向量中的最大相关性值。基于如下公式对特征重要性向量V做相对性转换,得到向量V′:其中,max(V)为特征重要性向量中的最大特征重要性值。基于如下公式对方差分析值向量F做相对性转换,得到向量F′: 其中,max(F)为方差分析值向量中的最大方差分析值。定义第i列第一数据样本xi对应的样本评价指标值为:其中, 为第i列第一数据样本xi的相关性值, 为第i列第一数据样本xi的特征重要性值, 为第i列第一数据样本xi的方差分析值,a为相关性值对应的权重,b为特征重要性值对应的权重,c为方差分析值对应的权重。得到样本评价指标向量[0137] 可选的,获取所述目标样本矩阵中每列第一数据样本的相关性值,包括:[0138] 获取所述目标样本矩阵中每列第一数据样本的秩次、标签信息的秩次以及历史源数据中的第一数据样本总数;[0139] 根据所述每列第一数据样本的秩次、所述标签信息的秩次以及所述目标样本矩阵中的第一数据样本总数确定每列第一数据样本的相关性值。[0140] 具体的,根据所述每列第一数据样本的秩次、所述标签信息的秩次以及所述目标样本矩阵中的第一数据样本总数确定每列第一数据样本的相关性值的方式可以为:获取每列第一数据样本的秩次和每列第一数据样本的标签信息的秩次的差值,根据每列第一数据样本的秩次和每列第一数据样本的标签信息的秩次的差值以及所述目标样本矩阵中的第一数据样本总数确定每列第一数据样本的相关性值。[0141] 在一个具体的例子中,基于如下公式计算第i列第一数据样本xi的相关性值:[0142][0143] di=rg(Xi)‑rg(Yi);[0144] 首先对第i列第一数据样本xi和第i列第一数据样本对应的标签信息Yi进行排序,然后记下排序以后的位置,根据排序以后的位置进行求解,得到rg(xi)和rg(Yi),rg(xi)和rg(Yi)就称为秩次,秩次的差值就是上面公式中的di,n就是目标样本矩阵中第一数据样本的个数,m为目标样本矩阵的列数,所述目标样本矩阵可以为:D={x1,x2,…,xm},xi=(xi1,xi2,…,xij),n=j*m,D为目标样本矩阵,i=1,2,…,m。[0145] 可选的,获取所述目标样本矩阵中每列第一数据样本的方差分析值,包括:[0146] 获取所述目标样本矩阵中每列第一数据样本的组间均方和每列第一数据样本的组内均方;[0147] 根据所述每列第一数据样本的组间均方和所述每列第一数据样本的组内均方的比值确定每列第一数据样本的方差分析值。[0148] 具体的,根据所述每列第一数据样本的组间均方和所述每列第一数据样本的组内均方的比值确定每列第一数据样本的方差分析值的方式可以为:将所述每列第一数据样本的组间均方和所述每列第一数据样本的组内均方的比值确定为每列第一数据样本的方差分析值。例如可以是,基于如下公式确定第i列第一数据样本xi的方差分析值:其中, 为第i列第一数据样本xi的组间均方, 为第i列第一数据样本xi的组内均方。[0149] 可选的,根据所述每列第一数据样本对应的样本评价指标值对所述目标样本矩阵进行筛选,得到目标样本集,包括:[0150] 将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到目标样本集。[0151] 其中,所述平均样本评价指标值为目标样本中每列第一数据样本对应的样本评价指标之和与目标样本中第一数据样本的总列数的比值。[0152] 在一个具体的例子中,样本评价指标向量 获取的平均值 若 小于 则将 从目标样本矩阵中删除,根据删除后的目标样本矩阵中的第一数据样本和第一数据样本对应的标签信息生成目标样本集。[0153] 可选的,将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到目标样本集,包括:[0154] 将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到第一样本矩阵;[0155] 基于奇异值分解对所述第一样本矩阵进行PCA降维,得到目标样本集。[0156] 具体的,基于奇异值分解对所述第一样本矩阵进行PCA降维,得到目标样本集的方式可以为:对所述第一样本矩阵进行去中心化,得到第二样本矩阵;基于奇异值分解对所述第二样本矩阵进行PCA降维,得到目标样本集。[0157] 具体的,将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到第一样本矩阵,例如可以是,获取 的平均值 若 小于 则将 从目标样本矩阵中删除,得到第一样本矩阵,其中,w≤m。[0158] 可选的,基于奇异值分解对所述第一样本矩阵进行PCA降维,得到目标样本集,包括:[0159] 对所述第一样本矩阵进行去中心化,得到第二样本矩阵;[0160] 基于奇异值分解对所述第二样本矩阵进行PCA降维,得到目标样本集。[0161] 具体的,对所述第一样本矩阵进行去中心化,得到第二样本矩阵的方式可以为:对所述第一样本矩阵中的每个第一数据样本替换为第一数据样本与第一数据样本所属列的均值的比值,得到第二样本矩阵,例如可以是,获取目标样本矩阵中每列第一样本的均值将目标样本矩阵中的xi替换为 得到第二样本矩阵[0162] 在一个具体的例子中,获取目标样本矩阵中每列第一样本的均值 将目标样本矩阵中的xi替换为 以实现对第一样本矩阵去中心化,得到第二样本矩阵基于奇异值分解对第二样本矩阵D′进行PCA降维,得到目标样本集。[0163] 可选的,对所述第一样本矩阵进行去中心化,得到第二样本矩阵,包括:[0164] 对所述第一样本矩阵中的每个第一数据样本替换为第一数据样本与第一数据样本所属列的均值的比值,得到第二样本矩阵。[0165] 具体的,对所述第一样本矩阵中的每个第一数据样本替换为第一数据样本与第一数据样本所属列的均值的比值,得到第二样本矩阵的方式可以为:预先获取目标样本矩阵中每列第一数据样本的均值,将目标矩阵中的每列第一样本矩阵替换为第一数据样本与第一数据样本所属列的均值的比值,例如可以是,获取目标样本矩阵中每列第一样本的均值将目标样本矩阵中的xi替换为 得到第二样本矩阵[0166] 可选的,基于奇异值分解对所述第二样本矩阵进行PCA降维,得到目标样本集,包括:[0167] 获取所述第二样本矩阵中每列第一数据样本的容忍度;[0168] 将第二样本矩阵中容忍度大于列容忍度均值的至少一列第一数据样本删除,得到第三样本矩阵;[0169] 获取第四样本矩阵,其中,所述第四样本矩阵为所述第三样本矩阵对应的特征向量矩阵;[0170] 将所述第三样本矩阵和所述第四样本矩阵的转置的乘积确定为第五样本矩阵;[0171] 获取所述第五样本矩阵中每列第一数据样本对应的方差贡献率;[0172] 按照方差贡献率从大到小的顺序对所述第五样本矩阵进行重新排序,得到第六样本矩阵;[0173] 若所述第六样本矩阵中的第N列第一数据样本对应的累积方差贡献率大于或者等于设定阈值,且所述第六样本矩阵中的第N‑1列第一数据样本对应的累积方差贡献率小于设定阈值,则根据所述第六样本矩阵中的前N列第一数据样本生成目标样本集,其中,N为大于或者等于1的正整数。[0174] 其中,所述容忍度就是方差膨胀因子VIF的倒数,方差膨胀因子(VarianceInflationFactor,VIF)是用来检测回归模型中自变量的多重共线性的。[0175] 例如可以是,一共有5列第一样本:x1,x2,x3,x4,x5。把x1当作观测值,把剩下的x2,x3,x4,x5当作自变量,进行线性回归。x1=c1,0+c1,2x2+c1,3x3+c1,4x4+c1,5x5+e1,用 上表示面2这个回归的S。x1的方差膨胀因子 相应地,xi的方差膨胀因子 其中,2 2是把xi当作观测值,把剩下的当作自变量的回归的S 。S越接近1,拟合越好。这里VIFi等于1说明没有共线性,越接近1,xi的多重共线性越小。VIFi越大,xi与其他列第一样本的多重共线性越大。[0176] 具体的,数据的方差表示了数据波动变化的信息。若数据的方差为0,就是完全没有变化,没有研究价值。一般PCA用于降维,降维会带来信息的损失,在减少数据维度的时候尽可能多地保存数据的信息。数据的方差等于协方差所有特征值之和,第i个主成分的方差等于协方差矩阵的第i个特征值。特征值从大到小排序,然后从前到后求和就得到累积方差。累积方差贡献率的大小表示了当前选择的所有主成分携带原数据的信息的比例。[0177] 其中,所述第五样本矩阵中每列第一数据样本对应的方差贡献率的获取方式可以为:预先获取第五样本矩阵中每列第一数据样本对应的方差,再根据第五样本矩阵中每列第一数据样本对应的方差确定所述第五样本矩阵中每列第一数据样本对应的方差贡献率。[0178] 例如可以是,如图2所示,图2为第五样本矩阵中的每列第一数据样本对应的累积方差贡献率,图2的横坐标表示列数,纵坐标表示累积方差贡献率。[0179] 具体的,将第二样本矩阵中容忍度大于列容忍度均值的至少一列第一数据样本删除,得到第三样本矩阵的方式可以为:对所述第二样本矩阵中每列第一数据样本作容忍度分析,得到每列第一数据样本的容忍度Ti,Ti的取值范围为[0,1],当Ti越接近于0时,表示变量i与其他自变量之间的相关性越高,故设定保留 的变量,得到第三样本矩阵,其中, 为第二样本矩阵中第i列第一数据样本的容忍度均值。[0180] 具体的,基于如下公式确定第五样本矩阵A:A=D″*(D″′)T。[0181] 具体的,若所述第五样本矩阵中依次累计的预设列数的第一数据样本的第一比值之和大于设定阈值,则根据预设列数的第一数据样本生成目标样本集,例如可以是,若第五样本矩阵中第一列第一数据样本的第一比值,第二列第一数据样本的第一比值,…,第L列第一数据样本的第一比值之和大于设定阈值,且第一列第一数据样本的第一比值,第二列第一数据样本的第一比值,…,第L‑1列第一数据样本的第一比值之和小于设定阈值,则根据第五样本矩阵中第一列第一数据样本,第二列第一数据样本,…,第L列第一数据样本生成目标样本集。[0182] 可选的,获取第四样本矩阵,包括:[0183] 获取第三样本矩阵的协方差矩阵;[0184] 通过奇异值分解获取所述第三样本矩阵的协方差矩阵中每个第一数据样本的特征值;[0185] 将所述第三样本矩阵的协方差矩阵中每个第一数据样本的特征值和所述第三样本矩阵中每个第一数据样本相乘后得到的矩阵确定为第四样本矩阵。[0186] 具体的,将所述第三样本矩阵的协方差矩阵中每个第一数据样本的特征值和所述第三样本矩阵中每个第一数据样本相乘后得到的矩阵确定为第四样本矩阵的方式可以为:第三样本矩阵D″=(x1,x2,…,xp),p≤w≤m,第三样本矩阵的协方差矩阵中每个第一数据样本的特征值为K=(λ1,λ2,…,λp),第四样本矩阵D″′=(x1*λ1,x2*λ2,…,xp*λp)。[0187] 本发明实施例使用RF对重构后的样本数据集进行训练与测试,模型训练过程中的AUC迭代如图3所示,图3中的横坐标表示迭代轮数,纵坐标表示AUC。[0188] 给定一个阈值,可根据混淆矩阵计算TPR(覆盖率)和FPR(打扰率),其中,TP为真正例、FN为假反例、FP为假正例和TN为真反例。通过设定不同的阈值,会有一系列TPR和FPR,就可以绘制出如图4所示的ROC曲线(图中实线为ROC曲线,虚线为参考曲线),图4中的横坐标表示FPR,纵坐标表示TPR。[0189] 本发明实施例中的评分指标,首先计算了3个覆盖率TPR:[0190][0191] 最终误差为tpe=0.4*TPR1+0.3*TPR2+0.3*TPR3。[0192] 且在测试集上进行预测做模型验证,得到分类误差AUC=0.81,tpe=0.65。[0193] 本实施例的技术方案,基于样本评价指标对样本企业的历史源数据进行筛选后得到目标样本集,在将目标样本集中的第一数据样本输入预先建立的随机森林模型,得到企业异常预测概率之后,根据基于所述企业异常预测概率和所述第一数据样本对应的标签信息形成的目标函数,训练所述随机森林模型的参数,能够基于样本评价指标过滤贡献率较低的历史源数据,进而在有效避免过拟合的同时,贡献较高的价值,提升模型的训练效率和精度。[0194] 实施例二[0195] 图5为本发明实施例提供的一种企业异常概率确定方法的流程图,本实施例可适用于企业异常概率确定的情况,该方法可以由本发明实施例中的企业异常概率确定装置来执行,该企业异常概率确定装置可采用软件和/或硬件的方式实现,如图5所示,该方法具体包括如下步骤:[0196] S210,获取待识别企业对应的源数据。[0197] 其中,所述待识别企业对应的源数据为待识别企业授权公开的企业数据,例如可以包括:待识别企业的基本信息。[0198] 其中,所述待识别企业对应的源数据的获取方式可以为:从数据库中获取待识别企业对应的源数据;所述待识别企业对应的源数据的获取方式还可以为:若检测到目标企业发送的申请指令后,将所述目标企业确定为待识别企业,获取目标企业对应的源数据。[0199] 其中,所述源数据可以为企业基本信息、企业法人信息、企业征信、企业法人征信等类型数据,本发明实施例对源数据的具体内容不进行限制。[0200] 其中,待识别企业对应的源数据为待识别企业公开的源数据,或者在得到企业法人授权后,获取到的待识别企业公开的源数据。[0201] S220,将所述待识别企业对应的源数据输入目标模型,得到所述待识别企业对应的企业异常概率。[0202] 其中,所述目标模型的训练方式如上述实施例所述,本实施例在此不进行赘述。[0203] 具体的,将所述待识别企业对应的源数据输入目标模型,得到所述待识别企业对应的企业异常概率,例如可以是,将待识别企业K对应的源数据输入目标模型,得到待识别企业K对应的企业异常概率为30%。[0204] 本实施例的技术方案,通过获取待识别企业对应的源数据,将所述待识别企业对应的源数据输入目标模型,得到所述待识别企业对应的企业异常概率,由于目标模型是基于样本评价指标过滤贡献率较低的历史源数据后训练得到的,因此能够在有效避免过拟合的同时,使得过滤后的历史源数据贡献较高的价值,并且能够提升获取待识别企业对应的企业异常概率的效率和准确度。[0205] 实施例三[0206] 图6为本发明实施例提供的一种模型训练装置的结构示意图。本实施例可适用于模型训练的情况,该装置可采用软件和/或硬件的方式实现,该模型训练装置可集成在任何提供模型训练功能的设备中,如图6所示,所述模型训练装置具体包括:样本集获取模块310、企业异常预测概率确定模块320和训练模块330。[0207] 其中,样本集获取模块,用于获取目标样本集,其中,所述目标样本集为基于样本评价指标对样本企业的历史源数据进行筛选后得到的样本集;[0208] 企业异常预测概率确定模块,用于将所述目标样本集中的第一数据样本输入预先建立的随机森林模型,得到企业异常预测概率;[0209] 训练模块,用于根据基于所述企业异常预测概率和所述第一数据样本对应的标签信息形成的目标函数,训练所述随机森林模型的参数。[0210] 可选的,所述样本集获取模块具体用于:[0211] 获取历史源数据,其中,所述历史源数据包括:至少一个第一数据样本和所述至少一个第一数据样本对应的标签信息;[0212] 对所述历史源数据进行随机欠采样,得到目标样本矩阵,其中,所述目标样本矩阵包括:至少一列第一数据样本;[0213] 获取所述目标样本矩阵中每列第一数据样本的相关性值、每列第一数据样本的特征重要性值以及每列第一数据样本的方差分析值;[0214] 根据所述每列第一数据样本的相关性值、所述每列第一数据样本的特征重要性值以及所述每列第一数据样本的方差分析值确定所述每列第一数据样本对应的样本评价指标值;[0215] 根据所述每列第一数据样本对应的样本评价指标值对所述目标样本矩阵进行筛选,得到目标样本集。[0216] 可选的,所述样本集获取模块具体用于:[0217] 获取所述目标样本矩阵中每列第一数据样本的秩次、标签信息的秩次以及历史源数据中的第一数据样本总数;[0218] 根据所述每列第一数据样本的秩次、所述标签信息的秩次以及所述目标样本矩阵中的第一数据样本总数确定每列第一数据样本的相关性值。[0219] 可选的,所述样本集获取模块具体用于:[0220] 获取所述目标样本矩阵中每列第一数据样本的组间均方和每列第一数据样本的组内均方;[0221] 根据所述每列第一数据样本的组间均方和所述每列第一数据样本的组内均方的比值确定每列第一数据样本的方差分析值。[0222] 可选的,所述样本集获取模块具体用于:[0223] 将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到目标样本集。[0224] 可选的,所述样本集获取模块具体用于:[0225] 将样本评价指标值小于平均样本评价指标值的至少一列第一数据样本从所述目标样本矩阵中删除,得到第一样本矩阵;[0226] 基于奇异值分解对所述第一样本矩阵进行PCA降维,得到目标样本集。[0227] 可选的,所述样本集获取模块具体用于:[0228] 对所述第一样本矩阵进行去中心化,得到第二样本矩阵;[0229] 基于奇异值分解对所述第二样本矩阵进行PCA降维,得到目标样本集。[0230] 可选的,所述样本集获取模块具体用于:[0231] 对所述第一样本矩阵中的每个第一数据样本替换为第一数据样本与第一数据样本所属列的均值的比值,得到第二样本矩阵。[0232] 可选的,所述样本集获取模块具体用于:[0233] 获取所述第二样本矩阵中每列第一数据样本的容忍度;[0234] 将第二样本矩阵中容忍度大于列容忍度均值的至少一列第一数据样本删除,得到第三样本矩阵;[0235] 获取第四样本矩阵,其中,所述第四样本矩阵为所述第三样本矩阵对应的特征向量矩阵;[0236] 将所述第三样本矩阵和所述第四样本矩阵的转置的乘积确定为第五样本矩阵;[0237] 获取所述第五样本矩阵中每列第一数据样本对应的方差贡献率;[0238] 按照方差贡献率从大到小的顺序对所述第五样本矩阵进行重新排序,得到第六样本矩阵;[0239] 若所述第六样本矩阵中的第N列第一数据样本对应的累积方差贡献率大于或者等于设定阈值,且所述第六样本矩阵中的第N‑1列第一数据样本对应的累积方差贡献率小于设定阈值,则根据所述第六样本矩阵中的前N列第一数据样本生成目标样本集,其中,N为大于或者等于1的正整数。[0240] 可选的,所述样本集获取模块具体用于:[0241] 获取第三样本矩阵的协方差矩阵;[0242] 通过奇异值分解获取所述第三样本矩阵的协方差矩阵中每个第一数据样本的特征值;[0243] 将所述第三样本矩阵的协方差矩阵中每个第一数据样本的特征值和所述第三样本矩阵中每个第一数据样本相乘后得到的矩阵确定为第四样本矩阵。[0244] 上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。[0245] 本实施例的技术方案,基于样本评价指标对样本企业的历史源数据进行筛选后得到目标样本集,在将目标样本集中的第一数据样本输入预先建立的随机森林模型,得到企业异常预测概率之后,根据基于所述企业异常预测概率和所述第一数据样本对应的标签信息形成的目标函数,训练所述随机森林模型的参数,能够基于样本评价指标过滤贡献率较低的历史源数据,进而在有效避免过拟合的同时,贡献较高的价值,提升模型的训练效率和精度。[0246] 实施例四[0247] 图7为本发明实施例提供的一种企业异常概率确定装置的结构示意图。本实施例可适用于企业异常概率确定的情况,该装置可采用软件和/或硬件的方式实现,该企业异常概率确定装置可集成在任何提供企业异常概率确定功能的设备中,如图7所示,所述企业异常概率确定装置具体包括:源数据获取模块410和企业异常概率确定模块420。[0248] 其中,源数据获取模块,用于获取待识别企业对应的源数据;[0249] 企业异常概率确定模块,用于将所述待识别企业对应的源数据输入目标模型,得到所述待识别企业对应的企业异常概率;其中,所述目标模型是按照上述实施例所述的模型训练方法训练得到的。[0250] 本实施例的技术方案,通过获取待识别企业对应的源数据,将所述待识别企业对应的源数据输入目标模型,得到所述待识别企业对应的企业异常概率,由于目标模型是基于样本评价指标过滤贡献率较低的历史源数据后训练得到的,因此能够在有效避免过拟合的同时,使得过滤后的历史源数据贡献较高的价值,并且能够提升获取待识别企业对应的企业异常概率的效率和准确度。[0251] 实施例五[0252] 图8示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。[0253] 如图8所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM12以及RAM13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。[0254] 电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。[0255] 处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如模型训练方法:[0256] 获取目标样本集,其中,所述目标样本集为基于样本评价指标对样本企业的历史源数据进行筛选后得到的样本集;[0257] 将所述目标样本集中的第一数据样本输入预先建立的随机森林模型,得到企业异常预测概率;[0258] 根据基于所述企业异常预测概率和所述第一数据样本对应的标签信息形成的目标函数,训练所述随机森林模型的参数。[0259] 或者,例如企业异常概率确定方法:[0260] 获取待识别企业对应的源数据;[0261] 将所述待识别企业对应的源数据输入目标模型,得到所述待识别企业对应的企业异常概率;[0262] 在一些实施例中,模型训练方法,或者,企业异常概率确定方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM13并由处理器11执行时,可以执行上文描述的模型训练方法,或者,企业异常概率确定方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行模型训练方法,或者,企业异常概率确定方法。[0263] 本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。[0264] 用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。[0265] 在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。[0266] 为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。[0267] 可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。[0268] 计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端‑服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。[0269] 应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。[0270] 本发明实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本发明任一实施例所述的模型训练方法,或者,企业异常概率确定方法。[0271] 上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
专利地区:上海
专利申请日期:2022-05-12
专利公开日期:2024-07-26
专利公告号:CN114861800B