专利名称:特征分箱方法、装置、设备及可读存储介质
专利类型:实用新型专利
专利申请号:CN202010747783.5
专利申请(专利权)人:深圳前海微众银行股份有限公司
权利人地址:广东省深圳市前海深港合作区前湾一路1号A栋201室(入驻深圳市前海商务秘书有限公司)
专利发明(设计)人:谭明超,马国强,范涛,陈天健,杨强
专利摘要:本申请公开了一种特征分箱方法、装置、设备及可读存储介质,所述特征分箱方法包括:接收各第二设备发送的样本特征极值和样本数量,并基于各样本特征极值和各样本数量,确定全局样本特征极值和全局样本数量,进而将全局样本特征极值发送至各第二设备,以供各第二设备基于全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量,进而接收各第二设备发送的第一样本数量和第二样本数量,并基于各第一样本数量、各第二样本数量和全局样本数量,确定分位点分布位置,进而基于分位点分布位置,确定目标分位点。本申请解决了联合多方进行特征分箱的方式会暴露各自的数据,无法做到隐私保护的技术问题。
主权利要求:
1.一种特征分箱方法,其特征在于,所述特征分箱方法应用于第一设备,所述特征分箱方法包括:接收各第二设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;
将所述全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;
接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置,其中,所述分位点分布位置为目标分位点与所述预设样本分箱比例在各参与方中对应的目标特征点的相对位置;
基于所述分位点分布位置,确定目标分位点;
所述基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置的步骤包括:分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数;
基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例;
基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置。
2.如权利要求1所述特征分箱方法,其特征在于,所述基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置的步骤包括:基于所述第一全局样本比例和所述第二全局样本比例,计算全局目标样本分布比例;
将所述全局目标样本分布比例与所述预设样本分箱比例进行比对;
若所述全局目标样本分布比例小于所述预设样本分箱比例,则判定所述分位点分布位置为所述预设样本分箱比例对应的目标特征点的右侧位置;
若所述全局目标样本分布比例大于所述预设样本分箱比例,则判定所述分位点分布位置为所述目标特征点的左侧位置。
3.如权利要求1所述特征分箱方法,其特征在于,所述基于所述分位点分布位置,确定目标分位点的步骤包括:基于所述分位点分布位置,确定第二全局样本特征极值;
基于所述第二全局样本特征极值,通过与各所述第二设备进行分箱交互,计算第二全局目标样本分布比例,直至所述第二全局目标样本分布比例符合预设迭代计算结束条件,获得所述目标分位点。
4.如权利要求3所述特征分箱方法,其特征在于,所述基于所述分位点分布位置,确定第二全局样本特征极值的步骤包括:将所述分位点分布位置发送至各所述第二设备,以供各所述第二设备基于所述分位点分布位置,对所述样本特征极值进行更新,获得第二样本特征极值;
接收各所述第二设备发送的第二样本特征极值,并对各所述第二样本特征极值进行聚合,获得第二全局样本特征极值。
5.一种特征分箱方法,其特征在于,所述特征分箱方法应用于第二设备,所述特征分箱方法包括:获取待分箱样本集对应的样本特征极值和对应的样本数量,并将所述样本特征极值和样本数量发送至第一设备,以供所述第一设备确定全局样本特征极值和全局样本数量;
接收所述第一设备发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量;
将所述第一样本数量和所述第二样本数量发送至所述第一设备,以供所述第一设备基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定分位点分布位置,并基于所述分位点分布位置,确定目标分位点,其中,所述分位点分布位置为目标分位点与所述预设样本分箱比例在各参与方中对应的目标特征点的相对位置,具体地,所述第一设备分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数;基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例;基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置。
6.如权利要求5所述特征分箱方法,其特征在于,所述全局样本特征极值包括全局最小值和全局最大值,所述基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量的步骤包括:基于所述全局最小值、全局最大值和所述预设样本分箱比例,计算目标特征值;
基于所述目标特征值,对所述待分箱样本集进行特征分箱,获得第一初始分箱和第二初始分箱;
统计所述第一初始分箱对应的样本数量,获得第一样本数量,并统计所述第二初始分箱对应的样本数量,获得第二样本数量。
7.一种特征分箱装置,其特征在于,所述特征分箱装置包括:
第一确定模块,用于接收各第二设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;
发送模块,用于将所述全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;
第二确定模块,用于接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置,其中,所述分位点分布位置为目标分位点与所述预设样本分箱比例在各参与方中对应的目标特征点的相对位置;
第三确定模块,用于基于所述分位点分布位置,确定目标分位点;
所述第二确定模块包括:
聚合单元,用于分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数;
计算单元,用于基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例;
确定单元,用于基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置。
8.一种特征分箱设备,其特征在于,所述特征分箱设备包括:存储器、处理器以及存储在存储器上的用于实现所述特征分箱方法的程序,所述存储器用于存储实现特征分箱方法的程序;
所述处理器用于执行实现所述特征分箱方法的程序,以实现如权利要求1至4或者5至6中任一项所述特征分箱方法的步骤。
9.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现特征分箱方法的程序,所述实现特征分箱方法的程序被处理器执行以实现如权利要求1至4或者5至6中任一项所述特征分箱方法的步骤。 说明书 : 特征分箱方法、装置、设备及可读存储介质技术领域[0001] 本申请涉及人工智能领域,尤其涉及一种特征分箱方法、装置、设备及可读存储介质。背景技术[0002] 随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。[0003] 通常,在很多领域需要对特征进行分箱,例如,在机器学习中,特征分箱并基于分箱结果求变量的显著性等过程往往是特征工程的重要方法,比如,要考察特征与标签之间的相关程度时,iv(InformationValue,信息价值)值往往是变量显著性的重要指标,可运用于特征选择之中。[0004] 目前,当待分箱特征的特征数据分布存放在多方,需要联合多方进行特征分箱时,各方采用互相发送特征数据的方式来进行联合特征分箱,但是,这种方式会互相暴露各自的数据,若需要对各方的数据进行隐私保护,则无法联合各方进行特征分箱。发明内容[0005] 本申请的主要目的在于提供一种特征分箱方法、装置、设备及可读存储介质,旨在解决联合多方进行特征分箱的方式会暴露各自的数据,无法做到隐私保护的技术问题。[0006] 为实现上述目的,本申请提供一种特征分箱方法,所述特征分箱方法应用于第一设备,所述特征分箱方法包括:[0007] 接收各第二设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;[0008] 将所述全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;[0009] 接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置;[0010] 基于所述分位点分布位置,确定目标分位点。[0011] 可选地,所述基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置的步骤包括:[0012] 分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数;[0013] 基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例;[0014] 基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置。[0015] 可选地,所述基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置的步骤包括:[0016] 基于所述第一全局样本比例和所述第二全局样本比例,计算全局目标样本分布比例;[0017] 将所述全局目标样本分布比例与所述预设样本分箱比例进行比对;[0018] 若所述全局目标样本分布比例小于所述预设样本分箱比例,则判定所述分位点分布位置为所述预设样本分箱比例对应的目标特征点的右侧位置;[0019] 若所述全局目标样本分布比例大于所述预设样本分箱比例,则判定所述分位点分布位置为所述目标特征点的左侧位置。[0020] 可选地,所述基于所述分位点分布位置,确定目标分位点的步骤包括:[0021] 基于所述分位点分布位置,确定第二全局样本特征极值;[0022] 基于所述第二全局样本特征极值,通过与各所述第二设备进行分箱交互,计算第二全局目标样本分布比例,直至所述第二全局目标样本分布比例符合预设迭代计算结束条件,获得所述目标分位点。[0023] 可选地,所述基于所述分位点分布位置,确定第二全局样本特征极值的步骤包括:[0024] 将所述分位点分布位置发送至各所述第二设备,以供各所述第二设备基于所述分位点分布位置,对所述样本特征极值进行更新,获得第二样本特征极值;[0025] 接收各所述第二设备发送的第二样本特征极值,并对各所述第二样本特征极值进行聚合,获得第二全局样本特征极值。[0026] 为实现上述目的,本申请还提供一种特征分箱方法,所述特征分箱方法应用于第二设备,所述特征分箱方法包括:[0027] 获取待分箱样本集对应的样本特征极值和对应的样本数量,并将所述样本特征极值和样本数量发送至第一设备,以供所述第一设备确定全局样本特征极值和全局样本数量;[0028] 接收所述第一设备发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量;[0029] 将所述第一样本数量和所述第二样本数量发送至所述第一设备,以供所述第一设备基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定目标分位点。[0030] 可选地,所述全局样本特征极值包括全局最小值和全局最大值,[0031] 所述基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量的步骤包括:[0032] 基于所述全局最小值、全局最大值和所述预设样本分箱比例,计算目标特征值;[0033] 基于所述目标特征值,对所述待分箱样本集进行特征分箱,获得第一初始分箱和第二初始分箱;[0034] 统计所述第一初始分箱对应的样本数量,获得第一样本数量,并统计所述第二初始分箱对应的样本数量,获得第二样本数量。[0035] 本申请还提供一种特征分箱装置,所述特征分箱装置为虚拟装置,且所述特征分箱装置应用于第一设备,所述特征分箱装置包括:[0036] 第一确定模块,用于接收各第二设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;[0037] 发送模块,用于将所述全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;[0038] 第二确定模块,用于接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置;[0039] 第三确定模块,用于基于所述分位点分布位置,确定目标分位点。[0040] 可选地,所述第二确定模块包括:[0041] 聚合单元,用于分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数;[0042] 计算单元,用于基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例;[0043] 确定单元,用于基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置。[0044] 可选地,所述确定单元包括:[0045] 计算子单元,用于基于所述第一全局样本比例和所述第二全局样本比例,计算全局目标样本分布比例;[0046] 比对子单元,用于将所述全局目标样本分布比例与所述预设样本分箱比例进行比对;[0047] 第一判定子单元,用于若所述全局目标样本分布比例小于所述预设样本分箱比例,则判定所述分位点分布位置为所述预设样本分箱比例对应的目标特征点的右侧位置;[0048] 第二判定子单元,用于若所述全局目标样本分布比例大于所述预设样本分箱比例,则判定所述分位点分布位置为所述目标特征点的左侧位置。[0049] 可选地,所述第三确定模块包括:[0050] 更新单元,用于基于所述分位点分布位置,确定第二全局样本特征极值;[0051] 迭代计算单元,用于基于所述第二全局样本特征极值,通过与各所述第二设备进行分箱交互,计算第二全局目标样本分布比例,直至所述第二全局目标样本分布比例符合预设迭代计算结束条件,获得所述目标分位点。[0052] 可选地,所述更新单元包括:[0053] 发送子单元,用于将所述分位点分布位置发送至各所述第二设备,以供各所述第二设备基于所述分位点分布位置,对所述样本特征极值进行更新,获得第二样本特征极值;[0054] 聚合子单元,用于接收各所述第二设备发送的第二样本特征极值,并对各所述第二样本特征极值进行聚合,获得第二全局样本特征极值。[0055] 为实现上述目的,本申请还提供一种特征分箱装置,所述特征分箱装置为虚拟装置,且所述特征分箱装置应用于第二设备,所述特征分箱装置包括:[0056] 获取模块,用于获取待分箱样本集对应的样本特征极值和对应的样本数量,并将所述样本特征极值和样本数量发送至第一设备,以供所述第一设备确定全局样本特征极值和全局样本数量;[0057] 统计模块,用于接收所述第一设备发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量;[0058] 发送模块,用于将所述第一样本数量和所述第二样本数量发送至所述第一设备,以供所述第一设备基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定目标分位点。[0059] 可选地,所述统计模块包括:[0060] 计算单元,用于基于所述全局最小值、全局最大值和所述预设样本分箱比例,计算目标特征值;[0061] 特征分箱单元,用于基于所述目标特征值,对所述待分箱样本集进行特征分箱,获得第一初始分箱和第二初始分箱;[0062] 统计单元,用于统计所述第一初始分箱对应的样本数量,获得第一样本数量,并统计所述第二初始分箱对应的样本数量,获得第二样本数量。[0063] 本申请还提供一种特征分箱设备,所述特征分箱设备为实体设备,所述特征分箱设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述特征分箱方法的程序,所述特征分箱方法的程序被处理器执行时可实现如上述的特征分箱方法的步骤。[0064] 本申请还提供一种可读存储介质,所述可读存储介质上存储有实现特征分箱方法的程序,所述特征分箱方法的程序被处理器执行时实现如上述的特征分箱方法的步骤。[0065] 本申请提供了一种特征分箱方法、装置、设备及可读存储介质,相比于现有技术采用的互相发送特征数据的方式来进行联合特征分箱的技术手段,本申请在接收各第二设备发送的样本特征极值和样本数量之后,统计全局样本特征极值和全局样本数量,进而将全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,统计属于预设样本分箱比例对应的目标特征点两侧的第一样本数量和第二样本数量,进而第一设备在接收各第一样本数量和各第二样本数据之后,即可基于全局样本数量、各第一样本数量和各第二样本数量,即可确定目标分位点在全局中的分位点分布位置,进而基于分位点分布位置,即可确定目标分位点,其中,第一设备在与各第二设备进行交互时,发送的仅仅为样本的数量和样本的特征极值,而不是发送特征数据本身,进而各第二设备不会互相暴露各自的特征数据,进而克服了现有技术中各方在进行联合特征分箱,会互相暴露各自的隐私数据的技术缺陷,进而在联合多方进行特征分箱的同时,实现了对各方的隐私的保护。附图说明[0066] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。[0067] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。[0068] 图1为本申请特征分箱方法第一实施例的流程示意图;[0069] 图2为本申请特征分箱方法第二实施例的流程示意图;[0070] 图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图。[0071] 本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式[0072] 应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。[0073] 本申请实施例提供一种特征分箱方法,在本申请特征分箱方法的第一实施例中,参照图1,所述特征分箱方法包括:[0074] 步骤S10,接收各第二设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;[0075] 在本实施例中,需要说明的是,所述特征分箱方法应用于联邦学习,所述联邦学习包括横向联邦学习和纵向联邦学习,所述第一设备为联邦学习的协调方,所述第二设备为联邦学习的参与方,所述样本特征极值包括样本特征最小值和样本特征最大值,所述样本特征最小值为单个参与方中各样本对应的特征值中的最小特征值,所述样本特征最大值为单个参与方中各样本对应的特征值中的最大特征值,所述样本数量为单个参与方中样本的数量,所述全局样本特征极值包括全局最小值和全局最大值,所述全局最小值为所有参与方中各样本对应的特征值中的最小特征值,所述全局最大值未所有参与方中各样本对应的特征值中的最大特征值,所述全局样本数量为所有参与方中样本的总数,例如,假设参与方A中具有100个样本,样本特征最大值为10,样本特征最小值为1,参与方B中具有50个样本,样本特征最大值为20,样本特征最小值为2,则所述全局最大值为20,所述全局最小值为1,全局样本数量为150。[0076] 接收各第二设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量,具体地,接收各第二设备发送的样本特征最小值、样本特征最大值和样本数量,并对各所述样本特征最小值和各所述样本特征最大值进行聚合,以对各所述样本特征最小值和各所述样本特征最大值进行排序,以在各所述样本特征最小值和各所述样本特征最大值中选取全局最小值和全局最大值,并对各所述样本数量进行聚合,以计算各所述样本数量之和,获得所述全局样本数量。[0077] 步骤S20,将所述全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;[0078] 在本实施例中,需要说明的是,所述预设样本分箱比例为预先设置好的特征分箱比例,用于对参与方的待分箱样本进行样本分箱,例如,假设参与方A的特征值的取值范围为0至100,所述预设样本分箱比例为50%,则特征值取值范围为0至50的各样本为一个分箱,特征值取值范围为50至100的各样本为另一个分箱。[0079] 将所述全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量,具体地,将所述全局最大值和所述全局最小值均发送至各所述第二设备,以供所述第二设备计算所述全局最大值和所述全局最小值之和,获得全局特征值极值和,进而计算所述全局特征极值和与所述预设样本分箱比例的乘积,获得目标特征值,进而基于所述目标特征值,统计参与方中待分箱样本集中小于所述目标特征值的特征值对应的样本的数量,获得第一样本数量,并统计参与方中待分箱样本集中大于所述目标特征值的特征值对应的样本的数量,获得第二样本数量,其中,所述第一样本数量为单个参数方中的特征值小于所述目标特征值的样本的数量,所述第二样本数量为单个参数方中的特征值大于所述目标特征值的样本的数量。[0080] 步骤S30,接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置;[0081] 在本实施例中,需要说明的是,所述分位点分布位置为目标分位点与所述预设样本分箱比例在各参与方中对应的目标特征点的相对位置,其中,所述目标分位点为进行特征分箱时需要进行确定的分位点,所述目标特征点为基于所述样本特征极值和所述预设样本分箱比例确定的特征点,例如,假设样本特征最大值为100,样本特征最小值为40,预设样本分箱比例为50%,则所述目标特征点对应的特征值为(100+40)*50%=70,也即,特征值70对应的特征点即为目标特征点。[0082] 接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置,具体地,接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并对各所述第一样本数量进行聚合,以计算各所述第一样本数量之和,获得第一样本总数,对各所述第二样本数量进行聚合,以计算各所述第二样本数量之和,获得第二样本总数,进而基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,基于所述第二样本总数和殴全局样本数量,计算第二全局样本比例,进而基于所述第一全局样本比例和所述第二全局样本比例,判定所述分位点分布位置。[0083] 其中,所述基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置的步骤包括:[0084] 步骤S31,分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数;[0085] 在本实施例中,分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数,具体地,计算各所述第一样本数量之和,获得第一样本总数,并计算各所述第二样本数量之和,获得第二样本总数。[0086] 步骤S32,基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例;[0087] 在本实施例中,基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例,具体地,将所述第一样本总数除以所述全局样本数量,获得第一全局样本比例,并将所述第二样本总数除以所述全局样本数量,获得第二全局样本比例。[0088] 步骤S33,基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置。[0089] 在本实施例中,基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置,具体地,计算所述第一全局样本比例和所述第二全局样本比例之间的比值,获得全局目标样本分布比例,并基于所述全局目标样本分布比例和所述预设样本分箱比例,判断所述分位点分布位置。[0090] 其中,所述基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置的步骤包括:[0091] 步骤S331,基于所述第一全局样本比例和所述第二全局样本比例,计算全局目标样本分布比例;[0092] 在本实施例中,基于所述第一全局样本比例和所述第二全局样本比例,计算全局目标样本分布比例,具体地,计算所述第一全局样本比例与所述第二全局样本比例的比值,获得所述全局目标样本分布比例。[0093] 步骤S332,将所述全局目标样本分布比例与所述预设样本分箱比例进行比对;[0094] 步骤S333,若所述全局目标样本分布比例小于所述预设样本分箱比例,则判定所述分位点分布位置为所述预设样本分箱比例对应的目标特征点的右侧位置;[0095] 在本实施例中,若所述全局目标样本分布比例小于所述预设样本分箱比例,则判定所述分位点分布位置为所述预设样本分箱比例对应的目标特征点的左侧位置,具体地,若所述全局目标样本分布比例小于所述预设样本分箱比例,则所述目标分位点对应的特征值大于所述预设样本分箱比例对应的目标特征点的特征值,进而所述目标分位点在所述目标特征点的右侧,进而所述分位点分布位置为所述目标特征点的右侧位置。[0096] 步骤S334,若所述全局目标样本分布比例大于所述预设样本分箱比例,则判定所述分位点分布位置为所述目标特征点的左侧位置。[0097] 在本实施例中,若所述全局目标样本分布比例大于所述预设样本分箱比例,则判定所述分位点分布位置为所述目标特征点的左侧位置,具体地,所述全局目标样本分布比例大于所述预设样本分箱比例,则所述目标分位点对应的特征值小于所述预设样本分箱比例对应的目标特征点的特征值,进而所述目标分位点在所述目标特征点的左侧,进而所述分位点分布位置为所述目标特征点的左侧位置。[0098] 另外地,若所述全局目标样本分布比例等于所述预设样本分箱比例,则将所述目标特征点作为所述目标分位点。[0099] 步骤S40,基于所述分位点分布位置,确定目标分位点。[0100] 在本实施例中,基于所述分位点分布位置,确定目标分位点,具体地,获取所述分位点分布位置对应的全局目标样本分布比例,并计算所述全局目标样本分布比例与预设样本分箱比例之间的比例误差值,进而将所述比例误差值与预设比例误差阀值进行比对,若所述比例误差值小于所述预设比例误差阀值,则将所述预设样本分箱比例对应的目标特征点作为所述目标分位点,若所述比例误差值大于或者等于所述预设比例误差阀值,则基于所述分位点分布位置,更新所述全局样本特征极值,并基于更新后的全局样本特征极值,重新计算比例误差值,直至所述比例误差值小于所述预设比例误差阀值,获得所述目标分位点。[0101] 其中,所述基于所述分位点分布位置,确定目标分位点的步骤包括:[0102] 步骤S41,基于所述分位点分布位置,确定第二全局样本特征极值;[0103] 在本实施例中,基于所述分位点分布位置,确定第二全局样本特征极值,具体地,将所述分位点分布位置发生至各所述第二设备,以供所述第二设备基于所述分位点分布位置,判断所述目标分位点是在所述目标特征点的左侧位置还是在所述目标特征点的右侧位置,若所述目标分位点是在所述目标特征点的左侧位置,则将所述目标特征点对应的特征值作为本地的第二样本特征最大值,将所述样本特征最小值为第二样本特征最小值,若所述目标分位点是在所述目标特征点的右侧位置,则将所述目标特征点对应的特征值作为本地的第二样本特征最小值,将所述样本特征最大值为第二样本特征最大值,进而将所述第二样本特征最大值、所述第二样本特征最小值发送至所述第一设备,进而所述第一设备在接收各所述第二设备发送的所述第二样本特征最大值、所述第二样本特征最小值和所述参与方样本数量之后,对各所述第二样本特征最大值和各所述第二样本特征最小值进行聚合,确定第二全局最小值和第二全局最大值,也即获得所述第二全局样本特征极值。[0104] 其中,所述基于所述分位点分布位置,确定第二全局样本特征极值的步骤包括:[0105] 步骤S411,将所述分位点分布位置发送至各所述第二设备,以供各所述第二设备基于所述分位点分布位置,对所述样本特征极值进行更新,获得第二样本特征极值;[0106] 在本实施例中,将所述分位点分布位置发送至各所述第二设备,以供各所述第二设备基于所述分位点分布位置,对所述样本特征极值进行更新,获得第二样本特征极值,具体地,将所述分位点分布位置发生至各所述第二设备,以供每一所述第二设备基于所述分位点分布位置,判断所述目标分位点是在所述目标特征点的左侧位置还是所述目标特征点的右侧位置,若所述目标分位点是在所述目标特征点的左侧位置,则将所述目标特征点对应的特征值作为本地的第二样本特征最大值,将所述样本特征最小值为第二样本特征最小值,若所述目标分位点是在所述目标特征点的右侧位置,则将所述目标特征点对应的特征值作为本地的第二样本特征最小值,将所述样本特征最大值为第二样本特征最大值。[0107] 步骤S412,接收各所述第二设备发送的第二样本特征极值,并对各所述第二样本特征极值进行聚合,获得第二全局样本特征极值。[0108] 在本实施例中,需要说明的是,所述第二样本特征极值包括第二全局最大值和第二全局最小值。[0109] 接收各所述第二设备发送的第二样本特征极值,并对各所述第二样本特征极值进行聚合,获得第二全局样本特征极值,具体地,接收各所述第二设备发送的第二样本特征最大值和第二样本特征最小值,并对各所述第二样本特征最大值和各所述第二样本特征最小值进行聚合,以在各所述第二样本特征最大值和各所述样本特征最小值中选取最大特征值作为第二全局最大值,以及在各所述第二样本特征最大值和各所述样本特征最小值中选取最小特征值作为第二全局最小值。[0110] 步骤S42,基于所述第二全局样本特征极值,通过与各所述第二设备进行分箱交互,计算第二全局目标样本分布比例,直至所述第二全局目标样本分布比例符合预设迭代计算结束条件,获得所述目标分位点。[0111] 在本实施例中,需要说明的是,所述预设迭代计算接收条件包括当前全局样本比例与预设样本分箱比例之间的比例误差值小于预设比例误差阀值。[0112] 基于所述第二全局样本特征极值,通过与各所述第二设备进行分箱交互,计算第二全局目标样本分布比例,直至所述第二全局目标样本分布比例符合预设迭代计算结束条件,获得所述目标分位点,具体地,将所述第二全局最大值和所述第二全局最小值发送至各所述第二设备,以供所述第二设备基于所述第二全局最小值、所述第二全局最大值以及预设第二样本分箱比例,确定第二目标特征值,进而基于所述第二目标特征值,统计特征值小于所述第二目标特征值的样本的数量,获得第三样本数量,并基于所述第二目标特征值,统计特征值大于所述第二目标特征值的样本的数量,获得第四样本数量,进而将所述第三样本数量和所述第四样本数量发送至所述第一设备,进而第一设备接收各所述第三样本数量和各所述第四样本数量,进而对各所述第三样本数量进行聚合,以计算各所述第三样本数量之和,获得第三样本总数,并对各所述第四样本数量进行聚合,以计算各所述第四样本数量之和,获得第四样本总数,进而计算所述第三样本总数与全局样本数量的比值,获得第三全局样本比例,并计算所述第四样本总数与全局样本数量的比值,获得第四全局样本比例,进而基于所述第三样本比例和所述第四样本比例,计算第二全局目标样本分布比例,并计算所述第二全局目标样本分布比例与预设第二样本分箱比例之间的第二比例误差值,并判断所述第二比例误差值是否小于预设比例误差阀值,若所述第二比例误差值小于预设比例误差阀值,则将所述预设第二样本分箱比例对应的第二目标特征点作为所述目标分位点,若所述第二比例误差值不小于预设比例误差阀值,则基于所述第二全局目标样本分布比例,重新确定分位点分布位置,以重新计算第二比例误差值,直至所述第二比例误差值小于预设比例误差阀值,获得所述目标分位点。[0113] 本实施例提供了一种特征分箱方法,相比于现有技术采用的互相发送特征数据的方式来进行联合特征分箱的技术手段,本实施例在接收各第二设备发送的样本特征极值和样本数量之后,统计全局样本特征极值和全局样本数量,进而将全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,统计属于预设样本分箱比例对应的目标特征点两侧的第一样本数量和第二样本数量,进而第一设备在接收各第一样本数量和各第二样本数据之后,即可基于全局样本数量、各第一样本数量和各第二样本数量,即可确定目标分位点在全局中的分位点分布位置,进而基于分位点分布位置,即可确定目标分位点,其中,第一设备在与各第二设备进行交互时,发送的仅仅为样本的数量和样本的特征极值,而不是发送特征数据本身,进而各第二设备不会互相暴露各自的特征数据,进而克服了现有技术中各方在进行联合特征分箱,会互相暴露各自的隐私数据的技术缺陷,进而在联合多方进行特征分箱的同时,实现了对各方的隐私的保护。[0114] 进一步地,参照图2,基于本申请中第一实施例,在本申请的另一实施例中,所述特征分箱方法应用于第二设备,所述特征分箱方法包括:[0115] 步骤A10,获取待分箱样本集对应的样本特征极值和对应的样本数量,并将所述样本特征极值和样本数量发送至第一设备,以供所述第一设备确定全局样本特征极值和全局样本数量;[0116] 在本实施例中,需要说明的是,所述样本数量为所述待分箱样本集中样本的数量,所述样本特征极值包括样本特征最大值和样本特征最小值,所述样本特征最小值为所述待分箱样本集中各样本对应的特征值中的最小特征值,所述样本特征最大值为所述待分箱样本集中各样本对应的特征值中的最大特征值,所述全局样本特征极值包括全局最小值和全局最大值,所述全局最小值为所有参与方的待分箱样本集中各样本对应的特征值中的最小特征值,所述全局最大值未所有参与方的待分箱样本集中各样本对应的特征值中的最大特征值,所述全局样本数量为所有参与方的待分箱样本集的样本的总数,获取待分箱样本集对应的样本特征极值和对应的样本数量,并将所述样本特征极值和样本数量发送至第一设备,以供所述第一设备确定全局样本特征极值和全局样本数量,具体地,获取待分箱样本集对应的样本特征最大值、对应的样本特征最小值以及对应的样本数量,并将所述样本特征最大值、所述样本特征最小值和所述样本数量发送至所述第一设备,以供所述第一设备接收各所述第二设备发送的所述样本特征最大值、所述样本特征最小值和所述样本数量,并在各所述样本特征最大值和各所述样本特征最小值中选取最大的特征值作为全局最大值,在各所述样本特征最大值和各所述样本特征最小值中选取最小的特征值作为全局最小值,并计算各所述样本数量之和,获得全局样本数量。[0117] 步骤A20,接收所述第一设备发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量;[0118] 在本实施例中,接收所述第一设备发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量,具体地,接收所述第一设备发送的所述全局最大值和全局最小值,并基于所述全局最大值和全局最小值以及预设样本分箱比例,计算目标特征值,其中,可选地,所述目标特征值可设置为所述预设样本分箱比例与全局极值和的乘积,其中,所述全局极值和为所述全局最大值和所述全局最小值之和,进而在所述待分箱样本集中统计特征值小于所述目标特征值的样本的数量,获得第一样本数量,在所述待分箱样本集中统计特征值大于所述目标特征值的样本的数量,获得第二样本数量。[0119] 其中,所述全局样本特征极值包括全局最小值和全局最大值,[0120] 所述基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量的步骤包括:[0121] 步骤A21,基于所述全局最小值、全局最大值和所述预设样本分箱比例,计算目标特征值;[0122] 在本实施例中,基于所述全局最小值、全局最大值和所述预设样本分箱比例,计算目标特征值,具体地,计算所述全局最小值和所述全局最大值之和,获得全局极值和,进而基于所述全局极值和与所述预设样本分箱比例之间的乘积,获得目标特征值。[0123] 步骤A22,基于所述目标特征值,对所述待分箱样本集进行特征分箱,获得第一初始分箱和第二初始分箱;[0124] 在本实施例中,基于所述目标特征值,对所述待分箱样本集进行特征分箱,获得第一初始分箱和第二初始分箱,具体地,基于所述目标特征值,对所述待分箱样本集进行特征分箱,将特征值小于所述目标特征值的样本划分至同一分箱,获得第一初始分箱,将特征值大于所述目标特征值的样本划分至同一分箱,获得第二初始分箱。[0125] 步骤A23,统计所述第一初始分箱对应的样本数量,获得第一样本数量,并统计所述第二初始分箱对应的样本数量,获得第二样本数量。[0126] 在本实施例中,统计所述第一初始分箱对应的样本数量,获得第一样本数量,并统计所述第二初始分箱对应的样本数量,获得第二样本数量,具体地,统计所述第一初始分箱中样本的数量,获得第一样本数量,并统计所述第二初始分箱中样本的数量,获得第二样本数量。[0127] 步骤A30,将所述第一样本数量和所述第二样本数量发送至所述第一设备,以供所述第一设备基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定目标分位点。[0128] 在本实施例中,将所述第一样本数量和所述第二样本数量发送至所述第一设备,以供所述第一设备基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定目标分位点,具体地,将所述第一样本数量和所述第二样本数量发送至所述第一设备,以供所述第一设备计算各所述第一样本数量之和,获得第一样本总数,并计算各所述第二样本数量之和,获得第二样本总数,进而基于所述第一样本数量与全局样本数量,计算第一全局样本比例,基于所述第二样本数量与全局样本数量,计算第二全局样本比例,进而基于所述第一样本比例与所述第二样本比例,判断分位点分布位置,进而基于所述分位点分布位置,确定目标分位点。[0129] 本实施例提供了一种特征分箱方法,相比于现有技术采用的互相发送特征数据的方式来进行联合特征分箱的技术手段,本实施例在获取样本特征极值和样本数量之后,将所述样本特征极值和样本数量发送至第一设备,以供第一设备确定全局样本特征极值和全局样本数量,进而第二设备在接收第一设备发送的全局样本特征极值后,基于所述全局样本特征极值和预设样本分箱比例,统计所述预设样本分箱比例对应的目标特征点两侧的第一样本数量和第二样本数量,进而将所述第一样本数量和所述第二样本数量发送至所述第一设备,所述第一设备即可基于各所述第一样本数量、各所述第二样本数量以及全局样本数量,确定分位点分布位置,进而获得目标分位点,其中,第一设备在与各第二设备进行交互时,发送的仅仅为样本的数量和样本的特征极值,而不是发送特征数据本身,进而各第二设备不会互相暴露各自的特征数据,进而克服了现有技术中各方在进行联合特征分箱,会互相暴露各自的隐私数据的技术缺陷,进而在联合多方进行特征分箱的同时,实现了对各方的隐私的保护。[0130] 参照图3,图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。[0131] 如图3所示,该特征分箱设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non‑volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。[0132] 可选地,该特征分箱设备还可以包括矩形用户接口、网络接口、摄像头、RF(RadioFrequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI‑FI接口)。[0133] 本领域技术人员可以理解,图3中示出的特征分箱设备结构并不构成对特征分箱设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。[0134] 如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及特征分箱方法程序。操作系统是管理和控制特征分箱设备硬件和软件资源的程序,支持特征分箱方法程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与特征分箱方法系统中其它硬件和软件之间通信。[0135] 在图3所示的特征分箱设备中,处理器1001用于执行存储器1005中存储的特征分箱方法程序,实现上述任一项所述的特征分箱方法的步骤。[0136] 本申请特征分箱设备具体实施方式与上述特征分箱方法各实施例基本相同,在此不再赘述。[0137] 本申请实施例还提供一种特征分箱装置,所述特征分箱装置应用于特征分箱设备,所述特征分箱装置包括:[0138] 第一确定模块,用于接收各第二设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;[0139] 发送模块,用于将所述全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;[0140] 第二确定模块,用于接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置;[0141] 第三确定模块,用于基于所述分位点分布位置,确定目标分位点。[0142] 可选地,所述第二确定模块包括:[0143] 聚合单元,用于分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数;[0144] 计算单元,用于基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例;[0145] 确定单元,用于基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置。[0146] 可选地,所述确定单元包括:[0147] 计算子单元,用于基于所述第一全局样本比例和所述第二全局样本比例,计算全局目标样本分布比例;[0148] 比对子单元,用于将所述全局目标样本分布比例与所述预设样本分箱比例进行比对;[0149] 第一判定子单元,用于若所述全局目标样本分布比例小于所述预设样本分箱比例,则判定所述分位点分布位置为所述预设样本分箱比例对应的目标特征点的右侧位置;[0150] 第二判定子单元,用于若所述全局目标样本分布比例大于所述预设样本分箱比例,则判定所述分位点分布位置为所述目标特征点的左侧位置。[0151] 可选地,所述第三确定模块包括:[0152] 更新单元,用于基于所述分位点分布位置,确定第二全局样本特征极值;[0153] 迭代计算单元,用于基于所述第二全局样本特征极值,通过与各所述第二设备进行分箱交互,计算第二全局目标样本分布比例,直至所述第二全局目标样本分布比例符合预设迭代计算结束条件,获得所述目标分位点。[0154] 可选地,所述更新单元包括:[0155] 发送子单元,用于将所述分位点分布位置发送至各所述第二设备,以供各所述第二设备基于所述分位点分布位置,对所述样本特征极值进行更新,获得第二样本特征极值;[0156] 聚合子单元,用于接收各所述第二设备发送的第二样本特征极值,并对各所述第二样本特征极值进行聚合,获得第二全局样本特征极值。[0157] 本申请特征分箱装置的具体实施方式与上述特征分箱方法各实施例基本相同,在此不再赘述。[0158] 为实现上述目的,本申请实施例还提供一种特征分箱装置,且所述特征分箱装置应用于第二设备,所述特征分箱装置包括:[0159] 获取模块,用于获取待分箱样本集对应的样本特征极值和对应的样本数量,并将所述样本特征极值和样本数量发送至第一设备,以供所述第一设备确定全局样本特征极值和全局样本数量;[0160] 统计模块,用于接收所述第一设备发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量;[0161] 发送模块,用于将所述第一样本数量和所述第二样本数量发送至所述第一设备,以供所述第一设备基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定目标分位点。[0162] 可选地,所述统计模块包括:[0163] 计算单元,用于基于所述全局最小值、全局最大值和所述预设样本分箱比例,计算目标特征值;[0164] 特征分箱单元,用于基于所述目标特征值,对所述待分箱样本集进行特征分箱,获得第一初始分箱和第二初始分箱;[0165] 统计单元,用于统计所述第一初始分箱对应的样本数量,获得第一样本数量,并统计所述第二初始分箱对应的样本数量,获得第二样本数量。[0166] 本申请特征分箱装置的具体实施方式与上述特征分箱方法各实施例基本相同,在此不再赘述[0167] 以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。
专利地区:广东
专利申请日期:2020-07-29
专利公开日期:2024-07-26
专利公告号:CN111898765B