专利名称:联邦特征选择方法、装置、计算机设备和存储介质
专利类型:实用新型专利
专利申请号:CN202111004505.1
专利申请(专利权)人:中国再保险(集团)股份有限公司
权利人地址:北京市西城区金融大街11号
专利发明(设计)人:王春凯,徐健,冯键
专利摘要:本申请涉及一种联邦特征方法、装置、计算机设备和存储介质。所述方法包括:获取输入的第一样本;将第一样本ID与本地已存的第二样本ID求交,得到共有ID;通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本;对共有ID样本进行特征选择,得到目标数据;对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征。通过预设联邦特征选择则策略保证特征选择过程的安全性以及隐私性,并通过对目标数据特征的迭代优化,提高了联邦特征之间的相关性,进一步提高了联邦特征的准确度。
主权利要求:
1.一种联邦特征选择方法,其特征在于,所述方法包括:
获取输入的第一样本,所述第一样本包括基于可公开验证秘密选择规则获取、且采用预设加密算法以及加密参数加密的公开验证加密样本,所述预设加密算法以及所述加密参数由参与方共有协议确定,所述参与方的数量为至少两个;
将第一样本ID与本地已存的第二样本ID求交,得到共有ID;
若所述参与方的数量为两个,则根据所述可公开验证秘密选择规则从所述公开验证加密样本中获取第一共有ID样本,从所述第二样本中获取第二共有ID样本,将所述第一共有ID样本与所述第二共有ID样本进行合并,得到共有ID样本;
对所述共有ID样本进行特征选择,得到目标数据;
对所述目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征。
2.根据权利要求1所述的方法,其特征在于,第一样本包括基于可验证密钥分享选择规则以及多项式系数的承诺获取的密钥分享加密样本;
所述方法还包括:
若所述参与方的数量大于两个,则根据所述基于可验证密钥分享选择规则获取密钥分片以及所述多项式系数的承诺;
当根据所述密钥分片以及所述多项式系数的承诺验证多项式等式成立时,将所述密钥分片以及所述多项式系数的承诺发送至联邦协调方;
接收所述联邦协调方发送的共有ID样本;其中,所述共有ID样本是协调方根据所有参与方验证通过的密钥分片以及多项式系数的承诺从所述密钥分享加密样本中确定的。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征,包括:计算所述目标数据的特征值;
将所述特征值与预设数据特征规则进行比较,当所述特征值不满足所述预设数据特征规则,则对所述目标数据进行相关性分析,得到目标相关性特征;
根据所述目标相关性特征对所述目标数据进行特征选择,并计算选择后数据的特征值,直至所述选择后数据的特征值满足所述预设数据特征规则,得到联邦特征。
4.根据权利要求3所述的方法,其特征在于,所述特征值包括证据权重、信息值以及群体稳定性;
所述将所述特征值与预设数据特征规则进行比较,当所述特征值不满足所述预设数据特征规则,则对所述目标数据进行相关性分析,得到目标相关性特征,包括:将所述证据权重、信息值以及群体稳定性分别与对应的预设数据特征规则进行比较,当所述证据权重、信息值以及群体稳定性中任一不满足所述对应的预设数据特征规则,则对所述目标数据进行相关性分析,得到目标相关性特征。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述第二样本的确定过程,包括:获取所述第二样本的原始数据;
对所述原始数据进行预处理,得到预处理后的数据;
对所述预处理后的数据进行相关性分析,得到特征数据;
根据特征数据的特征对所述特征数据进行分箱,得到所述第二样本。
6.一种联邦特征选择装置,其特征在于,所述装置包括:
第一获取模块,用于获取输入的第一样本,所述第一样本包括基于可公开验证秘密选择规则获取、且采用预设加密算法以及加密参数加密的公开验证加密样本,所述预设加密算法以及所述加密参数由参与方共有协议确定,所述参与方的数量为至少两个;
求交模块,用于将第一样本ID与本地已存的第二样本ID求交,得到共有ID;
第二获取模块,用于若所述参与方的数量为两个,则根据所述可公开验证秘密选择规则从所述公开验证加密样本中获取第一共有ID样本,从所述第二样本中获取第二共有ID样本,将所述第一共有ID样本与所述第二共有ID样本进行合并,得到共有ID样本;
特征选择模块,用于对所述共有ID样本进行特征选择,得到目标数据;
优化模块,用于对所述目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征。
7.根据权利要求6所述的装置,其特征在于,第一样本包括基于可验证密钥分享选择规则以及多项式系数的承诺获取的密钥分享加密样本;
所述第二获取模块,还用于若所述参与方的数量大于两个,则根据所述基于可验证密钥分享选择规则获取密钥分片以及所述多项式系数的承诺,当根据所述密钥分片以及所述多项式系数的承诺验证多项式等式成立时,将所述密钥分片以及所述多项式系数的承诺发送至联邦协调方,接收所述联邦协调方发送的共有ID样本;其中,所述共有ID样本是协调方根据所有参与方验证通过的密钥分片以及多项式系数的承诺从所述密钥分享加密样本中确定的。
8.根据权利要求6所述的装置,其特征在于,所述优化模块,还用于计算所述目标数据的特征值,将所述特征值与预设数据特征规则进行比较,当所述特征值不满足所述预设数据特征规则,则对所述目标数据进行相关性分析,得到目标相关性特征,根据所述目标相关性特征对所述目标数据进行特征选择,并计算选择后数据的特征值,直至所述选择后数据的特征值满足所述预设数据特征规则,得到联邦特征。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。 说明书 : 联邦特征选择方法、装置、计算机设备和存储介质技术领域[0001] 本申请涉及数据挖掘技术领域,特别是涉及一种联邦特征选择方法、装置、计算机设备和存储介质。背景技术[0002] 数据是机器学习的基础。而在大多数行业中,由于行业竞争、隐私安全等问题、数据常常是以孤岛的形式存在的,甚至即使是在同一个公司的不同部门之间实现数据集中整合也面临着重重阻力。同时,对用户数据隐私和安全管理的保护日趋严格。[0003] 针对数据孤岛和安全隐私,目前已有基于联邦学习的方法来解决。[0004] 然而,目前的联邦特征的准确度不高。发明内容[0005] 基于此,有必要针对上述技术问题,提供一种能够提高联邦特征准确度的联邦特征选择方法、装置、计算机设备和存储介质。[0006] 第一方面,提供了一种联邦特征选择方法,该方法包括:[0007] 获取输入的第一样本;[0008] 将第一样本ID与本地已存的第二样本ID求交,得到共有ID;[0009] 通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本;[0010] 对共有ID样本进行特征选择,得到目标数据;[0011] 对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征。[0012] 在其中一个实施例中,通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本,包括:根据参与方的个数确定联邦特征选择规则;根据联邦特征选择规则在第一样本和第二样本中获取共有ID样本。[0013] 在其中一个实施例中,参与方的数量为至少两个,第一样本为基于可公开验证秘密选择规则获取、且采用预设加密算法以及加密参数加密的公开验证加密样本,预设加密算法以及加密参数由参与方共有协议确定;[0014] 相应的,根据参与方的个数确定联邦特征选择规则,根据联邦特征选择规则在第一样本和第二样本中获取共有ID样本,包括:若参与方的数量为两个,则根据可公开验证秘密选择规则从公开验证加密样本中获取第一共有ID样本;从第二样本中获取第二共有ID样本;将第一共有ID样本与第二共有ID样本进行合并,得到共有ID样本。[0015] 在其中一个实施例中,参与方的数量为至少两个,第一样本为基于可验证密钥分享选择规则以及多项式系数的承诺获取的密钥分享加密样本;该方法还包括:若参与方的数量大于两个,则根据基于可验证密钥分享选择规则获取密钥分片以及多项式系数的承诺;当根据密钥分片以及多项式系数的承诺验证多项式等式成立时,将密钥分片以及多项式系数的承诺发送至联邦协调方;接收联邦协调方发送的共有ID样本;其中,共有ID样本是协调方根据所有参与方验证通过的密钥分片以及多项式系数的承诺从密钥分享加密样本中确定的。[0016] 在其中一个实施例中,对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征,包括:计算目标数据的特征值;将特征值与预设数据特征规则进行比较,当特征值不满足预设数据特征规则,则对目标数据进行相关性分析,得到目标相关性特征;根据目标相关性特征对目标数据进行特征选择,并计算选择后数据的特征值,直至选择后数据的特征值满足预设数据特征规则,得到联邦特征。[0017] 在其中一个实施例中,特征值包括证据权重、信息值以及群体稳定性;将特征值与预设数据特征规则进行比较,当特征值不满足预设数据特征规则,则对目标数据进行相关性分析,得到目标相关性特征,包括:将证据权重、信息值以及群体稳定性分别与对应的预设数据特征规则进行比较,当证据权重、信息值以及群体稳定性中任一不满足对应的预设数据特征规则,则对目标数据进行相关性分析,得到目标相关性特征。[0018] 在其中一个实施例中,第二样本的确定过程,包括:获取第二样本的原始数据;对原始数据进行预处理,得到预处理后的数据;对预处理后的数据进行相关性分析,得到特征数据;根据特征数据的特征对特征数据进行分箱,得到第二样本。[0019] 第二方面,提供了一种联邦特征选择装置,该装置包括:[0020] 第一获取模块,用于获取输入的第一样本;[0021] 求交模块,用于将第一样本ID与本地已存的第二样本ID求交,得到共有ID;[0022] 第二获取模块,用于通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本;[0023] 特征选择模块,用于对共有ID样本进行特征选择,得到目标数据;[0024] 优化模块,用于对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征。[0025] 第三方面,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:[0026] 获取输入的第一样本;[0027] 将第一样本ID与本地已存的第二样本ID求交,得到共有ID;[0028] 通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本;[0029] 对共有ID样本进行特征选择,得到目标数据;[0030] 对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征。[0031] 第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:[0032] 获取输入的第一样本;[0033] 将第一样本ID与本地已存的第二样本ID求交,得到共有ID;[0034] 通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本;[0035] 对共有ID样本进行特征选择,得到目标数据;[0036] 对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征。[0037] 上述联邦特征方法、装置、计算机设备和存储介质,获取输入的第一样本;将第一样本ID与本地已存的第二样本ID求交,得到共有ID;通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本;对共有ID样本进行特征选择,得到目标数据;对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征。通过预设联邦特征选择则策略保证特征选择过程的安全性以及隐私性,并通过对目标数据特征的迭代优化,提高了联邦特征之间的相关性,进一步提高了联邦特征的准确度。附图说明[0038] 图1为一个实施例中联邦特征选择方法的应用环境图;[0039] 图2为一个实施例中可公开验证秘密选择规则的流程示意图;[0040] 图3为一个实施例中可验证密钥分享选择规则的流程示意图;[0041] 图4为一个实施例中联邦特征选择方法的整体流程示意图;[0042] 图5为一个实施例中联邦特征选择装置的结构框图;[0043] 图6为一个实施例中计算机设备的内部结构图。具体实施方式[0044] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。[0045] 在一个实施例中,如图1所示,提供了一种联邦特征选择方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:[0046] 步骤102,获取输入的第一样本。[0047] 其中,第一样本包括第一样本ID与第一样本的其他特征数据。[0048] 具体地,终端获取参与方输入的第一样本ID与第一样本的其他特征数据。[0049] 步骤104,将第一样本ID与本地已存的第二样本ID求交,得到共有ID。[0050] 具体地,从第一样本中通过非对称加密算法提取第一样本ID,将第一样本ID与本地已存的第二样本ID求交,得到第一样本ID与第二样本ID的交集,即共有ID。[0051] 步骤106,通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本。[0052] 具体地,终端根据预设联邦特征选择策略从第一样本的其他特征数据与本地已存的第二样本的其他特征数据中获取共有ID样本。[0053] 步骤108,对共有ID样本进行特征选择,得到目标数据。[0054] 具体地,终端根据共有ID样本的特征进行特征选择,将特征选择得到的数据作为目标数据。[0055] 步骤110,对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征。[0056] 具体地,终端计算目标数据的特征值,当目标数据的特征值不满足预设数据特征规则,则根据目标数据重新提取特征,直到目标数据的特征值满足预设的数据特征规则,得到联邦特征。[0057] 上述联邦特征选择方法中,获取输入的第一样本;将第一样本ID与本地已存的第二样本ID求交,得到共有ID;通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本;对共有ID样本进行特征选择,得到目标数据;对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征。通过预设联邦特征选择则策略保证特征选择过程的安全性以及隐私性,并通过对目标数据特征的迭代优化,提高了联邦特征之间的相关性,进一步提高了联邦特征的准确度。[0058] 在一个可选的实施例中,通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本,包括:根据参与方的个数确定联邦特征选择规则;根据联邦特征选择规则在第一样本和第二样本中获取共有ID样本。[0059] 具体地,终端根据参与方的数量从预设联邦特征选择策略中选择对应的联邦特征选择规则,并根据对应的联邦特征选择规则从第一样本的其他特征数据与本地已存的第二样本的其他特征数据中获取共有ID样本。[0060] 在一个可选的实施例中,根据参与方的个数确定联邦特征选择规则,根据联邦特征选择规则在第一样本和第二样本中获取共有ID样本,包括:若参与方的数量为两个,则根据可公开验证秘密选择规则从公开验证加密样本中获取第一共有ID样本;从第二样本中获取第二共有ID样本;将第一共有ID样本与第二共有ID样本进行合并,得到共有ID样本。[0061] 其中,参与方的数量为至少两个,第一样本为基于可公开验证秘密选择规则获取、且采用预设加密算法以及加密参数加密的公开验证加密样本,预设加密算法以及加密参数由参与方共有协议确定。[0062] 具体地,当参与方的数量为两个,则根据可公开验证秘密选择规则从第一样本中获取公开验证加密样本,如图2所示,终端根据共有样本ID从参与方发送的公开验证加密样本中获取第一共有ID样本。例如,参与方A和参与方B的表结构可以如表1和表2所示:[0063] 表1两方安全计算中参与方A的表结构[0064][0065] 表2两方安全计算中参与方B的表结构[0066][0067] 其中,Fa1‑Fam为参与方A的特征,Y为特征对应的标签,用于进行数据预测。Fb1‑Fbn为参与方B的特征。[0068] 两个参与方A和B各自提供数据第一样本a、第二样本b,预设加密算法的加密函数为F(a,b),加密参数为威慑因子,以威慑因子=50%为例,两方可公开验证秘密(PublicVerifiableCovert,PVC)选择规则的具体描述:[0069] 1)参与方A选择两个随机种子s1和s2,参与方A和B运行不经意传输机制,随机选择其中一个种子(假设B获取了s1);[0070] 2)参与方A试用混淆电路加密方法,分别将s1和s2加密生成GC1(GarbledCircuit,混淆电路1)和GC2;[0071] 3)参与方B和A运行不经意传输获取GC1中B输入wire的加密值(可以看到GC1不会真正被使用,因此这里可以不与b对应,比如是任意常数值的密文);[0072] 4)参与方B和A运行不经意传输获取GC2中B输入wire对应的b的加密值;[0073] 5)参与方A对GC1进行Hash,并把Hash发给B;[0074] 6)参与方A对GC2进行Hash,并把Hash发给B;[0075] 7)参与方A对上述所有流程进行签名,并把签名发送给B;[0076] 8)参与方B由于有s1,因此可以自行生成GC1,可以自己模拟第3步和第5步;如果结果与A发的不一致,则公布相关签名作为A作恶证据。如果一致,就用GC2进行真实计算,得到共有ID样本。[0077] 由此可见,参与方A如果作恶,总有50%的概率被B抽查到(因为A不知道B到底掌握了哪个GC的随机种子)。因此理性的A会选择不作恶,忠实的执行安全多方计算协议。本实施例中,通过两方可公开验证秘密的规则获取共有ID样本,保证了传输过程的安全性与隐私性,进一步提高了联邦特征选择的安全性。[0078] 在一个可选的实施例中,该方法还包括:若参与方的数量大于两个,则根据基于可验证密钥分享选择规则获取密钥分片以及多项式系数的承诺;当根据密钥分片以及多项式系数的承诺验证多项式等式成立时,将密钥分片以及多项式系数的承诺发送至联邦协调方;接收联邦协调方发送的共有ID样本。[0079] 其中,共有ID样本是协调方根据所有参与方验证通过的密钥分片以及多项式系数的承诺从密钥分享加密样本中确定的。[0080] 其中,参与方的数量为至少两个,第一样本为基于可验证密钥分享选择规则以及多项式系数的承诺获取的密钥分享加密样本。[0081] 具体地,当参与方的数量为三个或者三个以上,则根据可验证密钥分享选择规则获取密钥分片、多项式系数的承诺以及多方加密参数,多方加密参数包括分割密钥、大素数因子、门限值、分享者的数量。根据密钥分片、多项式系数的承诺验证以及多方加密参数对多项式等式进行验证,当多项式等式成立时,将密钥分片以及多项式系数的承诺发送至联邦协调方。通过联邦协调方根据拉格朗日多项式插值的方法计算出共有ID样本,联邦协调方将共有ID样本发送给终端,终端获取联邦协调方发送的共有ID样本。[0082] 例如,参与方A和参与方B的表结构可以如表3‑表5所示:[0083] 表3多方安全计算中参与方X的表结构[0084][0085] 表4多方安全计算中参与方Y的表结构[0086][0087] 表5多方安全计算中参与方Z的表结构[0088][0089] 其中,Fx1‑Fxm为参与方X的特征,Y为特征对应的标签,用于进行数据预测。Fy1‑Fyn为参与方Y的特征,Fz1‑Fzo为参与方Y的特征。[0090] 如图3所示,分割密钥p是长度不小于512比特的大素数;q是p‑1长度不小于160比*特的大素数因子;g是Zp中的一个q阶元素;k是门限值,n是参与方的数量。密钥分片、多项式系数的承诺以及多方加密参数在多个参与方之间都是公开的,具体的可验证密钥分享选择规则如下:[0091] 1)共享分发:首先,联邦协调方在Zp上随机选择一个k‑1次多项式f(x)=a0x0+a1x1+…+ak‑1xk‑1,并令密钥分片a0=s为要分享的秘密。其次,把sj=f(j)modq作为分享秘密,秘ai密地发送给其他参与方Pj(j=1,2,…,n)。另外,计算并广播多项式系数的承诺ai=g modp(i=0,1,2,…,k‑1)。其中,g为循环群的生成元。[0092] 2)共享验证:每一个参与方Pj验证是否如果等式不成立,那么Pj所收到的共享秘密sj是无效的。[0093] 3)秘密恢复:当k个或多于k个参与者合作恢复秘密时,每一参与者Pj向其他合作者广播自己的共享秘密sj。当所有合作者的共享都被验证为有效时,合作者可根据拉格朗日多项式插值的方法计算出秘密s。[0094] 可验证密钥分享可抵抗(n‑1)/2个恶意的参与者,由于gs=ga0modp被公开,因此计算过程是安全的。[0095] 本实施例中,通过多方安全计算的可验证密钥分享选择规则获取共有ID样本,减少了两两参与方数据传递的不确定性以及安全性,提高了数据传输的安全性与效率,进一步提高了联邦特征选择的安全性、准确性以及效率。[0096] 在一个可选的实施例中,对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征,包括:计算目标数据的特征值;将特征值与预设数据特征规则进行比较,当特征值不满足预设数据特征规则,则对目标数据进行相关性分析,得到目标相关性特征;根据目标相关性特征对目标数据进行特征选择,并计算选择后数据的特征值,直至选择后数据的特征值满足预设数据特征规则,得到联邦特征。[0097] 具体地,终端将目标数据输入预测模型中进行标签预测,将预测正确的样本作为正常样本,将预设错误的样本作为违约样本。根据正常样本、违约样本计算目标数据的特征值。并将目标数据的特征值与预设数据特征规则进行比较,当目标数据的特征值未达到预设数据特征规则,则对目标数据进行相关性分析,将相关性系数高与预设的特征作为目标相关性特征,根据目标相关性特征对目标数据进行特征选择,并重新计算选择后数据的特征值,当选择后特征的特征值满足预设数据特征规则,得到联邦特征。[0098] 本实施例中,通过对目标数据的特征迭代优化,使得被选择的联邦特征之间的相关性较强,选择的联邦特征的准确性较高,若根据选择的联邦特征进行标签预测,标签预测的准确率更高。[0099] 在一个可选的实施例中,将特征值与预设数据特征规则进行比较,当特征值不满足预设数据特征规则,则对目标数据进行相关性分析,得到目标相关性特征,包括:将证据权重、信息值以及群体稳定性分别与对应的预设数据特征规则进行比较,当证据权重、信息值以及群体稳定性中任一不满足对应的预设数据特征规则,则对目标数据进行相关性分析,得到目标相关性特征。[0100] 其中,特征值包括证据权重、信息值以及群体稳定性。预设数据特征规则包括前后两次计算的目标函数的证据权重单调下降、目标数据的信息值达到预设的信息阈值以及目标数据的群体稳定性达到预设的稳定值。[0101] 具体地,根据正常样本、违约样本计算目标数据的证据权重、信息值以及群体稳定性。判断目标数据的证据权重是否单调下降、目标数据的信息值是否达到预设的信息阈值,以及目标数据的群体稳定性是否达到预设的稳定值。当目标数据的证据权重、信息值以及群体稳定性中任一特征值未达到预设数据特征规则,则对目标数据进行相关性分析,得到目标相关性特征。[0102] 证据权重(WeightofEvidence,WOE)是一种衡量正常样本(Good)和违约样本(Bad)分布的差异方法。具体地计算公式如下:[0103] WOE=∑ln(Goodi/Goodtotal)/(Badi/Badtotal))。[0104] 其中,Goodi表示第i个分箱中正常样本的数目,Goodtotal表示共有ID样本中正常样本的总数目,Badi表示第i个分箱中违约样本的数目,Badtotal表示共有ID样本中违约样本的总数目。[0105] 信息值(InformationValue,IV)用来表示每一个样本对共有ID样本来说有多少“信息”的量。[0106] IV=∑WOE*(Goodi/Goodtotal‑Badi/Badtotal)。[0107] 本实施例中可以选择0.3作为预设的信息阈值,当IV>0.3时达到预设的信息阈值。[0108] 群体稳定性(PopulationStabilityIndex,PSI)反映了验证样本在各分箱中的分布与建模样本分布的稳定性。在建模中,可用于筛选特征变量、评估模型稳定性。[0109] PSI=SUM((实际分布占比‑预期分布占比)*ln(实际分布占比/预期分布占比))。[0110] 本实施例中可以选择0.25作为预设的稳定值,当PSI<0.25时达到预设的稳定值。在一个可选的实施例中,第二样本的确定过程,包括:获取第二样本的原始数据;对原始数据进行预处理,得到预处理后的数据;对预处理后的数据进行相关性分析,得到特征数据;根据特征数据的特征对特征数据进行分箱,得到第二样本。[0111] 其中,第二样本的原始数据是存储在终端数据库中的需要进行联邦特征选择的原始数据。[0112] 具体地,从终端数据库中获取需要进行联邦特征选择的原始数据;并对原始数据进行数据字段选择、格式转换以及数据整合等预处理,得到预处理后的数据;之后,对预处理后的数据进行相关性分析,将相关性系数大于预设相关性阈值的特征提取出来,得到特征数据。[0113] 进一步地,终端根据联邦特征选择要求从本地数据库中根据数据字段提取数据,并将提取到的数据进行格式转换,使得转换后的数据格式与预设的格式要求一致,之后,将格式转换后的数据存入特征库中。利用PCA主成分分析和LDA线性判别分析对特征库中的数据进行相关性分析,得到不同数据的特征,按照连续性特征、离散型特征对数据进行分箱,得到第二样本。[0114] 数据分箱用于减少次要观察误差的影响,是一种将多个连续值分组为较少数量的“分箱”的过程。一般在建立机器学习模型时,需要对特征变量离散化。特征离散化后,模型会更稳定,降低了模型过拟合的风险。对连续型数据类型使用无监督学习的等距分箱进行划分。从最小值到最大值之间,均分为N等份,这样,如果A,B为最小最大值,则每个区间的长度为W=(B‑A)/N,则区间边界值为A+W,A+2W,…A+(N‑1)W。对离散型数据类型使用有监督学习的卡方分箱进行划分,自底向上的(即基于合并的)数据离散化方法。该方法依赖于卡方检验,即具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则,以提升处理空值属性的能力。[0115] 第一样本是参与方在参与方数据库中对第一样本的原始数据进行预处理、相关性分析以及分箱得到的,具体地处理过程与第二样本的处理过程相同,在此不再赘述。[0116] 本实施例中,通过对原始数据进行预处理、相关性分析以及分箱处理,提取原始数据的特征信息以及特征之间的相关性,可以为联邦特征提取提供更加准确的特征数据,进一步提高联邦特征选择的准确性。[0117] 为了易于理解本申请实施例提供的技术方案,以完整的联邦特征选择过程对本申请实施例提供的联邦特征选择方法进行简要说明:[0118] (1)获取第二样本的原始数据;对原始数据进行预处理,得到预处理后的数据;对预处理后的数据进行相关性分析,得到特征数据;根据特征数据的特征对特征数据进行分箱,得到第二样本。[0119] (2)获取输入的第一样本。[0120] (3)将第一样本ID与本地已存的第二样本ID求交,得到共有ID。[0121] (4)通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本。[0122] (5)对共有ID样本进行特征选择,得到目标数据。[0123] (6)对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征。[0124] 应该理解的是,虽然图1‑4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1‑4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。[0125] 在一个实施例中,如图5所示,提供了一种联邦特征选择装置,包括:第一获取模块502、求交模块504、第二获取模块506、特征选择模块508和优化模块510,其中:[0126] 第一获取模块502,用于获取输入的第一样本。[0127] 求交模块504,用于将第一样本ID与本地已存的第二样本ID求交,得到共有ID。[0128] 第二获取模块506,用于通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本。[0129] 特征选择模块508,用于对共有ID样本进行特征选择,得到目标数据。[0130] 优化模块510,用于对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征。[0131] 在一个实施例中,第二获取模块506还用于根据参与方的个数确定联邦特征选择规则;根据联邦特征选择规则在第一样本和第二样本中获取共有ID样本。[0132] 在一个实施例中,参与方的数量为至少两个,第一样本为基于可公开验证秘密选择规则获取、且采用预设加密算法以及加密参数加密的公开验证加密样本,预设加密算法以及加密参数由参与方共有协议确定;第二获取模块506还用于若参与方的数量为两个,则根据可公开验证秘密选择规则从公开验证加密样本中获取第一共有ID样本;从第二样本中获取第二共有ID样本;将第一共有ID样本与第二共有ID样本进行合并,得到共有ID样本。[0133] 在一个实施例中,参与方的数量为至少两个,第一样本为基于可验证密钥分享选择规则以及多项式系数的承诺获取的密钥分享加密样本;第二获取模块506还用于若参与方的数量大于两个,则根据基于可验证密钥分享选择规则获取密钥分片以及多项式系数的承诺;当根据密钥分片以及多项式系数的承诺验证多项式等式成立时,将密钥分片以及多项式系数的承诺发送至联邦协调方;接收联邦协调方发送的共有ID样本;其中,共有ID样本是协调方根据所有参与方验证通过的密钥分片以及多项式系数的承诺从密钥分享加密样本中确定的。[0134] 在一个实施例中,优化模块510还用于计算目标数据的特征值;将特征值与预设数据特征规则进行比较,当特征值不满足预设数据特征规则,则对目标数据进行相关性分析,得到目标相关性特征;根据目标相关性特征对目标数据进行特征选择,并计算选择后数据的特征值,直至选择后数据的特征值满足预设数据特征规则,得到联邦特征。[0135] 在一个实施例中,特征值包括证据权重、信息值以及群体稳定性;优化模块510还用于将证据权重、信息值以及群体稳定性分别与对应的预设数据特征规则进行比较,当证据权重、信息值以及群体稳定性中任一不满足对应的预设数据特征规则,则对目标数据进行相关性分析,得到目标相关性特征。[0136] 在一个实施例中,联邦特征选择装置还包括第二样本确定模块,用于获取第二样本的原始数据;对原始数据进行预处理,得到预处理后的数据;对预处理后的数据进行相关性分析,得到特征数据;根据特征数据的特征对特征数据进行分箱,得到第二样本。[0137] 关于联邦特征选择装置的具体限定可以参见上文中对于联邦特征选择方法的限定,在此不再赘述。上述联邦特征选择装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。[0138] 在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种联邦特征选择方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。[0139] 本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。[0140] 在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:[0141] 获取输入的第一样本;[0142] 将第一样本ID与本地已存的第二样本ID求交,得到共有ID;[0143] 通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本;[0144] 对共有ID样本进行特征选择,得到目标数据;[0145] 对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征。[0146] 在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本,包括:根据参与方的个数确定联邦特征选择规则;根据联邦特征选择规则在第一样本和第二样本中获取共有ID样本。[0147] 在一个实施例中,处理器执行计算机程序时还实现以下步骤:参与方的数量为至少两个,第一样本为基于可公开验证秘密选择规则获取、且采用预设加密算法以及加密参数加密的公开验证加密样本,预设加密算法以及加密参数由参与方共有协议确定;相应的,根据参与方的个数确定联邦特征选择规则,根据联邦特征选择规则在第一样本和第二样本中获取共有ID样本,包括:若参与方的数量为两个,则根据可公开验证秘密选择规则从公开验证加密样本中获取第一共有ID样本;从第二样本中获取第二共有ID样本;将第一共有ID样本与第二共有ID样本进行合并,得到共有ID样本。[0148] 在一个实施例中,处理器执行计算机程序时还实现以下步骤:参与方的数量为至少两个,第一样本为基于可验证密钥分享选择规则以及多项式系数的承诺获取的密钥分享加密样本;该方法还包括:若参与方的数量大于两个,则根据基于可验证密钥分享选择规则获取密钥分片以及多项式系数的承诺;当根据密钥分片以及多项式系数的承诺验证多项式等式成立时,将密钥分片以及多项式系数的承诺发送至联邦协调方;接收联邦协调方发送的共有ID样本;其中,共有ID样本是协调方根据所有参与方验证通过的密钥分片以及多项式系数的承诺从密钥分享加密样本中确定的。[0149] 在一个实施例中,处理器执行计算机程序时还实现以下步骤:对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征,包括:计算目标数据的特征值;将特征值与预设数据特征规则进行比较,当特征值不满足预设数据特征规则,则对目标数据进行相关性分析,得到目标相关性特征;根据目标相关性特征对目标数据进行特征选择,并计算选择后数据的特征值,直至选择后数据的特征值满足预设数据特征规则,得到联邦特征。[0150] 在一个实施例中,处理器执行计算机程序时还实现以下步骤:特征值包括证据权重、信息值以及群体稳定性;将特征值与预设数据特征规则进行比较,当特征值不满足预设数据特征规则,则对目标数据进行相关性分析,得到目标相关性特征,包括:将证据权重、信息值以及群体稳定性分别与对应的预设数据特征规则进行比较,当证据权重、信息值以及群体稳定性中任一不满足对应的预设数据特征规则,则对目标数据进行相关性分析,得到目标相关性特征。[0151] 在一个实施例中,处理器执行计算机程序时还实现以下步骤:第二样本的确定过程,包括:获取第二样本的原始数据;对原始数据进行预处理,得到预处理后的数据;对预处理后的数据进行相关性分析,得到特征数据;根据特征数据的特征对特征数据进行分箱,得到第二样本。[0152] 在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:[0153] 获取输入的第一样本;[0154] 将第一样本ID与本地已存的第二样本ID求交,得到共有ID;[0155] 通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本;[0156] 对共有ID样本进行特征选择,得到目标数据;[0157] 对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征。[0158] 在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本,包括:根据参与方的个数确定联邦特征选择规则;根据联邦特征选择规则在第一样本和第二样本中获取共有ID样本。[0159] 在一个实施例中,计算机程序被处理器执行时还实现以下步骤:参与方的数量为至少两个,第一样本为基于可公开验证秘密选择规则获取、且采用预设加密算法以及加密参数加密的公开验证加密样本,预设加密算法以及加密参数由参与方共有协议确定;相应的,根据参与方的个数确定联邦特征选择规则,根据联邦特征选择规则在第一样本和第二样本中获取共有ID样本,包括:若参与方的数量为两个,则根据可公开验证秘密选择规则从公开验证加密样本中获取第一共有ID样本;从第二样本中获取第二共有ID样本;将第一共有ID样本与第二共有ID样本进行合并,得到共有ID样本。[0160] 在一个实施例中,计算机程序被处理器执行时还实现以下步骤:参与方的数量为至少两个,第一样本为基于可验证密钥分享选择规则以及多项式系数的承诺获取的密钥分享加密样本;该方法还包括:若参与方的数量大于两个,则根据基于可验证密钥分享选择规则获取密钥分片以及多项式系数的承诺;当根据密钥分片以及多项式系数的承诺验证多项式等式成立时,将密钥分片以及多项式系数的承诺发送至联邦协调方;接收联邦协调方发送的共有ID样本;其中,共有ID样本是协调方根据所有参与方验证通过的密钥分片以及多项式系数的承诺从密钥分享加密样本中确定的。[0161] 在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征,包括:计算目标数据的特征值;将特征值与预设数据特征规则进行比较,当特征值不满足预设数据特征规则,则对目标数据进行相关性分析,得到目标相关性特征;根据目标相关性特征对目标数据进行特征选择,并计算选择后数据的特征值,直至选择后数据的特征值满足预设数据特征规则,得到联邦特征。[0162] 在一个实施例中,计算机程序被处理器执行时还实现以下步骤:特征值包括证据权重、信息值以及群体稳定性;将特征值与预设数据特征规则进行比较,当特征值不满足预设数据特征规则,则对目标数据进行相关性分析,得到目标相关性特征,包括:将证据权重、信息值以及群体稳定性分别与对应的预设数据特征规则进行比较,当证据权重、信息值以及群体稳定性中任一不满足对应的预设数据特征规则,则对目标数据进行相关性分析,得到目标相关性特征。[0163] 在一个实施例中,计算机程序被处理器执行时还实现以下步骤:第二样本的确定过程,包括:获取第二样本的原始数据;对原始数据进行预处理,得到预处理后的数据;对预处理后的数据进行相关性分析,得到特征数据;根据特征数据的特征对特征数据进行分箱,得到第二样本。[0164] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read‑OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(RandomAccessMemory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(StaticRandomAccessMemory,SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,DRAM)等。[0165] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。[0166] 以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
专利地区:北京
专利申请日期:2021-08-30
专利公开日期:2024-06-18
专利公告号:CN113807415B