专利名称:一种基于联邦学习的目标检测标签自动标注方法
专利类型:发明专利
专利申请号:CN202210612879.X
专利申请(专利权)人:西安翔迅科技有限责任公司
权利人地址:陕西省西安市锦业二路15号中航工业西安计算技术研究所1号厂房112室
专利发明(设计)人:吴树丽,李刚
专利摘要:本发明涉及一种人工智能的自动标注方法,具体涉及一种基于联邦学习的目标检测标签自动标注方法。解决了现有自动标注方法存在参与方部署模型的准确度和泛化性不够理想,导致标签自动标注效果差的技术问题。本发明自动标注方法包括以下步骤:1)待标注的参与方选取少量样本进行人工标注;2)分别利用初版预训练模型进行训练,得到本地模型权重;3)分别将本地模型权重加密并发送给中央服务器;4)进行安全聚合操作,得到更新权重并下发给各参与方;5)通过下发的更新权重对本地模型权重进行更新;6)循环步骤3)至步骤5),直至得到最终目标检测模型;7)待标注的参与方利用最终目标检测模型对全部待标注数据进行自动标注。
主权利要求:
1.一种基于联邦学习的目标检测标签自动标注方法,其特征在于,包括以下步骤:步骤1)待标注的参与方从所有待标注样本中选取占比为5%~10%的样本,要求选取的样本与所有待标注样本保持独立同分布,然后对选取的样本进行人工标注;其余参与方的所有样本事先均已经过人工标注;
步骤2)各参与方分别利用初版预训练模型对人工标注的样本进行训练得到本地模型权重;所述初版预训练模型的获取方式为,各参与方分别从中央服务器下载得到;
步骤3)各参与方分别使用加密技术对本地模型权重进行加密,并将加密信息发送给中央服务器;
步骤4)中央服务器对收到的本地模型权重通过改进的联邦学习方法进行安全聚合操作,得到安全聚合后的更新权重并下发给各参与方;所述改进的联邦学习方法为:为安全聚合后的更新权重;
K为总的参与方个数,K≥2;k为参与方序号,1≤k≤K;
qk=(1‑pk)pk; nk为第k个参与方的样本数量,n为总的样本数量;
为第k个参与方的本地模型权重;
t为更新轮次;
步骤5)各参与方对收到的安全聚合后的更新权重进行解密,以解密的安全聚合后的更新权重为预训练模型,使用本地数据执行梯度下降,更新本地模型权重,并计算更新后的损失函数;
步骤6)循环步骤3)至步骤5),直至损失函数收敛或达到预设迭代次数,得到最终目标检测模型;所述预设迭代次数由当前待标注的参与方与其它参与方的样本数量关系确定:a、如果待标注的参与方的样本量与其它所有参与方的样本量没有数量级上的差别,则预设迭代次数应≥2;
b、如果待标注的参与方的样本量与其它参与方中任意一个的样本量之间有数量级上的差别,则预设迭代次数应≥3;
所述数量级上的差别是指待标注的参与方的样本量与其它任意一个参与方的样本量差距在10倍以上;
步骤7)待标注的参与方利用得到的最终目标检测模型对全部待标注数据进行自动标注。 说明书 : 一种基于联邦学习的目标检测标签自动标注方法技术领域[0001] 本发明涉及一种人工智能的自动标注方法,具体涉及一种基于联邦学习的目标检测标签自动标注方法。背景技术[0002] 随着一系列技术上的突破,人工智能已经进入了世界科技领域发展的快车道,并逐渐在千行百业落地应用。作为人工智能技术的三要素之一,高质量的标注数据历来是各大人工智能公司最宝贵的财富,其重要性甚至超过了算法和算力。该技术应用于安全生产智能监管产品中,属于智能监管业务方向。[0003] 数据标注工作在人工智能技术发展早期主要是由AI算法工程师在实验室中完成。随着人工智能技术落地越来越广泛,待标注的数据呈“指数型”增长,工程师完成数据标注所需要投入的时间和精力也越来越多,基于此,一些专业从事数据标注的平台和公司应运而生。目前主流的数据标注工作都需要依赖人工来完成,需要花费大量的时间和人力成本,不利于大规模人工智能业务的快速部署。[0004] 目标检测自动标注的基本原理是通过高准确率、强泛化性的深度学习模型,对待标注的数据进行推理,得到待检测目标框,代替人工标注的目标框。对于同一类人工智能模型来说,所能获取的数据量越大、样本数越多,模型的准确率和泛化性就越好,然而出于对数据安全和隐私的保护,不论是研究目的还是工程应用,各个公司和部门之间经常存在较高的数据壁垒,导致数据常常以孤岛的形式出现,难以将数据收集起来用于集中学习。当某一参与方的标注数据较少时,利用本地学习训练的模型准确率和泛化性不足,用于自动标注时效果较差。因此,引进联邦学习方法,并对其中的模型平均方法进行改进,在各参与方的数据无法共享的情况下,提升模型的准确率和泛化性。[0005] 目标检测的自动标注模型对准确率一般要求较高(通常要达到90%以上),与此同时还要求模型的泛化性要好,能够直接部署到不同的用户现场。准确率的提升可以通过获取大量的数据来实现,而泛化性的提升就要求数据的多样性要强。然而实际应用中由于各参与方之间的隐私保护,收集各参与方的多样本数据到中央服务器集中训练模型是比较困难的,这样就会造成以下情况:参与方1存在大量有标签的数据,但由于场景的不同,利用参与方1的数据训练的模型在参与方2的数据上进行自动标注的泛化性不足;参与方2只有少量标签数据,直接使用参与方2训练的模型进行自动标注效果又很差,模型准确率太低。而联邦学习使多个参与者能够在不共享数据的情况下建立一个共同的、强大的机器学习模型,从而解决数据隐私、数据安全、数据访问权限和异构数据访问等关键问题。在标准的联邦学习处理过程中,中央服务器在收到各个参与方的本地模型权重进行聚合时,采用的是样本量加权平均方法,即根据各个参与方的样本占比分配权重,但是,这对于样本数占比小的参与方,如果需要对其进行模型的部署,模型的准确度和泛化性可能都不够理想。发明内容[0006] 本发明的目的是解决现有基于联邦学习的目标检测标签自动标注方法存在参与方部署模型的准确度和泛化性不够理想,导致标签自动标注效果差的技术问题,提出一种基于联邦学习的目标检测标签自动标注方法。[0007] 本发明的构思是,基于目标检测、联邦学习等技术,在各个参与方之间存在数据孤岛、数据隐私和标注数据极不均衡等情况下,通过少量标注数据实现高准确率、强泛化性的自动标注模型的生成,降低自动标注模型的建设成本,加快目标检测算法的快速部署,有效提高自动标注模型性能指标,进而达到理想的标签自动标注效果。此方法,一方面通过保护各参与方的数据不出本地来提高模型泛化性,另一方面通过改变各参与方已标注数据的权重来提高模型准确率。[0008] 本发明的技术解决方案是:[0009] 一种基于联邦学习的目标检测标签自动标注方法,其特殊之处在于,包括以下步骤:[0010] 步骤1)待标注的参与方从所有待标注样本中选取占比为5%~10%的样本,要求选取的样本与所有待标注样本保持独立同分布,然后对选取的样本进行人工标注;其余参与方的所有样本事先均已经过人工标注;[0011] 步骤2)各参与方分别利用初版预训练模型对人工标注的样本进行训练得到本地模型权重;[0012] 步骤3)各参与方分别使用加密技术对本地模型权重进行加密,并将加密信息发送给中央服务器;[0013] 步骤4)中央服务器对收到的本地模型权重通过改进的联邦学习方法进行安全聚合操作,得到安全聚合后的更新权重并下发给各参与方;[0014] 步骤5)各参与方对收到的安全聚合后的更新权重进行解密,以解密的安全聚合后的更新权重为预训练模型,使用本地数据执行梯度下降,更新本地模型权重,并计算更新后的损失函数;[0015] 步骤6)循环步骤3)至步骤5),直至损失函数收敛或达到预设迭代次数,得到最终目标检测模型;[0016] 步骤7)待标注的参与方利用得到的最终目标检测模型对全部待标注数据进行自动标注。[0017] 进一步地,步骤4)中,所述改进的联邦学习方法为:[0018][0019] 为安全聚合后的更新权重;[0020] K为总的参与方个数,K≥2;k为参与方序号,1≤k≤K;[0021] qk=(1‑pk)pk; nk为第k个参与方的样本数量,n为总的样本数量;[0022] 为第k个参与方的本地模型权重;[0023] t为更新轮次。[0024] 进一步地,步骤2)中,所述初版预训练模型的获取方式为,各参与方分别从中央服务器下载得到。[0025] 进一步地,步骤6)中,所述预设迭代次数由待标注的参与方与其它参与方的样本数量关系确定:[0026] a、如果待标注的参与方的样本量与其它所有参与方的样本量没有数量级上的差别,则预设迭代次数应≥2;[0027] b、如果待标注的参与方的样本量与其它参与方中任意一个的样本量之间有数量级上的差别,则预设迭代次数应≥3;所述数量级上的差别是指待标注的参与方的样本量与其它任意一个参与方的样本量差距在10倍以上。[0028] 本发明的有益效果:[0029] (1)本发明自动标注方法解决了数据隐私场景下深度学习模型泛化性不强的问题,能够大幅提升目标检测算法的实际部署效果和改善用户体验。[0030] (2)本发明自动标注方法通过改变各参与方已标注数据的权重提高模型准确率。[0031] (3)本发明自动标注方法具有高准确率的自动标注效果,能够大幅减少人工标注成本,缩短标注时间,从而减少人工智能项目的建设成本,并实现快速部署,特别适用于大量数据标注的部署场景。[0032] (4)本发明自动标注方法通过将联邦学习技术引入到自动标注过程,削弱了单个参与方的影响,减少了模型受单个参与方在前期人工标注中可能出现误标或者漏标等数据污染情况的影响,提高了自动标注模型的准确性。[0033] (5)本发明自动标注方法提出的基于改进联邦学习的目标检测标签自动标注方法,相比人工标注,不但可以提高标注的效率,而且可以减少公司在数据标注方面的成本支出;相比传统的集中学习方法,可以解决数据不能出本地,各个参与方之间的数据不能共享的问题;相比本地学习方法,可以解决由于样本数量少而导致的模型准确率低、泛化性不够的问题;相比标准的联邦学习方法,可以解决各参与方样本数相差大、样本不均衡的问题。附图说明[0034] 图1是本发明一种基于联邦学习的目标检测标签自动标注方法的流程图;[0035] 图2是本发明实施例中自动标注工具的界面图。具体实施方式[0036] 下面结合附图和实施例对本发明基于联邦学习的目标检测标签自动标注方法进行详细的说明。[0037] 如图1所示,本发明一种基于联邦学习的目标检测标签自动标注方法,包括以下步骤:[0038] 本发明适用的参与方数量至少2个,本实施例中,选择两个参与方,其中参与方1为待标注参与方,即待部署自动标注工具的应用场景。参与方1的所有待标注样本为20000张,从中选取10%(2000张)的样本,此处选取占比为10%的样本量,其他实施例中也可以选取待标注参与方的所有待标注样本5%~10%的样本量,将选取的样本进行人工标注后用作参与方1训练样本;另外从参与方1中另外选取了3000张样本进行人工标注后用作联邦学习测试基准;参与方2的样本数量为5000张,为已标注样本。参与方1与参与方2的数据为相同标签,但不同场景。[0039] 步骤1)参与方1从所有待标注的20000张样本中选取2000张样本,要求选取的少量样本与参与方1的所有样本保持独立同分布(I.I.D,IndependentlyIdenticalDistribution),然后对选取的少量样本进行人工标注。[0040] 步骤2)参与方1和参与方2分别从中央服务器下载初版预训练模型w0;参与方1利用初版预训练模型对人工标注的样本进行训练得到本地模型权重 参与方2利用初版预训练模型对本地5000张已标注样本训练得到参与方2的本地模型权重[0041] 步骤3)参与方1和参与方2分别使用加密技术对本地模型权重 和 进行加密,并将加密信息发送给中央服务器。[0042] 步骤4)中央服务器对收到的本地模型权重通过改进的联邦学习方法进行安全聚合操作,得到安全聚合后的更新权重 并下发给各参与方;[0043] 改进的联邦学习的方法为:[0044][0045] 为安全聚合后的更新权重;[0046] K为总的参与方个数,K≥2;k为参与方序号,1≤k≤K;[0047] qk=(1‑pk)pk; nk为第k个参与方的样本数量,n为总的样本数量;[0048] 为第k个参与方的本地模型权重;t为更新轮次。[0049] 根据上述公式可以得出:[0050] p1=0.286,p2=0.714[0051] 其中,p1对应参与方1,p2对应参与方2。[0052] 对权重概率值归一化后得到:[0053] q1=0.5,q2=0.5[0054] 其中,q1对应参与方1,q2对应参与方2。[0055] 经过改进的加权平均方法之后,参与方1在进行模型权重聚合时所占的比重加大,参与方2由于样本数量较大,其权重值所占比重的下降不会影响模型在样本上的推理结果。[0056] 标准的联邦学习方法是基于各参与方的样本量进行加权平均,进而中央服务器端对模型权重进行安全聚合的方式为:[0057][0058] 式中,nk为第k个参与方的样本数量,n为总的样本数量,K为总的参与方个数,为安全聚合后的更新权重,可以看到更新权重是根据各个参与方的样本占比进行平均,这种方法的弊端是在某一参与方样本量较少时,其自身的已标注数据对安全聚合过程的权重较小,基于安全聚合后模型权重的自动标注准确率较低。[0059] 为了提高样本占比较小的参与方权重,本发明基于Focalloss解决正负样本比例不平衡问题的思想,提出改进的联邦学习进行模型权重安全聚合方法:[0060] 令 qk=(1‑pk)pk,则[0061][0062] 由公式可看出,经过改进的加权平均方法之后,样本量占比较小的参与方在进行模型权重聚合时所占的比重增大。[0063] 步骤5)各参与方对收到的安全聚合后的更新权重进行解密,以解密的安全聚合后的更新权重为预训练模型,使用本地数据执行梯度下降,更新本地模型权重,得到第二轮迭代后的本地模型权重 和[0064] 步骤6)循环步骤3)至步骤5),不断提高模型的精度,直至损失函数收敛或达到预设迭代次数,最后得到高准确率、强泛化性的最终目标检测模型[0065] 本实施例中预设迭代次数由当前待标注的参与方与其它参与方的样本数量关系确定:[0066] a、如果当前待标注的参与方的样本量与其它所有参与方的样本量没有数量级上的差别,则预设迭代次数应≥2;[0067] b、如果当前待标注的参与方的样本量与其它参与方中任意一个的样本量之间有数量级上的差别,则预设迭代次数应≥3。其中,数量级上的差别是指待标注的参与方的样本量与其它任意一个参与方的样本量差距在10倍以上。[0068] 本实施例中,参与方1(2000张)与参与方2(5000张)没有数量级上的差别,本实施例中的预设迭代次数为2。其他实施例中预设迭代次数也可以根据需要进行设定。[0069] 步骤8)利用得到的最终目标检测模型 制作成一个目标检测标签的自动标注工具,对参与方1的全部待标注数据进行自动标注,自动标注工具界面如图2所示。[0070] 对于某个样本量较少的待标注参与方,将基于改进联邦学习训练得到的模型对其待标注数据进行推理,输出包含目标类别和位置的*.xml格式文件(以PASCALVOC数据集的*.xml格式标注文件为例),代替人工标注的结果,实现自动标注。[0071] 以下是本实施例中参与方1自动标注得到的测试结果:[0072] 选取五类标签,分别是人体框(person)、未戴口罩(nomask)、手(hand)、口罩(mask)、防护手套(gloves)。对集中学习模型、本地学习模型、标准联邦学习模型、改进联邦学习模型分别进行测试,结果如下表1所示:[0073] 表1测试结果[0074][0075] 以目标检测算法中常用的mAP为指标进行比较,mAP@.5提升效果占比0.1,mAP@.5:.95提升效果占比0.9,改进的联邦学习的提升结果为:[0076][0077][0078] △mAP改进‑本地代表改进的联邦学习模型相比本地学习模型的mAP提升值,△mAP改进‑标准代表改进的联邦学习模型相比标准联邦学习模型的mAP提升值。[0079] 从以上结果可以看出:[0080] (1)集中学习模型效果最优,改进的联邦学习模型和标准联邦学习模型效果次优,本地学习模型效果最差;由于集中学习模型要求所有参与方的数据共享,因此在实际部署过程中往往无法实际应用;[0081] (2)改进的联邦学习模型相比标准联邦学习模型的效果有所提升,说明本专利提出的改进的权重占比计算方法,能够一定程度解决样本量不平衡带来的影响。
专利地区:陕西
专利申请日期:2022-05-31
专利公开日期:2024-07-26
专利公告号:CN115081014B