专利名称:一种基于多智能体强化学习的无人机集群协同学习方法
专利类型:发明专利
专利申请号:CN202010944781.5
专利申请(专利权)人:南京大学
权利人地址:江苏省南京市栖霞区仙林大道163号
专利发明(设计)人:俞扬,詹德川,周志华,袁雷,张云天,付聪,庞竟成,罗凡明,贾俊华
专利摘要:本发明公开一种基于多智能体强化学习的无人机集群协同学习方法,构造基于空气动力学的环境模拟器;每个无人机获取并维护本机的局部观测值;作为student,每个无人机获取并维护来自队友的建议观测值;作为teacher,为其他无人机给出指导值;基于本机局部观测值与从队友获取的建议观测值执行动作策略,获取奖励并转移到下一状态;基于MADDPG思想进行训练,直到值网络与策略网络收敛;执行阶段以分布式的方式进行,即每个无人机基于局部观测值和队友提供的建议观测值,通过动作策略执行。本发明可以在成本较低的前提下实现无人机集群之间观测值的互补,实现无人机单独自主决策,解决“主从”结构带来的通信问题。
主权利要求:
1.一种基于多智能体强化学习的无人机集群协同学习方法,其特征在于:在无人机集群控制中,每个无人机需要学习自己的动作策略,同时扮演Student和Teacher的角色,分别从队友处获取指导意见并给队友提供建议指导,基于多智能体强化学习算法训练无人机的策略,通过使用深度神经网络对动作值函数与动作策略函数 进行表示,逐步训练优化神经网络,实现无人机集群高效协作学习,得到无人机动作策略;
无人机集群的策略神经网络训练过程包含以下步骤:
步骤1,构建环境模拟器,环境模拟器中构建无人机合作集群;
α
步骤2,初始化无人机观测值o;
步骤3,无人机合作集群中每个无人机扮演Student角色;首先获取自身对环境的局部α α α观测值 其中Q 为无人机α的值网络,h指无人机α执行的动作,o表示来自步骤2的初始局部观测值;通过建议发起策略 向无人机合作集群中的队友发起建议‑α请求,获得队友所给建议观测值 o 指来自队友的观
‑α ‑α
测值,Q 指队友无人机的值网络,h 指队友无人机‑α执行的动作,最终整个环境信息的联合观测值为 其中 指i、j无人机作为Student所获得的观测值,指i、j无人机作为Teacher所获得的观测值;
步骤4,无人机合作集群中每个无人机扮演Teacher角色,获取无人机合作集群中的队友发起的建议请求之后,每个无人机通过学习的建议评估策略 对队友发起的建议进行评估,评估会对队友的值网络Q造成增减影响,并将已经评估后的建议送返给建议请求发起队友;
步骤5,根据步骤3、4获取的联合观测值为 无人机集群中每个无人机与环境模拟器进行交互,将联合观测值 输入到联合策略网络 其中指无人机i、j作为Student的策略网络, 指无人机i、j作为Teacher的策略网络,将得到联合动作 其中 指无人机i、j作为Student的动作, 指无人机i、j作为Teacher的动作,并获得环境模拟器对无人机集群中每个无人机的立即联合奖励 其中 指无人机i、j作为Teacher所获得的奖励;
步骤6,将前述步骤所得联合观测值、联合动作、联合奖励、下一步的联合观测值存储到经验回放池 中,供后续训练;
步骤7,从步骤6中的经验回放池 中采样部分样本对Critic网络Q与Actor网络进行训练优化,重复优化Critic网络与Actor网络,直到网络收敛。
2.根据权利要求1所述的基于多智能体强化学习的无人机集群协同学习方法,其特征在于:所述步骤7中,根据MADDPG框架设定,在策略优化中基于执行者‑评论家框架进行网络优化,所述步骤7中定义的Critic网络价值损失函数如下:其中 是损失函数,为待优化参数,E是指求期望, 分别来自经验共享池 的联合观测值、联合动作、联合奖励、下一时刻的观测值,γ是衰减因子, 是动作值函数,是策略网络, 指根据策略预测出来的下一步的可能动作。
3.根据权利要求1所述的基于多智能体强化学习的无人机集群协同学习方法,其特征在于:所述步骤7中,Actor网络更新目标如下:其中 表示求梯度, 为策略更新目标,是策略网络待优化参数,E是指求期望,分别来自经验共享池 的联合观测值、联合动作;ρ∈{S,T}表示扮演的角色为Student、Teacher;α∈{i,j}表示无人机的编号为i、j, 为动作值函数, 表示联合策略网络。 说明书 : 一种基于多智能体强化学习的无人机集群协同学习方法技术领域[0001] 本发明涉及一种基于多智能体强化学习的无人机集群协同学习方法,属于无人机集群协作技术领域。背景技术[0002] 随着科技进步及无人机技术水平提升,无人机集群在日常生活中越发重要,广泛应用于日常运输、灾难救援、军事博弈等领域。现有的无人机集群合作中,主要以“主从”的方式控制无人机集群,即是“主”无人机主要负责对各无人机获取的数据进行处理并将指令分发给参与的“从”无人机。该类方法对通信信道要求苛刻,如果通信信道受到干扰或恶意攻击,则“主从”结构的无人机集群获取的信息都将被干扰并可能导致灾难性的后果,“主从”结构的无人机集群往往缺乏灵活性,并非真正意义上的“自治系统”。[0003] 近年来深度强化学习技术取得了极大的进步,深度强化学习不同于传统的监督学习或者非监督学习,以试错的方式与环境进行交互,获取最大的累积奖赏,是天然的决策利器。在Atari游戏、围棋、星际争霸等游戏领域,智能交通、电商推荐系统等领域都取得了较广泛的应用。[0004] 在现有的多智能体强化学习算法中,MADDPG是一个Actor‑Critic框架的算法,遵循集中训练、分布执行的思想,在训练Critic网络的时候考虑全局信息,实际执行时Actor的输入中包含单个智能体的局部特征,突破了传统强化学习算法只能用单一网络结构的限制。将多智能体算法MADDPG应用于无人机集群控制能有效解决上述无人机集群“主从”结构的不足,各无人机能根据自己传感器所获取的局部信息进行决策,实现一定的自治能力。然而在基于MADDPG的无人机集群中,单个无人机信息传感器(摄像头等)视野有限,无法有效获取全局信息,无法实现真正意义上的自治决策。发明内容[0005] 发明目的:为了解决基于MADDPG的无人机集群中个体视野受限的缺点,本发明提供一种基于多智能体强化学习的无人机集群协同学习方法。在本发明的无人机集群中,无人机能从其他无人机的动作进行学习,可以较好地解决无人机集群中单个无人机视野有限的问题。[0006] 技术方案:一种基于多智能体强化学习的无人机集群协同学习方法,在无人机集群控制中,每个无人机需要学习自己的动作策略,同时扮演Student和Teacher的角色,分别从队友处获取指导意见并给队友提供建议指导,基于多智能体强化学习算法训练无人机的策略,通过使用深度神经网络对动作值函数与动作策略函数 进行表示,以下分别表述为值网络和策略网络,逐步训练优化神经网络,实现无人机集群高效协作学习,得到无人机动作策略。无人机集群的策略神经网络训练过程包含以下步骤:[0007] 步骤1,基于Unity3D构建空气动力学的环境模拟器,环境模拟器中构建无人机合作集群;[0008] 步骤2,初始队友信息比较匮乏,初始化无人机观测值oα;[0009] 步骤3,无人机合作集群中每个无人机扮演Student角色;首先获取自身对环境的α α α局部观测值 其中Q为无人机α的值网络,h指无人机α执行的动作,o表示来自步骤2的初始局部观测值;通过建议发起策略 向无人机合作集群中的队友发起‑α建议请求,获得队友所给建议观测值 o 指来自队友‑α ‑α的观测值,Q 指队友无人机的值网络,h 指队友无人机‑α执行的动作,最终整个环境信息的联合观测值为 其中 指i、j无人机作为Student所获得的观测值,指i、j无人机作为Teacher所获得的观测值;[0010] 步骤4,无人机合作集群中每个无人机扮演Teacher角色,获取无人机合作集群中的队友发起的建议请求之后,每个无人机通过学习的建议评估策略 对队友发起的建议进行评估,评估会对队友的值网络Q造成增减影响,并将已经评估后的建议送返给建议请求发起队友;[0011] 步骤5,根据步骤3、4获取的联合观测值为 无人机集群中每个无人机与环境模拟器进行交互,将联合观测值 输入到联合策略网络 其中指无人机i、j作为Student的策略网络, 指无人机i、j作为Teacher的策略网络,将得到联合动作 其中 指无人机i、j作为Student的动作,指无人机i、j作为Teacher的动作,以上公式i、j表示不同的无人机,并获得环境模拟器对无人机集群中每个无人机的立即联合奖励 其中 指无人机i、j作为Teacher所获得的奖励;[0012] 步骤6,将前述步骤所得联合观测值、联合动作、联合奖励、下一步的联合观测值存储到经验回放池 中,供后续训练;[0013] 步骤7,根据MADDPG“执行者‑评论家”的思想,从步骤6中的经验回放池 中采样部分样本对Critic网络Q与Actor网络 进行训练优化,重复优化Critic网络与Actor网络,直到网络收敛。所述Critic网络指动作值网络,即所述的动作值函数;所述Actor网络指联合策略神经网络,即动作策略函数。[0014] 所述步骤3,无人机扮演Student角色,每个无人机利用自身传感器获取自身局部观测α值 S表示自己是Student,o是无人机本地初始局部观测值,α指己方无人α α机,Q指动作值函数神经网络,对系统好坏进行评价,h指无人机执行的动作;学习建议发起策略 向队友发起建议请求,获取队友的建议观测值其中‑α指队友。[0015] 所述步骤4,无人机扮演Teacher角色,通过建议评估策略 对队友发起的建议请求进行评估,T表示自己是处于Teacher角色,其中‑α指队友,表示是其他无人机获取的观测指导值;最终获得包含自己局部观测值与队友观测值的联合观测值 以上公式i、j表示不同的无人机,S、T分别表示是Student和Teacher。[0016] 根据MADDPG框架设定,在策略优化中基于“执行者‑评论家”(Actor‑Critic,AC)框架进行网络优化,所述步骤7中定义的Critic网络价值损失函数如下:[0017][0018] 其中 是损失函数,为待优化参数,E是指求期望, 分别来自经验共享池 的联合观测值、联合动作、联合奖励、下一时刻的观测值,γ是衰减因子, 是动作值函数,是策略网络,指根据策略预测出来的下一步的可能动作。[0019] Actor网络(策略神经网络)更新目标如下:[0020][0021] 其中 表示求梯度, 为策略更新目标,是策略网络待优化参数,E是指求期望, 分别来自经验共享池 的联合观测值、联合动作;ρ∈{S,T}表示扮演的角色可以为Student、Teacher;α∈{i,j}表示无人机的编号可以为i、j,为动作值函数, 表示联合策略网络。[0022] 有益效果:与现有技术相比,本发明提供的基于多智能体强化学习的无人机集群协同学习方法,采用深度强化学习算法使无人机具备自主决策能力,无人机可以与环境模拟器进行交互,训练自己的动作函数,直到收敛,可以摆脱传统基于规则的束缚;[0023] 本发明通过多智能体深度强化学习算法实现无人机集群自主控制,无人机之间不需要显式的通信,仅需观测队友动作即可,能有效解决无人机集群“主从”结构带来的问题,使无人机具备真正意义上的自治能力;[0024] 本发明采用的基于学习的多智能体无人机集群合作算法,能有效克服单个无人机只能看到局部信息的缺点,有效解决传统无人机集群通信、自治等问题。附图说明[0025] 图1为本发明的方法流程图;[0026] 图2为本发明整体框示意图;[0027] 图3是无人机集群交互示意图。[0028] 图4是算法伪代码。具体实施方式[0029] 下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。[0030] 一种基于多智能体强化学习的无人机集群协同学习方法,在无人机集群控制中,每个无人机同时扮演Student和Teacher的角色,遵循MADDPG集中式训练、分布式执行的思想实现无人机集群协作学习。包括以下步骤:[0031] 步骤一:基于Unity3D构建空气动力学的环境模拟器,构建无人机合作集群。[0032] 步骤二:初始队友信息比较匮乏,初始化无人机局部观测值oα。[0033] 步骤三:无人机合作集群中每个无人机扮演Student角色;首先获取自身对环境的α α α局部观测值 其中Q为无人机α的值网络,h指无人机α采取的动作,o表示来着步骤二的初始局部观测值;通过建议发起策略 向无人机合作集群中的队友获取‑α队友建议,获得队友所给建议观测值 o 指来自队友‑α ‑α的观测值,Q 指队友无人机的值网络,h 指队友无人机‑α执行的动作,最终整个环境信息的联合观测值为 其中 指i、j无人机作为Student所获得的观测值,指i、j无人机作为Teacher所获得的观测值。[0034] 步骤四:无人机合作集群中每个无人机扮演Teacher角色,获取无人机合作集群中的队友发起的建议咨询请求之后,每个无人机通过学习的建议评估策略 对队友发起的建议进行评估,评估会对队友的值网络Q造成增减影响,并将已经评估后的建议发送返回给建议请求发起队友。[0035] 步骤五:根据步骤三四获取的联合观测值为 无人机集群中每个无人机与环境模拟器进行交互,将联合观测值 输入到联合策略网络 其中 指无人机i、j作为Student的策略网络, 指无人机i、j作为Teacher的策略网络,将得到联合动作 其中 指无人机i、j作为Student的动作,指无人机i、j作为Teacher的动作,并获得环境模拟器对无人机集群中每个无人机的立即联合奖励 其中 指无人机i、j作为Teacher所获得的奖励。[0036] 步骤六:将前述步骤所得联合观测值、联合动作、联合奖励、下一步的联合观测值存储到经验回放池 中,供后续训练。[0037] 步骤七:从经验回放池 中采样部分样本以集中式的方式训练Critic网络,其联合Q值函数定义 其中 为联合策略函数的参数,其优化目标为损失函数其中 为下一刻的目标动作,目标是使得损失函数最小。其中 是损失函数,为待优化参数,E是指求期望, 分别来自经验共享池 的联合观测值、联合动作、联合奖励、下一时刻的观测值,γ是衰减因子,是动作值函数,是策略网络。[0038] 步骤八:Actor网络(策略神经网络)更新目标如下:[0039][0040] 其中 表示求梯度, 为策略更新目标,是策略网络待优化参数,E是指求期望, 指分别来自经验共享池 的联合观测值、联合动作;ρ∈{S,T}表示扮演的角色可以为Student、Teacher;α∈{i,j}表示无人机的编号可以为i、j,为动作值函数, 表示联合策略网络。[0041] 重复上述步骤七与八,直到Critic网络(动作值网络)Q与Actor(策略网络)网络收敛。[0042] 图1是本发明方法流程图,在具体实施根据MADDPG集中训练、分布执行的思想进行。[0043] 图2是整体框架图。其中:[0044] 步骤1,在训练阶段,无人机i、i与环境模拟器进行交互,通过自身传感器(传感器组合)获取初始化局部观测值;[0045] 步骤2,作为Student,获取建议观测值与联合观测值、联合奖励;[0046] 步骤3,作为Teacher,对队友提起的建议进行评估。[0047] 步骤4,设计合适的神经网络结构、选择适当的神经网络超参数,搭建值网络与策略网络。[0048] 例如,一个策略网络可以包括5层全连接神经网络,每层神经网络使用relu函数作激活函数。[0049] 步骤5,根据MADDPG框架设定,基于“执行者‑评论家”(Actor‑Critic,AC)框架进行网络优化直到网络收敛。[0050] 步骤6,按照MADDPG的流程,算法通过将获取的局部观测值和队友建议的观测值送到策略网络,得到相应的动作。[0051] 图3是本发明中无人机集群交互示意图,无人机作为Student向队友发起建议请求,获得队友建议,以及作为Teacher对队友发起的建议进行评估过程。[0052] 图4是本发明中算法流程伪代码。
专利地区:江苏
专利申请日期:2020-09-10
专利公开日期:2024-07-26
专利公告号:CN112131660B