专利名称:一种群体感知中利用图卷积强化学习最小化信息年龄方法
专利类型:发明专利
专利申请号:CN202111092254.7
专利申请(专利权)人:北京理工大学
权利人地址:北京市海淀区中关村南大街5号
专利发明(设计)人:戴子彭,刘驰,叶语霄
专利摘要:本发明公开了一种群体感知中利用图卷积强化学习最小化信息年龄方法。包括以下步骤:步骤1、感知平台打开主进程,步骤2、感知平台开启与环境交互的子进程,步骤3、观察感知区域中的移动用户和感知体的状态包括感知体和用户的位置、移动方向,步骤4、利用关系图卷积网络得到的交互特征作为输入,步骤5、反复执行步骤3、步骤4,直到回合结束,步骤6、感知平台的主进程从经验复用池中采样出批量经验数据,步骤7、反复执行步骤2、步骤5、步骤6,直到交互的回合数量达到上限;步骤8、感知平台主进程取出保存的最优参数,本发明有益效果是能够最小化信息年龄,能够减轻对仿真平台的过度依赖。
主权利要求:
1.一种群体感知中利用图卷积强化学习最小化信息年龄方法,其特征在于,包括以下步骤:步骤1、感知平台打开主进程,建立一个空的经验复用池并初始化GCRL‑min算法的参数且算法的参数包括关系图卷积网络的参数、下一状态预测模块的参数、估值网络的参数;
步骤2、感知平台开启与环境交互的子进程,子进程与环境交互一个回合,建立了一个群体感知场景的仿真环境,部署U个感知体作为感知数据采集的执行者,环境中存在M个移动用户,移动用户的初始位置和移动轨迹由具体的真实数据集给出,整个感知任务被划分为相等的T个时间步,每个时间步具有相同的时长τ;
U个携带满能量Emax的感知体部署在同一起点,设定感知体在高度恒定的二维平面上移动,在每一个时间步[t,t+1)内,每一个感知体以速度 沿着方位角的方向移动,其中,vmax是感知体的最大速度,收集数据,当具体使用无人机作为感知体时,感知体在时间步[t,t+1)的能耗 由下公式(1)计算:其中,u表示感知体,c1、c2、c3是取决于无人机重量、转子、叶片和空气密度的常数,vtip和 分别为转子的叶尖速度和平均速度;
M个移动用户从初始位置开始移动并感知场景、生成数据,在时间步[t,t+1)内,每个移动用户生成数据并将其全部数据上传至距移动用户最近的感知体,具体表现为移动用户的信息年龄的变化如以下公式(2)所示:其中,m表示移动用户,u表示距移动用户最近的感知体, 是移动用户在时间步[t,t+Tx Rx
1)结束时的信息年龄,PLt(u,m)‑G ‑G ≤MCL是感知体成功采集移动用户的数据的条件并对条件中各变量的含义具体解释如下:仿真环境基于毫米波的数据上传系统,其中,移动用户和感知体分别是发射者和接收者Rx,采用特定毫米波频率下的视距和非视距链路的信道衰弱模型如以下公式(3)所示:LoS LoS NLoS NLoS
其中,α 、β 、α 、β 是浮动截距和坡度上的环境参数, 是移动用户m和感知体u之间的3D距离,PLt(u,m)随着dt(u,m)的增大而增大;
u user
对于LoS和NLoS,当感知体位于高度h ,每个移动用户被建模为平均高度为h 、平均直user device device user径为g 的圆柱体,设定携带智能设备的移动用户位于高度h ,其中,h <h ,当一个移动用户上传数据给感知体,根据以下公式(4)计算时间步[t,t+1)中LoS的概率:其中, 是移动用户和感知体之间的欧氏距离,平均的信道衰弱如以下公式(5)所示:其中, 根据5GNR,选择最大耦合损耗来表示感知体在每
个时间步中的最大感知范围,定义为系统能够容忍且仍然能够运行的传导电平中的最大损失;
步骤3、子进程在每一个时间步,观察感知区域中的移动用户和感知体的状态,使用关系图卷积网络充分挖掘空间信息,抽取感知体‑移动用户的交互特征,得到对环境更可靠的表征;
步骤4、子进程在每一个时间步,利用关系图卷积网络得到的交互特征作为输入,送入下一状态预测模块和估值网络模块,以蒙特卡洛树搜索方法作为辅助向前看N步,以选择最佳动作,使用最佳动作与环境交互,向经验复用池发送经验;
步骤5、反复执行步骤3、步骤4,直到回合结束,收集当前回合的轨迹数据并上传至经验复用池,子进程关闭,当在回合的某一个时间步中检测到存在感知体撞到障碍物或者能量耗尽,则也立即结束这一回合,子进程关闭;
步骤6、感知平台的主进程从经验复用池中采样出批量经验数据,通过梯度下降法更新网络参数,优化感知集群的策略以逐渐降低执行策略所得的信息年龄,保存最优参数;
步骤7、反复执行步骤2、步骤5、步骤6,直到交互的回合数量达到上限;
步骤8、感知平台主进程取出保存的GCRL‑min算法的最优参数,即得到能够最小化信息年龄的智能集群最优策略,根据最优策略得到对应的感知集群调度轨迹,向感知集群发送最优轨迹调动指令以获取感知区域内移动用户的最新数据。
2.根据权利要求1所述的一种群体感知中利用图卷积强化学习最小化信息年龄方法,其特征在于,所述步骤3包括以下步骤:步骤301、子进程观察当前感知区域中的移动用户和感知体的状态st,包括感知体和移动用户的位置、移动方向、移动用户的信息年龄;
步骤302、将观察到的状态st作为输入,送入关系图卷积网络,关系图卷积网络的输入是原始环境st中移动用户和感知体的特征 和 在关系图卷积网络中,使用两个多层感知机(MLP)将移动用户和感知体的特征嵌入到高维空间中并拼接为关系图卷积网络的输入Zt,Zt的每一列是一个移动用户或感知体的嵌入特征,用于嵌入特征的多层感知机是关系图卷积网络的参数的一部分;
步骤303、使用嵌入高斯相似度函数根据Zt计算感知体‑移动用户关系矩阵Ct,嵌入高斯相似度函数中使用的嵌入网络的参数是关系图卷积网络的参数的一部分;
步骤304、根据特征矩阵Zt和关系矩阵Ct,使用关系图卷积网络计算交互特征,信息传递规则如以下公式(6)所示:其中, 是可学习的权重矩阵,是关系图卷积网络的参数的一部分, 是第l次图卷积操作后按矩阵Ct中的感知体‑移动用户关系加权的特征,令Zt为初始的步骤305、经过L次信息传递过程后,最后的交互特征 被分解为感知体的交互特征和移动用户的交互特征 上述步骤301~步骤305在不改变特征维度的情况下学习感知体与移动用户之间的空间相关性即η和s具有相同的维度以利于后续的移动用户位置预测和状态价值估计。
3.根据权利要求1所述的一种群体感知中利用图卷积强化学习最小化信息年龄方法,其特征在于,所述步骤4包括以下步骤:步骤401、建立一棵以当前状态作为根节点的蒙特卡洛树,所有可能的动作a作为连接根节点与其子节点的边,根节点的子节点是在当前状态st下执行动作a预测的下一状态,子节点也能够作为子树的根节点,根据以上所述递归地建立子树;
步骤402、将利用关系图卷积网络得到的交互特征 和 作为输入,送入下一状态预测模块和估值网络模块,以蒙特卡洛树搜索方法作为辅助向前看N步,以选择最佳动作at;
u u
步骤403、遍历所有可能的动作a,动作a由每个感知体u的动作a组成,a包括移动速度和移动方位角 根据感知体和移动用户的交互特征,辅以蒙特卡洛树搜索,使用以下公式(7)得到最佳动作at:(N)
其中,r(st,a)+γV (σt+1)是在当前状态st下执行动作a的未来累计回报,r(st,a)是由(N)仿真环境决定的在当前状态st下执行动作a的即时回报,V (σt+1)是估计的下一状态的N步价值,σt+1是在当前状态sx下执行动作a预测的下一状态即树中根节点的孩子节点,γ是计算未来累计回报的折扣因子;使用下一状态预测模块和估值网络计算公式(7),下一状态预u测模块用于得到σt+1,设定感知体u的交互特征 和动作a,使用一个多层感知机 作为下一状态预测模块,预测其下一状态;将 输入另一个多层感知机 预测移动用户的下一状态,拼接预测的移动用户状态和感知体状态,得到预测的下一状态σt+1,如以下公式(8)所示:(N) val
其中,concat表示向量的拼接操作,估值网络用于得到V (σt+1),使用多层感知机f作为估值网络并使蒙特卡洛树搜索向未来看N步以提供对状态价值更准确的估计,价值估(N)计模块通过以下公式(9)估计状态的N步价值V (st):
(N) (n) (n‑1)
公式(9)由递归的方式计算V (st)的值,要求V (st)的值,需要求V (σt+1)的值,其(1) val中,σt+1由下一状态预测模块的 和 给出,V (st)由f 给出;
步骤404、得到at后,执行at,使用最佳动作与环境交互,移动到当前环境中需要采集数据的移动用户的位置并采集移动用户的数据,根据移动用户的数据采集和能量消耗计算当前即时回报rt,rt定义为上一步移动用户平均信息年龄相较于当前之差如以下公式(10)所示:其中, 是移动用户在时间步[t,t+1)的信息年龄,当前时间步感知体采集到的数据越多, 越小,回报越大,据此定义回报是有效的,随着训练过程得到能最小化信息年龄的策略;
步骤405、子进程将当前状态st、本次移动和数据获取动作at以及当前即时回报rt组成的三元组(st,at,rt)作为经验,发送至经验复用池。
4.根据权利要求1所述的一种群体感知中利用图卷积强化学习最小化信息年龄方法,其特征在于,所述步骤6包括以下步骤:步骤601、当经验复用池中经验数量足够进行一次策略更新时,从经验复用池中采样出批量经验数据;
步骤602、感知平台的主进程根据经验数据,根据下一状态预测模块的损失函数计算下一状态预测模块的梯度,根据估值网络的损失函数计算估值网络的梯度,并使用梯度下降val法更新网络参数,即优化感知集群的策略, f 三个网络通过对经验的学习以提升状态预测和价值估计的准确性,损失函数如以下公式(11)所示:步骤603、在仿真环境中测试当前策略所得的信息年龄,当信息年龄比之前的所有测试都小,保存当前的算法参数。
5.根据权利要求1所述的一种群体感知中利用图卷积强化学习最小化信息年龄方法,其特征在于,所述步骤8包括以下步骤:步骤801、感知平台的主进程初始化仿真环境并基于最优策略输出智能集群每一步的最佳动作,在智能集群执行完T步动作时输出动作序列,动作序列为最小化当前场景信息年龄的轨迹;
步骤802、感知平台依照动作序列向各感知体发送一系列控制指令,调度各感知体通过动态移动以获取移动用户的最新数据并将数据发送回仿真平台。 说明书 : 一种群体感知中利用图卷积强化学习最小化信息年龄方法技术领域[0001] 本发明属于群体感知技术领域,具体涉及一种群体感知中利用图卷积强化学习最小化信息年龄方法。背景技术[0002] 群体感知已被公认为是用于获取各种智慧城市应用数据(如交通控制和路况监测)的一种高效且扩展性强的方式。在群体感知任务的场景中,地面的移动用户不断移动并获取城市中的数据,感知集群(由多个感知体组成)作为移动基站服务于移动用户,收集移动用户获取到的数据,用作后续的分析处理。[0003] 在群体感知任务中,很多数据有很强的时效性(例如交通路况信息),从移动用户处获取实时数据的延迟是衡量任务完成质量的关键指标,如何设计感知集群收集数据的轨迹以最大程度地保证数据的时效性是核心问题。借鉴学界常用的方法,使用“信息年龄”(AgeofInformation,定义为移动用户向感知集群成功传输数据后经过的时间)作为评估数据收集及时性的指标,将核心问题转换为最小化信息年龄。感知集群四处移动并接收来自多个移动用户上传的数据,当在某时刻某个移动用户的数据被某个感知体成功地收集到,则信息年龄会重置为1,否则会随时间不断增加。[0004] 然而,在现实的群体感知中信息年龄最小化任务中,感知体(例如无人机)所能携带能源有限。如何设计感知集群的调度算法,做到在尽可能快、尽可能多地收集实时数据的同时提高能源的使用效率,成为了新的研究热点,信息年龄最小化任务中有如下三个待解决的技术难题:[0005] 1.感知集群调度算法应该同时在多个评价指标上达成好的效果,包括尽快且高效地采集到每个移动用户的数据、保证高用户覆盖率、尽可能节省感知体能耗,然而挑战在于这些评价指标很难兼顾,为了提高用户覆盖率,感知体不可避免地需要前往较为偏远的地区采集数据,导致较大的能量消耗。[0006] 2.移动用户的移动是随机且不可控的,感知集群需要根据移动用户随时间变化的位置分布仔细设计其轨迹,这相比于调度感知体收集静止对象的数据的任务困难得多。[0007] 3.需要让感知集群的各感知体彼此之间学习合作控制策略,使得每个感知体可以专注于自己所负责的区域,以达到第一个技术挑战的要求。发明内容[0008] 针对现有技术中的缺陷,本发明提出了一种群体感知中利用图卷积强化学习最小化信息年龄方法(称为GCRL‑min(AoI))。[0009] 本发明所述方法包括以下步骤:[0010] 步骤1、感知平台打开主进程,建立一个空的经验复用池并初始化GCRL‑min(AoI)算法的参数且算法的参数包括关系图卷积网络的参数、下一状态预测模块的参数、估值网络的参数;[0011] 步骤2、感知平台开启与环境交互的子进程,子进程与环境交互一个回合(强化学习中序贯决策问题被建模为有限马尔可夫决策过程且该过程称为一个回合,下文所述所有“回合”均为此含义),建立了一个群体感知场景的仿真环境,部署U个感知体作为感知数据采集的执行者,环境中存在M个移动用户,移动用户的初始位置和移动轨迹由具体的真实数据集给出,整个感知任务被划分为相等的T个时间步,每个时间步具有相同的时长τ;[0012] U个携带满能量Emax的感知体部署在同一起点,设定感知体在高度恒定的二维平面上移动,在每一个时间步[t,t+1)内,每一个感知体以速度 沿着方位角 的方向移动,其中vmax是感知体的最大速度,收集数据,当具体使用无人机作为感知体时,感知体在时间步[t,t+1)的能耗 由下公式(1)计算:[0013][0014] 其中,u表示感知体(下文所有公式中出现的u如未特殊说明均表示感知体),c1、c2、c3是取决于无人机重量、转子、叶片和空气密度的常数,vtip和 分别为转子的叶尖速度和平均速度;[0015] M个移动用户从初始位置开始移动并感知场景、生成数据(例如交通流量信息),在时间步[t,t+1)内,每个移动用户生成数据并将其全部数据上传至距移动用户最近的感知体,具体表现为移动用户的信息年龄的变化如以下公式(2)所示:[0016][0017] 其中,m表示移动用户(下文所有公式中出现的m如未特殊说明均表示移动用户),u表示距移动用户最近的感知体, 是移动用户在时间步[t,t+1)结束时的信息年龄,PLtTx Rx(u,m)‑G ‑G ≤MCL是感知体成功采集移动用户的数据的条件并对条件中各变量的含义具体解释如下:[0018] 仿真环境基于毫米波的数据上传系统,其中移动用户和感知体分别是发射者(Tx)和接收者(Rx),采用特定毫米波频率下的视距(LoS)和非视距(NLoS)链路的信道衰弱(PL)模型如以下公式(3)所示:[0019][0020] 其中,αLoS、βLoS、αNLoS、βNLoS是浮动截距和坡度上的环境参数, 是移动用户m和感知体u之间的3D距离,PLt(u,m)随着dt(u,m)的增大而增大;[0021] 对于LoS和NLoS,当感知体位于高度hu,每个移动用户被建模为平均高度为huser、平user device device user均直径为g 的圆柱体,设定携带智能设备的移动用户位于高度h ,其中h [0022][0023] 其中, 是移动用户和感知体之间的欧氏距离,平均的信道衰弱如以下公式(5)所示:[0024][0025] 其中, 根据5GNR,选择最大耦合损耗(MCL)来表示感知体在每个时间步中的最大感知范围,定义为系统能够容忍且仍然能够运行的传导电平中的最大损失;[0026] 步骤3、子进程在每一个时间步,观察感知区域中的移动用户和感知体的状态(包括感知体和移动用户的位置、移动方向,移动用户的信息年龄),使用关系图卷积网络(RGCN)充分挖掘空间信息,抽取感知体‑移动用户的交互特征,得到对环境更可靠的表征:[0027] 步骤301、子进程观察当前感知区域中的移动用户和感知体的状态st,包括感知体和移动用户的位置、移动方向、移动用户的信息年龄;[0028] 步骤302、将观察到的状态st作为输入,送入关系图卷积网络,关系图卷积网络的输入是原始环境st中移动用户和感知体的特征 和 在关系图卷积网络中,使用两个多层感知机(MLP)将移动用户和感知体的特征嵌入到高维空间中并拼接为关系图卷积网络的输入Zt,Zt的每一列是一个移动用户或感知体的嵌入特征,用于嵌入特征的多层感知机是关系图卷积网络的参数的一部分;[0029] 步骤303、使用嵌入高斯(Embedded‑Gaussian)相似度函数根据Zt计算感知体‑移动用户关系矩阵Ct,嵌入高斯相似度函数中使用的嵌入网络的参数是关系图卷积网络的参数的一部分;[0030] 步骤304、根据特征矩阵Zt和关系矩阵Ct,使用关系图卷积网络计算交互特征,信息传递规则如以下公式(6)所示:[0031][0032] 其中, 是可学习的权重矩阵,是关系图卷积网络的参数的一部分, 是第l次图卷积操作后按矩阵Ct中的感知体‑移动用户关系加权的特征,令Zt为初始的[0033] 步骤305、经过L次信息传递过程后,最后的交互特征 被分解为感知体的交互特征 和移动用户的交互特征 上述步骤301~步骤305在不改变特征维度的情况下,学习感知体与移动用户之间的空间相关性即η和s具有相同的维度,以利于后续的移动用户位置预测和状态价值估计;[0034] 步骤4、子进程在每一个时间步,利用关系图卷积网络得到的交互特征作为输入,送入下一状态预测模块和估值网络模块,以蒙特卡洛树搜索方法作为辅助向前看N步,以选择最佳动作,使用最佳动作与环境交互,向经验复用池发送经验:[0035] 步骤401、建立一棵以当前状态作为根节点的蒙特卡洛树,所有可能的动作a作为连接根节点与其子节点的边,根节点的子节点是在当前状态st下执行动作a预测的下一状态,子节点也能够作为子树的根节点,根据以上所述递归地建立子树;[0036] 步骤402、将利用关系图卷积网络得到的交互特征 和 作为输入,送入下一状态预测模块和估值网络模块,以蒙特卡洛树搜索方法作为辅助向前看N步,以选择最佳动作at;[0037] 步骤403、遍历所有可能的动作a,动作a由每个感知体u的动作au组成,au包括移动速度 和移动方位角 根据感知体和移动用户的交互特征,辅以蒙特卡洛树搜索,使用以下公式(7)得到最佳动作at:[0038][0039] 其中,r(st,a)+γV(N)(σt+1)是在当前状态st下执行动作a的未来累计回报,r(st,a)(N)是由仿真环境决定的在当前状态st下执行动作a的即时回报,V (σt+1)是估计的下一状态的N步价值,σt+1是在当前状态st下执行动作a预测的下一状态即树中根节点的孩子节点,γ是计算未来累计回报的折扣因子;使用下一状态预测模块和估值网络计算公式(7),下一状u态预测模块用于得到σt+1,设定感知体u的交互特征 和动作a,使用一个多层感知机作为下一状态预测模块,预测其下一状态,包括下一时刻的位置和剩余能量;将 输入另一个多层感知机 预测移动用户的下一状态(包括下一时刻位置、剩余数据和信息年龄),拼接预测的移动用户状态和感知体状态,得到预测的下一状态σt+1,公式(8)如下所示:[0040][0041] 其中,concat表示向量的拼接操作,估值网络用于得到V(N)(σt+1),使用多层感知机valf 作为估值网络并使蒙特卡洛树搜索向未来看N步以提供对状态价值更准确的估计,价值(N)估计模块通过以下公式(9)估计状态的N步价值V (st):[0042][0043] 公式(9)由递归的方式计算V(N)(st)的值,要求V(n)(st)的值,需要求V(n‑1)(σt+1)的(1) val值,其中σt+1由下一状态预测模块的 和 给出,V (st)由f 给出;[0044] 步骤404、得到at后,执行at,使用最佳动作与环境交互,移动到当前环境中需要采集数据的移动用户的位置并采集移动用户的数据,根据移动用户的数据采集和能量消耗计算当前即时回报rt,rt定义为上一步移动用户平均信息年龄相较于当前之差如以下公式(10)所示:[0045][0046] 其中, 是移动用户在时间步[t,t+1)的信息年龄,当前时间步感知体采集到的数据越多, 越小,回报越大,据此定义回报是有效的,随着训练过程得到能最小化信息年龄的策略;[0047] 步骤405、子进程将当前状态st、本次移动和数据获取动作at以及当前即时回报rt组成的三元组(st,at,rt)作为经验,发送至经验复用池;[0048] 步骤5、反复执行步骤3、步骤4,直到回合结束,收集当前回合的轨迹数据并上传至经验复用池,子进程关闭,当在回合的某一个时间步中检测到存在感知体撞到障碍物或者能量耗尽,则也立即结束这一回合,子进程关闭;[0049] 步骤6、感知平台的主进程从经验复用池中采样出批量经验数据,通过梯度下降法更新网络参数,优化感知集群的策略以逐渐降低执行策略所得的信息年龄,保存最优参数:[0050] 步骤601、当经验复用池中经验数量足够进行一次策略更新时(例如经验数量大于一个预设的常数,如256),从经验复用池中采样出批量经验数据;[0051] 步骤602、感知平台的主进程根据经验数据,根据下一状态预测模块的损失函数计算下一状态预测模块的梯度,根据估值网络的损失函数计算估值网络的梯度,并使用梯度val下降法更新网络参数,即优化感知集群的策略, f 三个网络通过对经验的学习以提升状态预测和价值估计的准确性,损失函数如以下公式(11)所示:[0052][0053] 公式(11)中各变量符号同上;[0054] 步骤603、在仿真环境中测试当前策略所得的信息年龄,当信息年龄比之前的所有测试都小,保存当前的算法参数;[0055] 步骤7、反复执行步骤2、步骤5、步骤6,直到交互的回合数量达到上限;[0056] 步骤8、感知平台主进程取出保存的GCRL‑min(AoI)算法的最优参数,即得到能够最小化信息年龄的智能集群最优策略,根据最优策略得到对应的感知集群调度轨迹,向感知集群发送最优轨迹调动指令以获取感知区域内移动用户的最新数据:[0057] 步骤801、感知平台的主进程初始化仿真环境并基于最优策略输出智能集群每一步的最佳动作,在智能集群执行完T步动作时输出动作序列,动作序列为最小化当前场景信息年龄的轨迹;[0058] 步骤802、感知平台依照动作序列向各感知体发送一系列控制指令,调度各感知体通过动态移动以获取移动用户的最新数据并将数据发送回仿真平台。[0059] 本发明所述方法的有益效果是:[0060] 1、本发明所述方法能够最小化信息年龄且实现方式经济高效,借助于关系图卷积网络模块,训练只需使用CPU而无需GPU,避免了GPU价格昂贵且物理尺寸大的问题,易于部署到真实的感知体中(如无人机)且时间成本控制在毫秒级且在现实应用场景中可以忽略不计;[0061] 2、本发明所述方法使用关系图卷积网络(RGCN)充分挖掘空间信息,提取感知体和移动用户之间的空间相关性,得到对环境更可靠的表征,使每个感知体得以关注不同的移动用户群体,并学习在大规模任务区域中进行协作;[0062] 3、本发明所述方法对于先进的深度强化学习算法蒙特卡洛树搜索做出改进,添加下一状态预测模块,通过学习状态转移模型来生成可能的下一个状态,这使得本发明所述方法成为一种基于模型的方法,与蒙特卡洛树搜索的无模型的方法相比,本发明所述方法只需要很少的交互经验,能够大幅减轻对仿真平台的过度依赖,且当应用于现实场景时能够避免因探索环境例如无人机碰撞障碍物而损坏或能量耗尽而造成的高成本故障。附图说明[0063] 图1为本发明所述方法的整体流程图;[0064] 图2为本发明所述方法的关系图卷积网络模块流程图;[0065] 图3为本发明所述方法的下一状态预测模块和估值网络模块流程图;[0066] 图4为本发明所述方法的优化感知集群策略流程图;[0067] 图5‑图8分别为本发明所述方法的感知集群中感知体数量对回合信息年龄、数据采集率、用户覆盖率、能量消耗率的影响示意图(在NCSU数据集上);[0068] 图9‑图12分别为本发明所述方法的感知体感知范围对回合信息年龄、数据采集率、用户覆盖率、能量消耗率的影响示意图(在NCSU数据集上)。具体实施方式[0069] 下面结合说明书附图对本发明内容作进一步详细说明。本发明所述方法包括以下步骤:[0070] 步骤1、如图1所示,感知平台打开主进程,建立一个空的经验复用池并初始化GCRL‑min(AoI)算法的参数且算法的参数包括关系图卷积网络的参数、下一状态预测模块的参数、估值网络的参数;[0071] 步骤2、感知平台开启与环境交互的子进程,子进程与环境交互一回合,建立了一个群体感知场景的仿真环境,部署U个感知体作为感知数据采集的执行者,环境中存在M个移动用户,移动用户的初始位置和移动轨迹由具体的真实数据集给出,整个感知任务被划分为相等的T个时间步,每个时间步具有相同的时长τ;[0072] U个携带满能量Emax的感知体部署在同一起点,设定感知体在高度恒定的二维平面上移动,在每一个时间步[t,t+1)内,每一个感知体u以速度 沿着方位角 的方向移动,其中vmax是感知体的最大速度,收集数据,当具体使用无人机作为感知体时,感知体在时间步[t,t+1)的能耗 由下公式(1)计算:[0073][0074] 其中,c1、c2、c3是取决于无人机重量、转子、叶片和空气密度的常数,vtip和 分别为转子的叶尖速度和平均速度。在本发明具体实施例中,设置c1=79.8563、c2=88.6279、c3=0.0185、vtip=120m/s、 和vmax=18m/s来计算感知体的能耗;[0075] M个移动用户从初始位置开始移动并感知场景、生成数据(例如交通流量信息),在时间步[t,t+1)内,每个移动用户生成数据并将其全部数据上传至距移动用户最近的感知体,具体表现为移动用户的信息年龄的变化如以下公式(2)所示:[0076][0077] 其中,m表示移动用户,u表示距移动用户最近的感知体, 是移动用户在时间步Tx Rx[t,t+1)结束时的信息年龄,PLt(u,m)‑G ‑G ≤MCL是感知体成功采集移动用户的数据的条件并对条件中各变量的含义具体解释如下:[0078] 仿真环境基于毫米波的数据上传系统,其中移动用户和感知体分别是发射者(Tx)和接收者(Rx),采用特定毫米波频率下的视距(LoS)和非视距(NLoS)链路的信道衰弱(PL)模型如以下公式(3)所示:[0079][0080] 其中,αLoS、βLoS、αNLoS、βNLoS是浮动截距和坡度上的环境参数, 是移动用户和感知体之间的3D距离,PLt(u,m)随着dt(u,m)的增大而增大,在本发明具体实施例中,设置LoS NLoS LoS NLoSα =84.64dB、α =113.63dB、β =1.55和β =1.16;[0081] 对于LoS和NLoS,当感知体位于高度hu,每个移动用户被建模为平均高度为huser、平user device device user均直径为g 的圆柱体,设定携带智能设备的移动用户位于高度h ,其中h [0082][0083] 其中, 是移动用户和感知体之间的欧氏距离,平均的信道衰弱如以下公式(5)所示:[0084][0085] 其中, 根据5GNR,选择最大耦合损耗(MCL)来表示感知体在每个时间步中的最大感知范围,定义为系统能够容忍且仍然能够运行的传导电平Tx Rx中的最大损失,在本发明具体实施例中,设G 和G 分别为Tx和Rx天线的增益根据28GHz下u user device user的mmWare频段,设置h=120m、h =1.7m、h =1.3m、g =0.5m、λ=0.005、以计算PLt(u,m);[0086] 步骤3、如图2所示,子进程在每一个时间步,观察感知区域中的移动用户和感知体的状态包括感知体和移动用户的位置、移动方向,移动用户的信息年龄,使用关系图卷积网络(RGCN)充分挖掘空间信息,抽取感知体‑移动用户的交互特征,得到对环境更可靠的表征:[0087] 步骤301、子进程观察当前感知区域中的移动用户和感知体的状态st,包括感知体和移动用户的位置、移动方向、移动用户的信息年龄;[0088] 步骤302、将观察到的状态st作为输入,送入关系图卷积网络,关系图卷积网络的输入是原始环境st中移动用户和感知体的特征 和 在关系图卷积网络中,使用两个多层感知机(MLP)将移动用户和感知体的特征嵌入到高维空间中并拼接为关系图卷积网络的输入Zt,Zt的每一列是一个移动用户或感知体的嵌入特征,用于嵌入特征的多层感知机是关系图卷积网络的参数的一部分;[0089] 步骤303、使用嵌入高斯(Embedded‑Gaussian)相似度函数根据Zt计算感知体‑移动用户关系矩阵Ct,嵌入高斯相似度函数中使用的嵌入网络的参数是关系图卷积网络的参数的一部分;[0090] 步骤304、根据特征矩阵Zt和关系矩阵Ct,使用关系图卷积网络计算交互特征,信息传递规则如以下公式(6)所示:[0091][0092] 其中, 是可学习的权重矩阵,是关系图卷积网络的参数的一部分, 是第l次图卷积操作后按矩阵Ct中的感知体‑移动用户关系加权的特征,令Zt为初始的[0093] 步骤305、经过L次信息传递过程后,最后的交互特征 被分解为感知体的交互特征 和移动用户的交互特征 上述步骤301~步骤305在不改变特征维度的情况下学习感知体与移动用户之间的空间相关性即η和s具有相同的维度以利于后续的移动用户位置预测和状态价值估计;[0094] 步骤4、如图3所示,子进程在每一个时间步,利用关系图卷积网络得到的交互特征作为输入,送入下一状态预测模块和估值网络模块,以蒙特卡洛树搜索方法作为辅助向前看N步,以选择最佳动作,使用最佳动作与环境交互,向经验复用池发送经验:[0095] 步骤401、建立一棵以当前状态作为根节点的蒙特卡洛树,所有可能的动作a作为连接根节点与其子节点的边,根节点的子节点是在当前状态st下执行动作a预测的下一状态,子节点也能够作为子树的根节点,根据以上所述递归地建立子树;[0096] 步骤402、将利用关系图卷积网络得到的交互特征 和 作为输入,送入下一状态预测模块和估值网络模块,以蒙特卡洛树搜索方法作为辅助向前看N步,以选择最佳动作at;[0097] 步骤403、遍历所有可能的动作a,动作a由每个感知体u的动作au组成,au包括移动速度 和移动方位角 根据感知体和移动用户的交互特征,辅以蒙特卡洛树搜索,使用以下公式(7)得到最佳动作at:[0098][0099] 其中,r(st,a)+γV(N)(σt+1)是在当前状态st下执行动作a的未来累计回报,r(st,a)(N)是由仿真环境决定的在当前状态st下执行动作a的即时回报,V (σt+1)是估计的下一状态的N步价值,σt+1是在当前状态st下执行动作a预测的下一状态即树中根节点的孩子节点,γ是计算未来累计回报的折扣因子;使用下一状态预测模块和估值网络计算公式(7),下一状u态预测模块用于得到σt+1,设定感知体u的交互特征 和动作a ,使用一个多层感知机作为下一状态预测模块,预测其下一状态,包括下一时刻的位置和剩余能量;将 输入另一个多层感知机 预测移动用户m的下一状态,包括下一时刻位置、剩余数据和信息年龄,拼接预测的移动用户状态和感知体状态,得到预测的下一状态σt+1,如以下公式(8)所示:[0100][0101] 其中,concat表示向量的拼接操作,估值网络用于得到V(N)(σt+1),使用多层感知机valf 作为估值网络并使蒙特卡洛树搜索向未来看N步以提供对状态价值更准确的估计,价值(N)估计模块通过以下公式(9)估计状态的N步价值V (st):[0102][0103] 公式(9)由递归的方式计算V(N)(st)的值,要求V(n)(st)的值,需要求V(n‑1)(σt+1)的(1) val值,其中σt+1由下一状态预测模块的 和 给出,V (st)由f 给出;[0104] 步骤404、得到at后,执行at,使用最佳动作与环境交互,移动到当前环境中需要采集数据的移动用户的位置并采集移动用户的数据,根据移动用户的数据采集和能量消耗计算当前即时回报rt,rt定义为上一步移动用户平均信息年龄相较于当前之差如以下公式(10)所示:[0105][0106] 其中, 是移动用户在时间步[t,t+1)的信息年龄,当前时间步感知体采集到的数据越多, 越小,回报越大,据此定义回报是有效的,随着训练过程得到能最小化信息年龄的策略;[0107] 步骤405、子进程将当前状态st、本次移动和数据获取动作at以及当前即时回报rt组成的三元组(st,at,rt)作为经验,发送至经验复用池;[0108] 步骤5、反复执行步骤3、步骤4,直到回合结束,收集当前回合的轨迹数据并上传至经验复用池,子进程关闭,当在回合的某一个时间步中检测到存在感知体撞到障碍物或者能量耗尽,则也立即结束这一回合,子进程关闭;[0109] 步骤6、如图4所示,感知平台的主进程从经验复用池中采样出批量经验数据,通过梯度下降法更新网络参数,优化感知集群的策略以逐渐降低执行策略所得的信息年龄,保存最优参数:[0110] 步骤601、当经验复用池中经验数量足够进行一次策略更新时(例如经验数量大于一个预设的常数,如256),从经验复用池中采样出批量经验数据;[0111] 步骤602、感知平台的主进程根据经验数据,根据下一状态预测模块的损失函数计算下一状态预测模块的梯度,根据估值网络的损失函数计算估值网络的梯度,并使用梯度val下降法更新网络参数,即优化感知集群的策略, f 三个网络通过对经验的学习以提升状态预测和价值估计的准确性,损失函数如以下公式(11)所示:[0112][0113] 公式(11)中各变量符号同上;[0114] 步骤603、在仿真环境中测试当前策略所得的信息年龄,当信息年龄比之前的所有测试都小,保存当前的算法参数;[0115] 步骤7、反复执行步骤2、步骤5、步骤6,直到交互的回合数量达到上限;[0116] 步骤8、感知平台主进程取出保存的GCRL‑min(AoI)算法的最优参数,即得到能够最小化信息年龄的智能集群最优策略,根据最优策略得到对应的感知集群调度轨迹,向感知集群发送最优轨迹调动指令以获取感知区域内移动用户的最新数据:[0117] 步骤801、感知平台的主进程初始化仿真环境并基于最优策略输出智能集群每一步的最佳动作,在智能集群执行完T步动作时输出动作序列,动作序列为最小化当前场景信息年龄的轨迹;[0118] 步骤802、感知平台依照动作序列向各感知体发送一系列控制指令,调度各感知体通过动态移动以获取移动用户的最新数据并将数据发送回仿真平台。[0119] 在本发明具体实施例的仿真实验中,构建群体感知任务的仿真场景,设置任务总时长T为120,时间间隔τ为15秒,基于所述的真实数据集构建环境中移动用户的部分,包括每个移动用户的初始位置和移动轨迹;对于环境中感知体的部分,通过参考工业无人机的技术报告,如DJIMatice600,设置电池容量EMAX为445毫安。需要注意的是,感知体应避免任何高于120米的高建筑,当感知体能量耗尽或撞到障碍物时,当前回合数据采集任务立刻结束。[0120] 对于模型的超参数,选用嵌入高斯函数作为相似度函数,因为使用余弦函数和平方函数作为相似度函数时,不能达到与嵌入高斯函数相同的优化测试回合信息年龄的效果。设置蒙特卡洛树搜索的深度为N=3,这相比N=1和N=2能够得到更低的测试回合信息年龄,当增加至N=4或更高时提升效果有限且会大幅增加时间复杂度。[0121] 对于训练的参数,计算累计回报的折扣因子为0.95,学习率和批训练大小分别设置为0.001和128,设置训练500个回合并选择让测试回合信息年龄取得最小值的模型。[0122] 为了展示本发明所述方法在群体感知中信息年龄最小化任务方面的性能,进行了详尽完整的系统测试,具体评价形式为当整个群体感知任务完成时系统的如下4个指标:[0123] 1.回合信息年龄 所有移动用户在数据采集过程中各时刻信息年龄的平均值;[0124] 2.数据采集率(ψ):所有感知体采集到的数据量占所有移动用户数据总量的比例;[0125] 3.用户覆盖率 移动用户数据正被采集的时间占总时间的比例,取所有移动用户的平均值;[0126] 4.能量消耗率 感知体消耗能量占总能量的比例,取所有感知体的平均值。[0127] 下面详细评估本发明所述方法的测试结果,采用以下五个基准算法进行对比:[0128] DRL‑freshMCS:导航一组配备多个天线的感知体以最小化信息年龄,被认为是在群体感知中最小化信息年龄的最优方法。[0129] MuZero:蒙特卡洛树搜索的最新版本,被认为是基于树的深度强化学习的最优方法,未使用关系图卷积网络提取感知体‑移动用户间的关系。[0130] ACKTR:一种离轨策略DRL方法,因应用于雅达利游戏的基准测试而众所周知,为了公平比较,为其添加了一个经典的GCN作为特征提取模块。[0131] 信息年龄‑感知DRQN:一种应用于车对车网络的基于DRL的解决方案,考虑了随时间变化和空间移动而高度不同的交通流量信息,基于DRQN,在持续时间长的任务中也能优化信息年龄。[0132] 随机:每个感知体u采用随机策略进行移动。[0133] 本发明所述方法以在真实世界的学生轨迹数据集上进行感知集群调度为例,分别在某大学的三个数据集上进行仿真实验(附图说明以及下文的实验结果分析仅以NCSU数据集为例)。实验分别以场景中的感知体个数U、表征感知体最大数据收集范围的MCL作为自变量,因变量为上述评价指标,即数据采集率(ψ)、用户覆盖率 能量消耗率 回合信息年龄 进行对比测试并分析结果。[0134] GCRL‑min(AoI)在NCSU数据集上的回合信息年龄优于所有五个基准算法,原因分析如下:DRL‑freshMCS利用卷积网络提取空间特征,但不考虑感知体和移动用户之间的移动性和相关性;ACKTR和信息年龄‑感知DRQN都通过简单地将感知体和移动用户的特征拼接为高维向量,这不利于有效的深度强化学习训练的进行;MuZero的性能优于其他基准算法,但仍比本发明所述方法差,这是因为MuZero同时预测回报函数和下一个状态,这需要更多的训练来收敛,因为本发明所述方法的回报函数和UCS场景比普通的DRL测试程序更复杂。[0135] 如图5‑图8所示,以NCSU数据集为例,展示了感知体个数对数据采集任务的影响,在实验中,设置MCL=117dB,依次改变感知体的数量从U=1到U=11。随着使用的感知体数量的增加,回合信息年龄持续下降,甚至在U=11时接近下限1,这是因为感知体数量越多,用户覆盖率和数据收集率就越高,且能耗越低;在任务时间固定的群体感知任务中,需要收集的数据总量是一定值,部署更多感知体将有助于减少每个感知体的收集负担以学习到更有效的感知集群合作模式。[0136] 如图9‑图12所示,展示了感知体感知范围MCL对数据采集任务的影响,在实验中,设置U=2,依次改变MCL从115dB到123dB,大多数方法的回合信息年龄随着MCL的增加而单调下降,更高的MCL允许每个感知体移动更短的距离即能覆盖更多的移动用户并有助于回合信息年龄的优化。[0137] 本发明并不限于上述实施方式,在不背离本发明实质内容的情况下,本领域技术人员可以想到的任何变形、改进、替换均落入本发明的保护范围。
专利地区:北京
专利申请日期:2021-09-17
专利公开日期:2024-07-26
专利公告号:CN113934966B