专利名称:一种移动边缘计算系统能源优化分配方法
专利类型:发明专利
专利申请号:CN202010829335.X
专利申请(专利权)人:华南理工大学
权利人地址:广东省广州市天河区五山路381号
专利发明(设计)人:林伟伟,许银海,黄天晟
专利摘要:本发明公开了一种移动边缘计算系统能源优化分配方法,方法包括以下步骤:假设到达事件的时间间隔呈指数分布,将MEC系统能源分配问题转化为联系时间的马尔可夫决策模型;所述马尔可夫决策模型包括系统状态s、系统动作a、奖励r(s,a)、策略π、值函数V(s)以及状态转移概率p(s′|s,a)六个要素;获取确切的状态转移概率,采用Model‑Based的方法来求解模型;通过值迭代的方法求解每个状态值函数的精确解,得到能源分配的最优策略。本发明移动边缘计算系统能源分配问题,转化成连续时间的马尔可夫决策模型,并通过值迭代的方法求解每个状态值函数的精确解,从而找到能源分配的最优策略,实现MEC系统的长期可持续计算。
主权利要求:
1.一种移动边缘计算系统能源优化分配方法,其特征在于,包括以下步骤:假设到达事件的时间间隔呈指数分布,将移动边缘计算MEC系统能源分配问题转化为连续时间的马尔可夫决策模型;所述MEC系统包括调度器,调度器用于判断MEC系统是否接受任务,并为被接受任务分配虚拟机和能源;所述马尔可夫决策模型包括系统状态s、系统′动作a、奖励r(s,a)、策略π、值函数V(s)以及状态转移概率p(s|s,a)六个要素;新的到达事件到达时,MEC系统发生状态转移,所述到达事件包括任务到达事件、能源到达事件以及任务完成事件;所述状态转移概率和下一个到达事件发生的概率相同,值由特定到达事件概率与系统到达总事件的比率来确定;
根据不同系统状态和不同系统动作条件下的状态转移概率,获取确切的状态转移概率,采用Model‑Based的方法来求解模型;
通过值迭代的方法求解每个系统状态值函数的精确解,得到能源分配的最优策略;
所述系统状态s具体表示如下:
其中,b为当前系统状态下MEC系统的剩余能源, 表示分配kn个单位能源的运行虚拟机的数量,kn表示分配给虚拟机的单位能源数量;
在任意系统状态下,到达事件e满足:
其中,Ar、Ae和 分别表示任务到达事件、能源到达事件和任务完成事件;
当任务到达事件到达,即e=Ar,若系统动作a=0,表示调度器拒绝任务到达事件,若系统动作a=kn,则表示MEC系统为到达任务请求分配一个具有kn单位能源的虚拟机;所述能源到达事件到达时,每次为MEC系统带来qeJ的能源;其他事件到达时,调度器不执行任何实质性操作;
所述系统奖励r(s,a)具体表示如下:
r(s,a)=g(s,a)‑c(s,a)τ(s,a)
其中,g(s,a)表示直接奖励,c(s,a)和τ(s,a)分别表示当前任务到达事件和下一任务到达事件之间的成本和逗留时间,c(s,a)τ(s,a)则表示在两个连续到达事件时间点之间内所有计算请求所增加的延迟;
所述直接奖励g(s,a)具体表示如下:
其中,U表示到达任务的本地计算时间;
所述成本c(s,a)具体表示如下:
其中, 表示MEC系统中运行虚拟机的数量,所述虚拟机的数量在事件到达之间不会发生变化;1{a>0}表示在系统动作a>0时,等于1,否则为0;
所述任务到达事件和能源到达事件分别服从参数为λr、λe的泊松分布;任务到达事件与任务完成事件的间隔时间服从参数为μc(kn)的指数分布,μc(kn)具体表示如下:其中,φ表示卸载请求的平均数据大小,v表示计算一位卸载请求数据所需的CPU周期数,κ表示MEC系统处理器的有效开关电容。 说明书 : 一种移动边缘计算系统能源优化分配方法技术领域[0001] 本发明属于移动边缘计算系统的能源分配技术领域,具体涉及一种移动边缘计算系统能源优化分配方法。背景技术[0002] 随着互联网技术的广泛普及以及移动通信技术的蓬勃发展,移动互联网已成为人们日常生活的重要组成部分。智能手机、平板电脑、智能穿戴设备和车载移动设备等智能移动终端已逐渐取代个人电脑,成为人们在工作、学习、社交和娱乐中使用的主要工具。为了解决移动设备能源受限的问题,人们提出了一种新的网络架构——移动边缘计算(MEC)。据ETSI定义,移动边缘计算为:在网络边缘为应用开放者和内容服务商提供所需的云计算功能和IT服务环境,以减少网络操作和服务交付的时延,提高用户体验。[0003] 移动边缘计算(MEC)需要在城市中分布数以百万计的小服务器,依靠传统电力电网设施供电开销太大。由于能源收集(EH)技术的进步,太阳辐射和风能等可再生能源已成为MEC系统可行且有前景的电源。但这些能源的达到具有高度随机性,因此需要将收集到的能源存储在MEC系统电池中。如果没有足够的可用能源,系统就无法正常运行,因此,对每个请求进行计算的能源使用规划可能会对系统的可持续运行产生深远的影响。举例来说,如果没有提供足够的能源来处理即将到来的请求,计算速度就不能满足用户的需求。相反,如果分配了过多的能源,MEC系统可能会由于电池电量不足而错过接下来的几个请求。故对MEC系统能源进行合理分配,保证实现MEC系统的长期可持续计算能源成为了新的挑战。发明内容[0004] 本发明的主要目的在于克服现有技术的缺点与不足,提供一种移动边缘计算系统能源优化分配方法,将移动边缘计算系统能源分配问题,转化成连续时间的马尔可夫决策模型,并通过值迭代的方法求解每个状态值函数的精确解,从而找到能源分配的最优策略,实现MEC系统的长期可持续计算。[0005] 为了达到上述目的,本发明采用以下技术方案:[0006] 本发明提供的一种移动边缘计算系统能源优化分配方法,包括以下步骤:[0007] 假设到达事件的时间间隔呈指数分布,将移动边缘计算MEC系统能源分配问题转化为联系时间的马尔可夫决策模型;所述MEC系统包括调度器,调度器用于判断MEC系统是否接受任务,并为被接受任务分配虚拟机和能源;所述马尔可夫决策模型包括系统状态s、系统动作a、奖励r(s,a)、策略π、值函数V(s)以及状态转移概率p(s′|s,a)六个要素;新的到达事件到达时,MEC系统发生状态转移,所述到达事件包括任务到达事件、能源到达事件以及任务完成事件;所述状态转移概率和下一个到达事件发生的概率相同,值由特定到达事件概率与系统到达总事件的比率来确定;[0008] 根据不同系统状态和不同系统动作条件下的状态转移概率,获取确切的状态转移概率,采用Model‑Based的方法来求解模型;[0009] 通过值迭代的方法求解每个系统状态值函数的精确解,得到能源分配的最优策略。[0010] 进一步的,所述系统状态s具体表示如下:[0011][0012] 其中,b为当前系统状态下MEC系统的剩余能源,表示分配运行虚拟机的数量,表示分配个单位能源的运行虚拟机的数量,kn表示分配给虚拟机的单位能源数量;[0013] 在任意系统状态下,到达事件e满足:[0014][0015] 其中,Ar、Ae和 分别表示任务到达事件、能源到达事件和任务完成事件。[0016] 进一步的,当任务到达事件到达,即e=Ar,若系统动作a=0,表示MEC调度器拒绝任务到达事件,若系统动作a=kn,则表示MEC系统为到达任务请求分配一个具有kn单位能源的虚拟机;所述能源到达事件到达时,每次为MEC系统带来qeJ的能源;其他事件到达时,MEC调度器不执行任何实质性操作。[0017] 进一步的,所述系统奖励r(s,a)具体表示如下:[0018] r(s,a)=g(s,a)‑c(s,a)τ(s,a)[0019] 其中,g(s,a)表示直接奖励,c(s,a)和τ(s,a)分别表示当前任务到达事件和下一任务到达事件之间的成本率和逗留时间,c(s,a)τ(s,a)则表示在两个连续到达事件时间点之间内所有计算请求所增加的延迟;[0020] 所述直接奖励g(s,a)具体表示如下:[0021][0022] 其中,U表示到达任务的本地计算时间;[0023] 所述成本率c(s,a)具体表示如下:[0024][0025] 其中, 表示MEC系统中运行虚拟机的数量,所述虚拟机的数量在事件到达之间不会发生变化;1{a>0}表示在系统状态a>0时,等于1,否则为0。[0026] 进一步的,所述任务到达事件和能源到达事件分别服从参数为λr、λe的泊松分布;任务到达事件与任务完成事件的间隔时间服从参数为μc(kn)的指数分布,μc(kn)具体表示如下:[0027][0028] 其中,φ表示卸载请求的平均数据大小,v表示计算一位卸载请求数据所需的CPU周期数,κ表示MEC系统处理器的有效开关电容。[0029] 进一步的,所述到达事件之间逗留时间服从参数为β(s,a)的指数分布,β(s,a)表示所有可能事件的发生率之和,具体表示如下:[0030][0031] 其中,λr、λe分别表示任务到达事件和能源到达事件的概率期望;[0032] 所述到达事件之间逗留时间的概率密度函数具体如下:[0033][0034] 当MEC调度器接受任务到达事件时,需要打开一个新的虚拟机,即并为其分配kj的能源,此时能源分配kj的虚拟机的任务完成率变成 当任务完成事件达到时,即 事件发生,系统将关闭运行此任务的虚拟机,此时分配kj的虚拟机的任务完成率变成(σkj‑1)μc(kj)。[0035] 进一步的,所述获取确切的状态转移概率具体为:[0036] 不同系统状态和不同系统动作条件下的状态转移概率如下:[0037] 当 时,[0038][0039] 其中,s′表示下一个系统状态;[0040] 当 时,即到达的新事件是能源到达事件,则三种到达事件的发生概率不会发生变化:[0041][0042] 其中, 等价于min(b+1,bm);[0043] 当 时,[0044][0045] 进一步的,所述奖励函数采用折扣模型,预期折扣奖励推导具体如下:[0046][0047] 其中,η为折扣因子。[0048] 进一步的,当遵循所述固定策略π时,得到无限时间范围内的折扣奖励,具体表示如下:[0049][0050] 其中,tp表示MEC系统第p次动作的开始时间,sp表示MEC系统第p次动作时的系统状态, 表示在系统状态sp下遵循策略π的奖励, 表示在tp遵循策略π时MEC系统采取的系统动作,所获得的奖励都需要折扣函数[0051] 所述连续时间的马尔可夫模型目标是实现一个最大奖励的策略,表示如下:[0052]*[0053] 其中,π表示最优策略;[0054] 对于所有的系统状态s∈S,都满足贝尔曼最优方程,具体如下:[0055][0056] 其中,[0057] 进一步的,所述值迭代具体包括以下步骤:[0058] 初始化,对于所有系统状态s∈S,q=0、Vq(s)=0;[0059] 更新值函数,对于系统状态s∈S,[0060][0061] q=q+1,若‖Vq‑Vq‑1‖>ε,返回到更新值函数步骤;[0062] 寻找最佳能源分配策略,对于所有系统状态s∈S,[0063][0064] 本发明与现有技术相比,具有如下优点和有益效果:[0065] 本发明通过假设到达事件的时间间隔呈指数分布将移动边缘计算系统能源分配问题转化成连续时间的马尔可夫决策模型,并采用值迭代的model‑based方法求解每个状态值函数的精确解,找到能源分配的最优策略,解决了移动边缘计算系统任务丢失以及不满足延时等问题,实现MEC系统系统的长期可持续计算。附图说明[0066] 图1是本发明方法中移动边缘计算系统能源分配模型简化示意图;[0067] 图2是本发明方法中值迭代求解算法。具体实施方式[0068] 下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。[0069] 实施例[0070] 考虑对传入请求的三种可选能源分——1、2和3个能源单位。MEC系统从其初始状态(电池中包含一个能源单位)开始,在遇到能源到达事件时接收一个额外的能源单位。然后一个任务请求到达MEC系统,它决定为任务请求保留1个能源单位,系统动作a=1。相应地,电池电量将减少1,当前运行的1单位能源分配VM的数量(记录为α1)将跳转到1。在接收到另一个一个单位的能源后,VM中的计算已经完成(任务完成事件到达),然后α1将跳转到0。最后一个事件是另一个任务到达事件,但这次,MEC系统为它安排2个单元的能源分配,即a=2。[0071] 如图1所示,本发明一种移动边缘计算系统能源优化分配方法,包括以下步骤:[0072] S1、假设到达事件的时间间隔呈指数分布,将MEC系统能源分配问题转化为连续事件的马尔可夫决策模型,该模型包括系统状态s、系统动作a、奖励r(s,a)、策略π、值函数V(s)以及状态转换概率p(s′|s,a)六个要素,具体为:[0073] A)系统状态s,所述系统状态s表示如下:[0074][0075] b为当前状态下MEC系统的剩余能源, 表示分配运行虚拟机的数量,e表示到达事件,新事件的到来产生系统状态转移,所述到达事件包括任务到达事件、能源到达事件以及任务完成事件。[0076] 在任意系统状态下,到达事件e满足:[0077][0078] 其中,Ar、Ae和 分别表示任务到达事件、能源到达事件和任务完成事件。[0079] 在本实施例中,所述MEC系统包括MEC调度器。[0080] B)系统动作a,;当任务到达,即e=Ar,若系统动作a=0,表示MEC调度器拒绝任务到达事件,若系统动作a=kn,则表示MEC系统为到达任务请求分配一个具有kn单位能源的虚拟机;[0081] 在本实施例中,假设能源到达事件到达时,每次都将为MEC系统带来1个单位(qeJ)的能源。其他事件到达时,MEC调度器不执行任何实质性操作。[0082] C)系统奖励r(s,a),所述系统奖励r(s,a)具体表示如下:[0083] r(s,a)=g(s,a)‑c(s,a)τ(s,a)[0084] 其中,g(s,a)表示直接奖励,c(s,a)和τ(s,a)分别表示当前任务到达事件和下一任务到达事件之间的成本率和逗留时间,c(s,a)τ(s,a)则表示在两个连续到达事件时间点内所有计算请求所增加的延迟;[0085] 所述直接奖励g(s,a)具体表示如下:[0086][0087] 其中,U表示到达任务的本地计算时间;换而言之,使用MEC计算,MEC系统将为请求者节省U个单位时间。[0088] 在本实施例中,不考虑由本地移动设备的不同容量引起的不同的本地计算时间,也就是说,对每个请求的即时回报预期是相同。[0089] 所述成本率c(s,a)具体表示如下:[0090][0091] 其中, 表示MEC服务器中运行虚拟机的数量,所述虚拟机的数量在事件到达之间不会发生变化;1{a>0}表示在系统a>0时,等于1,否则为0。[0092] 在本实施例中,对于每一秒而言,当前任务请求的计算服务延迟时间之和将增加ct秒,其中ct为现有虚拟机总数量。[0093] 所述任务到达事件和能源到达事件分别服从参数为λr、λe的泊松分布;任务到达事件与任务完成事件的间隔时间服从参数为μc(kn)的指数分布,μc(kn)具体表示如下:[0094][0095] 其中,φ表示卸载请求的平均数据大小,v表示计算以为卸载请求数据所需的CPU周期数,κ表示MEC系统处理器的有效开关电容。[0096] 所述到达事件之间逗留时间服从参数为β(s,a)的指数分布,β(s,a)表示所述有可能事件的发生率之和,具体表示如下:[0097][0098] 其中,λr、λe分别表示任务到达事件和能源到达事件的概率期望;[0099] 所述到达事件之间逗留时间的概率密度函数具体如下:[0100][0101] 在本实施例中,当MEC调度器接受任务到达事件时,需要打开一个新的虚拟机,即并为其分配kj的能源,此时能源分配kj的虚拟机的任务完成率变成当任务完成事件达到时,即 事件发生,系统将关闭运行此任务的虚拟机,此时分配kj的虚拟机的任务完成率变成(σkj‑1)μc(kj)。[0102] 所述奖励函数采用折扣模型,预期折扣奖励推导具体如下:[0103][0104][0105] 其中,η为折扣因子。在本实施例中,采用指数形式的e‑ηt作为折扣相比于ηt可以让期望值简单化。[0106] D)策略π,当遵循所述固定策略π时,得到无限时间范围内的折扣奖励,具体表示如下:[0107][0108] 其中,tp表示系统第p次动作的开始时间,sp表示系统第p次动作时的系统状态,表示在状态sp下,遵循策略π的奖励, 表示在tp遵循策略π系统采取的动作,每次动作所获得的奖励都需要折扣函数[0109] 所述连续时间的马尔可夫模型目标是实现一个最大奖励的策略,表示如下:[0110][0111] 其中,π*表示最优策略;为简化符号,本实施例中,让[0112] E)对于所有的系统状态s∈S,都满足贝尔曼最优方程,值函数V(s)具体如下:[0113][0114] 其中,[0115] S2、获取确切的状态转移概率,采用Model‑Based的方法来求解模型,具体为:[0116] F)状态转移概率p(s′|s,a)[0117] 不同系统状态和不同系统动作条件下的状态转移概率如下:[0118] 当 时,[0119][0120] 其中,s′表示下一个系统状态;[0121] 当 时,即到达事件是能源到达事件,则三种事件的发生概率不会发生变化:[0122][0123] 其中, 等价于min(b+1,bm);[0124] 当 时,[0125][0126] S3、通过值迭代的方法求解每个系统状态值函数的精确解,找出最优能源分配方案,具体包括以下步骤:[0127] S31、初始化,对于所有系统状态s∈S,q=0、Vq(s)=0;[0128] S32、更新值函数,对于系统状态s∈S,[0129][0130] S33、q=q+1,若‖Vq‑Vq‑1‖>ε,返回到步骤S32;[0131] S34、寻找最佳能源分配策略,对于所有系统状态s∈S,[0132][0133] 还需要说明的是,在本说明书中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。[0134] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
专利地区:广东
专利申请日期:2020-08-18
专利公开日期:2024-07-26
专利公告号:CN112101728B