可左右滑动选省市

基于深度强化学习的认知无线网络动态频谱接入方法

更新时间:2025-11-01
基于深度强化学习的认知无线网络动态频谱接入方法 专利申请类型:实用新型专利;
源自:内蒙古高价值专利检索信息库;

专利名称:基于深度强化学习的认知无线网络动态频谱接入方法

专利类型:实用新型专利

专利申请号:CN202210796138.1

专利申请(专利权)人:内蒙古大学
权利人地址:内蒙古自治区呼和浩特市赛罕区大学西街235号

专利发明(设计)人:刘洋,赵鑫,张秋彤,宋凯鹏,龙旭东,那顺乌力吉

专利摘要:本申请提供一种基于深度强化学习的认知无线网络动态频谱接入方法,包括:对预先提出的动态频谱接入问题进行建模和分析;预先构建双深度强化学习网络模型;根据第一深度强化学习网络模型,获取系统模型中次用户基于动态频谱接入策略的所有动态频谱接入动作的Q值;各个次用户选择Q值最优状态下次用户的动态频谱接入动作;根据选择的次用户的动态频谱接入动作选择第二深度强化学习网络模型的目标Q值;计算损失函数,通过最小化损失函数训练双深度强化学习网络模型,并更新双深度强化学习网络模型的权重。本申请满足多用户多信道认知无线网络中大状态动作空间的高计算需求,利用过去观测来预测现实状态,加快收敛速度并提高预测精度。

主权利要求:
1.一种基于深度强化学习的认知无线网络动态频谱接入方法,其特征在于,该方法包括:在系统模型中,对预先提出的动态频谱接入问题进行建模和分析,获取动态频谱接入策略;
预先构建双深度强化学习网络模型;
初始化双深度强化学习网络模型中第一深度强化学习网络模型和第二深度强化学习网络模型的参数;
根据第一深度强化学习网络模型,获取系统模型中次用户基于动态频谱接入策略的所有动态频谱接入动作的Q值;
各个次用户根据Q值的大小,选择Q值最优状态下次用户的动态频谱接入动作;
根据选择的次用户的动态频谱接入动作,来选择第二深度强化学习网络模型的目标Q值;
计算损失函数,并通过最小化损失函数来训练双深度强化学习网络模型,并更新双深度强化学习网络模型的权重;
其中,每个次用户的目标是找到一个动态频谱接入策略σi,使其预期累积的折扣收益最大化:i
其中, 表示获取最大化累积折扣收益下的策略σi,R 表示第i个次用户的累积折扣收益;
γ∈[0,1]为折扣因子,T是整个信道接入过程的时间范围; 表示第i个SU的收益函数;
第i个SU的收益函数表示为:
当SU访问当前没有PU或其他SU正在使用的信道时,不会产生任何干扰,频谱接入成功,ot=1;当SU访问当前被PU占用的信道或超过两个SU同时访问该信道时,SU与PU或SU发生碰撞,ot=0;‑C表示为负收益;
双深度强化学习网络模型的权重更新表示为:
其中,θt+1表示双深度强化学习网络t+1时刻的权重;θt表示双深度强化学习网络t时刻的权重;st表示t时刻的状态;st+1表示t+1时刻的状态;at表示t时刻的行动;γ∈[0,1]为折扣因子;θ表示DQN1的权重;θ‘表示DQN2的权重;发射器和接收器之间视距LoS路径上到达信号的相位,从0到1之间的均匀分布中取值; 表示选择 值取最大值时的行为a′;表示梯度算子,表示梯度; 表示获取Q值;αt表示参数;
其中,双深度强化学习网络模型均包括输入层、回声状态网络层、优先级经验回放深度Q网络层和输出层。
2.根据权利要求1所述的基于深度强化学习的认知无线网络动态频谱接入方法,其特征在于,系统模型为多用户多信道认知无线网络,系统模型包括主网络和次网络,主网络由M个主用户组成,次网络由N个次用户组成。
3.根据权利要求1所述的基于深度强化学习的认知无线网络动态频谱接入方法,其特征在于,回声状态网络层包括依次连接的输入层、储备池层和输出层;输出层的输出向量O(t)表示为:O(t)=Woutx(t);
其中,输出向量O(t)是一个维数为2M的向量,O(t)上的每个元素对应于每个次用户选择的Q值;Wout为储备池层到输出层的输出权重。
4.根据权利要求1所述的基于深度强化学习的认知无线网络动态频谱接入方法,其特征在于,双深度强化学习网络的目标Q值表示为:其中,rt+1表示t时刻收益; 表示选择 值取最大值时的行为a′;st+1表示t+1时刻的状态;θ表示第一深度强化学习网络模型的权重;θ‘表示第二深度强化学习网络模型的权重。
5.根据权利要求4所述的基于深度强化学习的认知无线网络动态频谱接入方法,其特征在于,双深度强化学习网络的损失函数定义为:2
其中,L(θ)表示损失函数;E[]表示均方误差;rt+1表示t+1时刻收益;γ∈[0,1]为折扣因子; 表示获取Q值。
6.根据权利要求4所述的基于深度强化学习的认知无线网络动态频谱接入方法,其特征在于,对双深度强化学习网络的权重进行重要性采样的方法修正;修正的计算方法为:‑β
wj=(N·P(j)) /maxiwi;
其中,wi表示修正前的权重;wj表示修正后的权重;P(j)代表抽取经验j的概率,N代表样本大小,参数β代表修正率。
7.根据权利要求4所述的基于深度强化学习的认知无线网络动态频谱接入方法,其特征在于,初始化双深度强化学习网络模型中第一深度强化学习网络模型和第二深度强化学习网络模型的参数包括状态S(t)、动作A(t)、权重更新间隔W、容量为|D|的经验回放区D和权重。 说明书 : 基于深度强化学习的认知无线网络动态频谱接入方法技术领域[0001] 本申请涉及计算机技术领域,尤其涉及一种基于深度强化学习的认知无线网络动态频谱接入方法。背景技术[0002] 随着无线通信的快速发展,本申请正迈向万物互联的世界。在4G通信中,只有10GHz以下的频段被占用,而5G开始使用毫米波频段,甚至6G无线电可以在比5G至少大五倍的信道带宽上实现分配和服务,以适应不断提高的数据速率、更高的可靠性要求和传感、定位等新的服务。同时,在通往6G的道路上,下一代无线电预计将以更高的带宽占用为目标,目前带宽已超过100GHz。然而现代通信系统对频谱资源的利用还存在以下两个方面的挑战。一方面,频谱资源是有限且不可再生的稀缺资源。另一方面,现有无线电频谱在资源和流量方面存在分配不平衡的问题;很大一部分的无线电频谱仍未得到充分利用,而另一部分的频谱资源承载了过大的通信量,频谱出现了拥挤的使用情况。[0003] 1999年,Mitola和Maguire在软件无线电的基础上提出了认知无线电(CognitiveRadio,CR)的全新概念。其主要原理是实现机会主义的频谱接入,即未经授权的用户(也称为SecondaryUser,SU或认知用户)首先进行频谱感知,机会地接入原本授予许可用户(或PrimaryUser,PU或主用户)暂时很少使用甚至没有使用的空闲频段,即频谱空洞当中。因此,如何在不影响主用户通信的前提下,提高次用户对主用户所在频段的利用效率成为频谱接入的关键问题。[0004] 频谱接入主要包括静态频谱接入和动态频谱接入两种接入方式。静态频谱接入是指通信系统只能在频率管理部门预先分配的频率或频段上工作,它具有管理规范以及系统运行高可靠性的优点。但由于无线频谱资源非常少,因此静态频谱接入模式会导致频谱利用不足。动态频谱接入(DynamicSpectrumAccess,DSA(动态频谱接入))技术因其可以利用用户的不同业务需求来选择传输通道,进而满足各种特殊应用的带宽和服务质量要求而被提出用于广泛的通信系统之中,以提高在有限频段中的频谱效率。在动态频谱接入技术中,SU一旦检测到PU并重新获得该频段,即应迅速腾出该信道。因此,动态频谱接入技术的关键问题是如何保证在不影响主用户通信的前提下实现次用户对频谱空洞的动态接入。这一问题对频谱接入决策的速度提出了更高的要求。同时,主用户在面对干扰时,应具有对抗干扰的能力。[0005] 目前基于经济学的动态频谱接入方法原理是将动态频谱接入过程视为对频谱的交易过程,并根据交易策略完成SU对PU的频谱接入。其中博弈论作为目前流行的方法,将SU之间对网络资源的竞争建模为一种非合作性的博弈,被用作基于场景的认知无线网络分析和建模的数学框架。目前提出了利用博弈论将动态频谱接入中的抗干扰信道选择问题表述为认知无线网络中的抗干扰动态博弈问题,其中活跃用户集因其特定的流量需求而变化。还提出了一种基于动态射频收费技术的新型激励架构,以改善频谱效率,并使用Stackelberg博弈论来制定问题。在竞价拍卖理论中,主用户扮演着频谱卖家的角色,次用户扮演着频谱买家的角色。基于定价策略来克服传统机制的缺点,提出了一个计划操纵多赢家拍卖机制的新框架。还提出了一个基于区块链技术和智能合约的免许可频谱资源管理的一般框架。然而,大多数博弈论和竞价拍卖理论往往依赖于频谱统计数据的可用性,以制定策略和应对频谱的动态变化。由于这样的信息不是先验的信息,所以限制了这种方法的适用性。[0006] 目前基于图论的动态频谱接入方法则是将主次用户对频段的竞争通过冲突图来表示,其中每一节点代表一个SU,边代表共享边的节点之间的干扰。利用k‑近邻法和层次分析法,综合考虑带宽、网络开销、偏好、连通概率和信噪比等因素,进行接入决策。在贪婪转发的情况下,为所有认知无线网络节点和网络部署寻找一个共同的节能传输范围和传输期限,以最大限度地减少对接收器的能耗。然而传统图论方法在处理多节点大量数据的现代通信网络时,因其复杂的关系和庞大的节点数,导致在实际应用中无法快速计算得到决策结果,受到了极大的限制。[0007] 因此,以上传统的动态频谱接入方法不能有效利用到目前频谱密集使用的情况下。此外,传统DSA(动态频谱接入)技术的一个局限性是需要先验网络信息(例如,每个时隙中每个信道可访问的概率),这往往是未知的或在实践中很难获得。而基于机器学习(MachineLearning,ML)的方法因其能够适应动态未知环境而被引入DSA(动态频谱接入)领域。具体来说,通过机器学习,频谱接入将不仅由当前的频谱感知结果决定,而且还由过去的频谱状态的学习结果决定。这样一来,就可以大大缓解不完善的频谱感知带来的负面影响。此外,机器学习可以使DSA(动态频谱接入)设备获得准确的信道状态和有用的信道状态预测/统计信息,如PU的行为和其他SU的负载,因此基于机器学习的频谱接入可以大大减少SU和PU之间的碰撞。作为ML的一个重要分支,强化学习的特点是学习网络可以与变化的和不确定的环境进行交互,以获得知识,这在处理动态系统方面提供了卓越的性能。Q学习作为一种常用的RL(强化学习)方法,通过直接估计每个状态下的每个动作的Q值来替代建立马尔可夫决策过程的动态模型的方法,接着Q值估计预期的累积折现收益,然后可以通过选择每个状态中Q值最高的动作来实现策略。目前提出了一个多个授权频谱辅助接入(LicenseAssistedAccess,LAA)和Wi‑Fi链路竞争频谱共享子信道接入的共存场景。提出了一种基于强化学习的子信道选择技术,该技术允许接入点和eNBs在考虑媒体接入控制信道接入协议和物理层参数的情况下,分布式地选择最佳子信道。还提出了一种基于DDQN算法的多目标蚁群算法和基于贪婪算法的优化方法,旨在减少SU和PU之间的干扰,以提高基于物联网的认知无线网络的网络性能。为解决资源分配不均衡带来的影响,提出了一种Q学习算法,在通信和计算约束条件下,根据网络切片请求的总参数最大化网络效用。[0008] 然而,由于未来的无线网络复杂且大规模庞大,RL(强化学习)无法有效地处理高维的输入状态空间,因此开发了深度强化学习来解决大状态空间下的复杂频谱接入决策任务。深度强化学习将深度学习和RL(强化学习)结合起来,在与环境的互动中,代理会学习策略并最大化收益。目前提出了一个深度强化学习模型,用混合整数和非线性规划的数学方法实现实时频谱分配。还提出了一个基于单智能体深度Q网络(DeepQNetwork,DQN)的工业物联网频谱资源管理方案,其目标是实现不同类型用户之间的频谱共享。还提出了基于DRL的分布式动态频谱接入方法,在大状态空间和本地观测信息下搜索DSA(动态频谱接入)(动态频谱接入)问题的最优解。这些分布式学习方法能够鼓励设备在没有中央控制器的情况下根据自己的观察做出频谱接入决策,因此它们在寻找实时服务的高效解决方案方面具有很大的潜力。为第五代移动通信系统(5thGenerationMobileCommunicationTechnology,5G)网络中的多样化服务分配无线电资源,提出了一个网络驱动的深度分布式Q网络。此外,还提出了一种基于DRL的多路接入协议,在考虑服务公平性的前提下学习最优的频谱接入策略。为了最大化边缘节点的体验质量,同时利用自适应压缩方案延长节点的电池寿命,提出了一个基于多智能体深度强化学习的分布式动态网络选择框架。为学习一种低碰撞率但高信道利用率的信道接入策略,提出了一种基于深度循环Q网络(DeepRecurrentQNetwork,DRQN)的分布式动态频谱接入算法。DRQN在具有部分可观测性或噪声状态观测的频谱接入任务中表现出了令人印象深刻的经验性能。然而,上述工作没有研究如何解决大规模的频谱资源分配问题。而且大多数文章都为提高接入准确度而牺牲了收敛速度,没有考虑到优化问题中严格的可靠性和延时约束。[0009] 因此,解决多用户多信道认知无线网络中大状态动作空间导致的高计算需求,以及如何更好的在深度强化学习算法中体现深度神经网络可以利用过去观测来预测现实状态的能力,加快收敛速度并提高预测精度是目前亟需解决的技术问题。发明内容[0010] 本申请的目的在于提供一种基于深度强化学习的认知无线网络动态频谱接入方法,满足多用户多信道认知无线网络中大状态动作空间的高计算需求,可以利用过去观测来预测现实状态,加快收敛速度并提高预测精度。[0011] 为达到上述目的,本申请提供一种基于深度强化学习的认知无线网络动态频谱接入方法,该方法包括:[0012] 在系统模型中,对预先提出的动态频谱接入问题进行建模和分析,获取动态频谱接入策略;[0013] 预先构建双深度强化学习网络模型;[0014] 初始化双深度强化学习网络模型中第一深度强化学习网络模型和第二深度强化学习网络模型的参数;[0015] 根据第一深度强化学习网络模型,获取系统模型中次用户基于动态频谱接入策略的所有动态频谱接入动作的估计Q值;[0016] 各个次用户根据估计Q值的大小,选择Q值最优状态下次用户的动态频谱接入动作;[0017] 根据选择的次用户的动态频谱接入动作,来选择第二深度强化学习网络模型的目标Q值;[0018] 计算损失函数,并通过最小化损失函数来训练双深度强化学习网络模型,并更新双深度强化学习网络模型的权重。[0019] 如上的,其中,系统模型为多用户多信道认知无线网络,系统模型包括主网络和次网络,主网络由M个主用户组成,次网络由N个次用户组成。[0020] 如上的,其中,双深度强化学习网络模型包括输入层、回声状态网络层、优先级经验回放深度Q网络层和输出层。[0021] 如上的,其中,回声状态网络层包括依次连接的输入层、储备池层和输出层;输出层的输出向量O(t)表示为:[0022] O(t)=Woutx(t);[0023] 其中,输出向量O(t)是一个维数为2M的向量,O(t)上的每个元素对应于每个次用户选择的估计Q值;Wout为储备池层到输出层的输出权重。[0024] 如上的,其中,双深度强化学习网络模型的权重更新表示为:[0025][0026] 其中,θt+1表示双深度强化学习网络t+1时刻的权重;θt表示双深度强化学习网络t时刻的权重;st表示t时刻的状态;st+1表示t+1时刻的状态;at表示t时刻的行动;γ∈[0,1]为折扣因子;θ表示DQN1的权重;θ‘表示DQN2的权重;LoS(发射器和接收器之间视距路径)路径上到达信号的相位,从0到1之间的均匀分布中取值; 表示选择值取最大值时的行为a';表示梯度算子,表示梯度; 表示获取Q值;αt表示参数。[0027] 如上的,其中,双深度强化学习网络的目标Q值表示为:[0028][0029] 其中,rt+1表示t时刻收益; 表示选择 值取最大值时的行为a';st+1表示t+1时刻的状态;θ表示第一深度强化学习网络模型的权重;θ‘表示第二深度强化学习网络模型的权重。[0030] 如上的,其中,双深度强化学习网络的损失函数定义为:[0031][0032] 其中,L(θ)表示损失函数;E[]2表示均方误差;rt+1表示t+1时刻收益;γ∈[0,1]为折扣因子; 表示获取Q值。[0033] 如上的,其中,对双深度强化学习网络的权重进行重要性采样的方法修正;修正的计算方法为:[0034] wj=(N·P(j))‑β/maxiwi;[0035] 其中,wi表示修正前的权重;wj表示修正后的权重;P(j)代表抽取经验j的概率,N代表样本大小,参数β代表修正率。[0036] 如上的,其中,每个次用户的目标是找到一个动态频谱接入策略σi,使其预期累积的折扣收益最大化:[0037]i[0038] 其中, 表示获取最大化累积折扣收益下的策略σi,R表示第i个次用户的累积折扣收益;[0039][0040] γ∈[0,1]为折扣因子,T是整个信道接入过程的时间范围; 表示第i个SU的收益函数。[0041] 如上的,其中,初始化双深度强化学习网络模型中第一深度强化学习网络模型和第二深度强化学习网络模型的参数包括状态 动作 权重更新间隔W、容量为|D|的经验回放区D和权重。[0042] 本申请实现的有益效果如下:[0043] (1)本申请提出了一种基于PER‑DESQN的多用户多信道认知无线网络动态频谱接入算法。由于在经典深度强化学习中,深度神经网络结构复杂导致收敛速度下降,因此本申请采用ESN(回声状态网络)网络利用底层时间相关性作为Q网络预测并估计Q值,大大降低了训练的计算量,缩短收敛时间。同时,为了解决DQN网络中存在的Q值过估计问题,因此采用DDQN网络将估计Q值和决策动作过程分别用两个网络训练,避免使用同一个Q值训练网络,提高了预测精度。[0044] (2)为了解决在DDQN算法中以随机采样的方法在经验回放区内采样带来的Q值不稳定的问题,本申请提出利用基于SumTree的优先级经验回放机制,并结合重要性采样原则,对经验池中的样本按优先级采样,提升算法稳定性和接入准确度。仿真实验表明,基于PER‑DESQN的多用户多信道认知无线网络动态频谱接入算法可以做出快速准确的动态频谱接入决策,并显著增加系统传输速率。附图说明[0045] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域技术人员来讲,还可以根据这些附图获得其他的附图。[0046] 图1为本申请实施例的一种基于深度强化学习的认知无线网络动态频谱接入方法的流程图。[0047] 图2为本申请实施例的系统模型结构示意图。具体实施方式[0048] 下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。[0049] 如图1所示,本申请提供一种基于深度强化学习的认知无线网络动态频谱接入方法,该方法包括:[0050] 步骤S1,搭建多用户多信道认知无线网络的系统模型。[0051] 具体的,搭建多用户多信道认知无线网络的系统模型和信道模型。[0052] 其中,如图2所示,多用户多信道认知无线网络的系统模型包括主网络和次网络,主网络由M个主用户(PU)组成,次网络由N个次用户(SU)组成,图中①表示期望信号链路;②表示干扰信号链路。假设为每个PU单独分配一个无线信道,跨信道干扰可以忽略不计。只有当主用户和次用户或多个次用户同时使用相同的无线信道时,才会发生干扰。[0053] 将SUi的发射机、SUi的接收机、PUj的发射机和PUj的接收机的位置坐标分别表示为和 其中i∈{1,2,…,N},j∈{1,2,…,M}。因此,期望信号和干扰信号链路的传播距离分别定义为:[0054][0055][0056] 其中,dii表示期望信号链路的传播距离;dji表示干扰信号链路的传播距离。[0057] 根据期望信号链路的传播距离,计算期望信号的路径损耗为:[0058][0059] 其中,PL(d,fc)表示期望信号的路径损耗;fc[GHz]表示无线信道的载波频率;表示传播距离的路径损耗;AW表示路径损耗指数;BW表示路径损耗的频率相关性值;d[m]表示期望信号链路的传播距离。干扰信号PL(dji,fc)的路径损耗计算方法与公式(2)相同。[0060] 假设在发射器和接收器之间存在一个强大的视距路径(LineofSight,LoS)。信道模型表示为:[0061][0062] 其中,h表示信道模型;σ表示路径损耗因子,由路径损耗决定;κ为k因子,表示LoS路径与散射路径的接收机信号功率的比值;θ是LoS路径上到达信号的相位,θ~U(0,1)表示从0到1之间的均匀分布中取值, 表示一个圆对称复高斯随机变量;j表示第j个主用户;e表示自然对数。[0063] 设定一个离散的时间模型,即系统中用户的行为和无线环境的变化被限制在离散的时隙t(t是一个自然数)内发生。将信号与干扰和噪声的比值(SignaltoInterferenceplusNoiseRatio,SINR)设为无线通信的质量衡量标准。SINR即信噪比,SINR的值越高,无线连接的质量就越好。[0064] 次用户i在时隙t的信道b上通信时的SINR表示为:[0065][0066] 其中, 表示次用户i在时隙t的信道b上通信时的信噪比;pjb表示主用户PUj在第b个无线信道上的发射功率;pib表示次用户SUi在第b个无线信道上的发射功率。|hii2 2(t)| 是用户i在t时隙的期望链路的信道增益;|hji(t)|表示用户j的发射器和用户i的接收器之间在t时隙的干扰链路的信道增益,Nb是第b个无线信道上的背景噪声功率。期望链路是指同一用户的发射器和接收器之间的链路。干扰链路是指两个不同用户同时在同一个信道上传输的发射器和接收器之间的链路。[0067] 步骤S2,对预先提出的动态频谱接入问题进行建模和分析,获取基于PER‑DESQN的动态频谱接入策略。[0068] 在系统模型中,次用户(SU)在每个时隙t中最多感知一个信道并学习其信道状态。由于用户在每个时隙中对环境的观察都是不完整的,因此动态频谱接入(DSA)问题可以表述为POMDP模型,其目标是基于之前的决策和观察来预测信道状态。[0069] 一个基本的POMDP模型由一个6元组 定义,其中, 是一个有限的状态集, 是一个有限的行动集,p是执行行动a后从状态s到状态s'的过渡概率,r是执行行动a后得到的即时收益,Ω和 分别定义为观察值和观察概率集合。在每个时隙内,代理处于状态s,根据其对当前状态s的观测值即b(s),选择一个行动a,并观察即时收益r和当前观察概率o,继而做出下一步决策。[0070] 对POMDP模型的状态行动空间及观测收益函数做如下设定:在每个时隙的开始时,每个次用户(SU)对所有M个信道进行频谱感知,以检测信道的状态。为了实现对主网的保护,本申请假设一个次用户SUi在信道b上传输时,在其接收端的SINR(信号与干扰和噪声的比值)低于设定阈值时广播一个预警信号。导致SINR较低的原因可能有两个。首先,PU所需链路的无线连接处于深度衰减状态,即产生频谱空洞但未成功接入。第二,当一个或多个次用户同时接入到同一无线信道上发射信号时,它们会对PU造成强烈的干扰,即发生碰撞,也意味着接入失败。[0071] 将预警信号作为观测到的信道状态信息,即时隙t处的感知结果为:[0072][0073] 其中, 是一个i维向量 而 是第b个信道上第i个SU的感知状态。然而,一个PU的活动包括活跃和空闲两种状态。如果一个PU正在传输数据,它就处于活跃状态;否则就处于空闲状态。当一个信道的授权PU处于空闲状态时,该信道上就会出现频谱空洞,进而任何SU都可以在对授权PU干扰很小的情况下在该信道上传输。然而,在高度动态的5G网络中,SU很难及时感知到PU的活动状态,且其感知准确度会受到PU和SU的发射器之间的无线链接、背景噪声和PU的发射功率的影响;另一方面,SU造成的干扰程度由SU到PU的干扰链路、PU的期望链路、PU和SU的发射功率以及背景噪声决定。此外,所有这些决定频谱接入机会的因素都是随时间变化的,所以状态信息很快就会过时。由于在5G移动无线网络中,获取状态信息的成本很高,因此假设感知到的所有状态信息都是准确的来设计频谱接入策略是不现实的。因此, 可能包含错误,设第b个通道上的第i个SU的感知ib误差概率为E ,定义为:[0074][0075] 其中, 为第b个信道的真实状态; 表示第b个信道的真实状态是第b个信道上第i个SU的感知状态的概率。这些信道的转移概率和感知误差概率都是未知的。关于第i个SU的唯一已知信息是时隙t处的感知结果 即在环境中观察到的信道状态和深度强化学习网络的输入。[0076] 在频谱感知后,每个SU根据感知结果决定最多访问一个信道或保持空闲。将第i个SU的决策动作定义为:[0077][0078] 其中, 表示第i个SU在时隙t访问第b个信道, 表示第i个SU在时隙t不访问任何信道,M表示信道的总数量,信道的总数量等于主用户的数量。[0079] 将局部观测值表示为ot∈{0,1}。DRL(深度强化学习)代理根据之前的行动和观察的历史记录[at‑1,ot‑1,...,at‑M,ot‑M]进行学习。当SU访问当前没有PU或其他SU正在使用的信道时,不会产生任何干扰,频谱接入成功,即ot=1。将可实现的数据传输速率log2(1+SINR/Γ)设定为收益函数。当SU访问当前被PU占用的信道或超过两个SU同时访问该信道时,SU与PU或SU发生碰撞,即ot=0。将收益设置‑C(C>0)的负收益作为接收预警信号的结果。因此,第i个SU的收益函数可以表示为:[0080][0081] 由于频谱接入策略具有分布性,因此感知结果和接入决策信息均不会在SU之间共享。每个SU都搭配其DQN(深度Q网络,深度强化学习的一种)来独立地决定信道接入,而每个SU的DQN的唯一输入是由其传感器获取的感知结果。SU也不知道信道状态的转移概率和感知误差概率。SU通过在信道接入后收到的SINR(信号与干扰和噪声的比值)来做出下一步的接入决策,接入策略可以最大限度地提高SU的累积折扣收益,累积折扣收益的计算方法为:[0082][0083] 其中,Ri表示第i个次用户(SU)的累积折扣收益;γ∈[0,1]为折扣因子,T是整个信道接入过程的时间范围; 表示第i个SU的收益函数。因此,每个次用户的目标是找到一个动态频谱接入策略σi,使其预期累积的折扣收益最大化:[0084]i[0085] 其中, 表示获取最大化累积折扣收益下的策略σi,R表示第i个次用户的累积折扣收益,又由于收益函数设定为log2(1+SINR/Γ),因此最大化累计折扣收益的同时也是在最大化信道容量,进而提高数据传输速率。[0086] 步骤S3,预先构建双深度强化学习网络模型。其中,双深度强化学习网络模型包括第一深度强化学习网络模型和第二深度强化学习网络模型。[0087] 其中,第一深度强化学习网络(DQN1)模型和第二深度强化学习网络(DQN2)模型均包括输入层、回声状态网络层、优先级经验回放深度Q网络层和输出层。[0088] (1)输入层:[0089] 设定输入层的输入是一个时隙t处的感知结果:N×M矩阵,包含N个最近发生的动作和观测到的历史状态信息 矩阵依次输入每行向量至DQN的输入层,该输入层共有M个节点。如果一个节点在上一个时隙选择了某个信道进行传输,则输入矩阵的第一行是一个大小为M的向量,其中第i个元素为1或‑1,其余元素为0。[0090] (2)回声状态网络(ESN)层:[0091] 其中,回声状态网络(ESN)层包括依次连接的输入层、储备池层和输出层,回声状态网络(ESN)层作用是训练储备池层到输出层的输出权重(Wout)的过程。使用ESN(回声状态网络)作为深度强化学习框架中的深度神经网络来快速适应环境。ESN(回声状态网络)通过保持输入权重和递归权重的固定,只训练输出权重,大大简化了深度神经网络的训练过程。[0092] 考虑由输入历史状态信息 经过储层网络x(t)预测输出O(t)。且x(t)储层网络是由平均度数为d的64个稀疏随机神经元 建立的。为满足Wrec的谱半径(储备池层内部连接权谱半径)为给定值ρ的条件,Wrec中的每个非零元素都被缩放并从[‑1,1]中独立均匀地选取的。储层状态向量随时间的变化描述为:[0093][0094] 其中,x(t+Δt)表示当前时刻储层状态向量;Win表示输入层到储备池层的连接权重;Wrec表示储备池层到下一储备池层连接权重;Tanh表示双曲正切函数;α表示非零元素比例参数;X(t)表示上一时刻的储层状态向量。[0095] 其中,输出层的输出向量O(t)表示为:[0096] O(t)=Woutx(t);(12)[0097] 其中,输出向量O(t)是一个维数为2M的向量,O(t)上的每个元素对应于每个SU选择的估计Q值;Wout为储备池层到输出层的输出权重。[0098] (3)优先级经验回放‑深度强化学习(PER‑DQN)网络层[0099] 由于标准Q学习和DQN的训练中,选择和评估一个动作是根据相同Q值做出的判断,导致学习中会一直选择更高的Q值,从而导致Q值过估计问题。将选择与评估过程分为两个独立过程,即引入另一个神经网络来减少误差带来的影响,使用两个神经网络,即DQN1和DQN2。DQN1 用于选择动作,DQN2 用于估计与所选动作相关的Q值。[0100] 其中,双深度强化学习网络(DQN1和DQN2)的权重更新可以表示为:[0101][0102] 其中,θt+1表示双深度强化学习网络t+1时刻的权重;θt表示双深度强化学习网络t时刻的权重;st表示t时刻的状态;st+1表示t+1时刻的状态;at表示t时刻的行动;γ∈[0,1]为折扣因子;θ表示DQN1的权重;θ‘表示DQN2的权重;LoS(发射器和接收器之间视距路径)路径上到达信号的相位,从0到1之间的均匀分布中取值; 表示选择值取最大值时的行为a';表示梯度算子,表示梯度; 表示获取Q值;αt表示参数。[0103] 双深度强化学习网络(DDQN)的目标Q值可以表示为:[0104][0105] 其中,rt+1表示t+1时刻收益; 表示选择 值取最大值时的行为a';st+1表示t+1时刻的状态;θ表示第一深度强化学习网络模型DQN1的权重;θ‘表示第二深度强化学习网络模型DQN2的权重;[0106] 由此,可以通过被估计Q网络选择出来的动作来选择目标Q值,并通过目标Q值和估计Q值计算均方误差(MSE)损失函数,双深度强化学习网络的损失函数定义为:[0107][0108] 其中,L(θ)表示损失函数;E[]2表示均方误差;最后,在每个时隙中,以最小化损失函数为目标对双深度强化学习网络(DDQN)的权重进行更新。[0109] 本申请采用两个相同结构的深度强化学习网络DQN。目标DQN2的权重θ'是DQN1权重θ的延迟副本。两个神经网络结构都包含两个隐藏层,每个隐藏层分别有128个和256个隐藏的神经单元,两个神经网络都从ESN(回声状态网络)接收观察结果,并输出DDQN的动作参数,作为决策Dropout参数传输给ESN(回声状态网络)网络。最终训练网络将所有收集到的观测动作对纳入经验回放区。[0110] 在经典DDQN算法中,当从经验回放区中采集样本时,通常使用均匀的随机采样方法。由于在训练网络与环境的互动过程中,经验样本会不断存储在经验回放区中用于训练模型,不论成功的尝试或者是失败的痕迹,这些经验可能会一直保存在经验回放单元中。并且通过对这些经验的频繁回放,代理可以意识到在做出正确或不正确的行为后会产生的不同的结果,从而不断纠正其行为。然而,不同经验样本的重要性是不同的。由于经验回放区中的样本是不断更新的,如果从经验回放区中以均匀的随机采样的方式采集少量的样本作为模型输入,那么一些重要性较高的经验样本就不能被充分利用,甚至被直接覆盖,导致模型训练效率降低。为了提高模型的训练效率,本申请采用优先级经验回放的方式从经验回放区中采集样本,以此来提高重要性较高的样本被采集的概率。本申请采用了一种基于Sum‑Tree的比例优先级经验回放机制。首先将经验的优先级定义为:[0111] pt=|δt|+c;(16)[0112] 其中,pt表示经验的优先级;δt表示衡量指标TD‑error(当前估计与估计目标的差别,TD误差),c表示标准数,它确保TD‑误差接近于0的样本也有被采样的机率。[0113] 本申请使用的Sum‑Tree数据结构在理论上与二进制的数组表示非常相似。在该数据结构中,每个叶子节点存储每个样本的优先级pt,每个树枝节点包含两个分叉,且树枝节点的值是其子节点的总和。父节点包含所有优先级的总和ptotal。这样的数据结构为计算优先级的累积总和提供了一种有效的方法。具体来说,为了对大小为k的样本进行采样,范围[0,ptotal]首先被平均分成k个片段。然后从每个片段内均匀地抽出一个值。最后,从树上检索与这些采样值中的每一个对应的范围区域。[0114] 然而该方法由于频繁地回放具有高TD误差的经验,以及过于频繁地进入某些状态,导致经验缺乏多样性,使得网络的训练容易出现过拟合,因此可以通过重要性采样的方法修正权重,修正后的权重表达式如下:[0115][0116] 其中,wi表示修正后的权重;P(U)表示抽取经验U的概率,N表示样本大小,β表示修正率。为了增加采样稳定性,本申请将权重进行标准化处理以便它们只向下缩放更新。标准化后的权重表示为:[0117] wj=(N·P(V))‑β/maxiwi;(18)[0118] 其中,wj表示标准化后的权重;P(V)表示抽取经验V的概率;maxiwi表示wi的最大值。[0119] 在训练网络将所有收集到的观测动作对纳入经验回放区后,首先对其进行优先级排序,再根据优先级的SumTree模型确定的概率采样大小,最终采用重要性采样的方法选取优先级较高的经验样本至DQN网络中进行参数训练。[0120] (4)输出层[0121] 其中,输出层输出的是一个大小为M的向量。其中,第i个元素对应于在给定状态下选择一个信道估计的Q值,其中1≤i≤M。[0122] 步骤S4,初始化双深度强化学习网络模型中第一深度强化学习网络模型和第二深度强化学习网络模型的参数。[0123] 其中,参数包括状态 动作 权重更新间隔W、容量为|D|的经验回放区D和权重。具体的,初始化状态 动作 权重更新间隔W,并使用容量为|D|的经验回放区D;分别对随机权重为θ和θ'的估计Q网络 和目标Q网络 的权重进行初始化。[0124] 步骤S5,根据第一深度强化学习网络模型,获取系统模型中次用户基于动态频谱接入策略的所有动态频谱接入动作的估计Q值。[0125] 在每一步的开始,次用户首先观察初始状态st,该状态作为系统每个时隙的回声状态网络层的输入。[0126] 然后,根据公式(11)更新储层网络x(t+Δt),并根据公式(12)输出O(t),作为所有动态频谱接入动作的估计Q值。[0127] 在得到所有估计的Q值后,由估计的Q值和ε‑贪婪策略来确定在t处的动态频谱接入动作at。[0128] 接着获取下一个状态st+1。通过公式(8)得到收益rt+1。[0129] 步骤S6,各个次用户根据估计Q值的大小,选择Q值最优状态下次用户的动态频谱接入动作。[0130] 将(st,at,rt+1,st+1)存储至经验回放区D中。在网络训练过程中,根据公式(16)将样本按TD误差的大小确定优先级pt,并根据SumTree数据结构设定各样本的被采集概率P(i),最终通过重要性采样方法采集数据,以破坏数据之间的相关性,确保训练的有效性。[0131] 步骤S7,根据选择的次用户的动态频谱接入动作,来选择第二深度强化学习网络模型的目标Q值。[0132] 步骤S8,计算损失函数,并通过最小化损失函数来训练第一深度强化学习网络模型和第二深度强化学习网络模型,并更新第一深度强化学习网络模型和第二深度强化学习网络模型的权重。[0133] 根据公式(14),通过被估计Q网络选择出来的动作来选择目标Q值,由公式(15)计算损失函数。最后,在每个W时隙中,根据公式(13)对DDQN的权重进行更新。[0134] 重复步骤S5‑S8。[0135] 作为本发明的一个具体实施例:基于PER‑DESQN的多用户多信道认知无线网络动态频谱接入算法如下:[0136] 输入:各用户的历史动作序列。[0137] 输出:预测所有用户的最优接入动作序列。[0138] 1:初始化PER‑DDQN和ESN(回声状态网络)网络的超参数;[0139] 2:初始化状态、动作、经验回放区D和权重更新间隔W;[0140] 3:Fort=1,2,...,Tdo;[0141] 4:回声状态网络接收经过预处理的信道状态信息后,更新储层网络,并输出包含下一时隙所有接入策略的估计Q表Qt(s,a);[0142] 5:各用户在状态st下使用ε‑贪婪策略选择一个行动at;[0143] 6:更新状态st←st+1;[0144] 7:计算损失函数并获取收益rt+1;[0145] 8:将(st,at,rt+1,st+1)存储到经验回放区D中,其中最大优先级pt=maxi<tpi;[0146] 9:Ift在回放周期内;[0147] 10:Forj=1,2,...,minibatchdo;[0148] 11:根据公式(16)设定优先级;[0149] 12:根据公式(18)计算重要性采样权重;[0150] 13:计算TD‑误差[0151] 14:更新优先级;[0152] 15:Endfor[0153] 16:Endif[0154] 17:通过公式(14)计算目标Q值;[0155] 18:通过公式(15)计算损失函数,并通过最小化损失函数来训练估计网络;[0156] 19:通过公式(13)更新权重θ;[0157] 20:EndFor。[0158] 作为本发明的一个具体实施例,对本申请动态频谱接入算法进行仿真,具体方法如下:[0159] 本申请首先设定在150米×150米的空间内随机选择SU和PU的位置。本申请采用WINNERII模型和Rician模型分别计算路径损耗和信道模型。带宽为5MHz,噪声功率密度为‑147dBm/Hz,SU的发射功率为20mW,PU的发射功率为40mW。系统模型中使用的所有系统参数如表1所示。本申请使用Tensorflow在Python中搭建算法模型设计仿真实验,以评估所提出的动态频谱接入算法的性能。在仿真中,本申请将所提PER‑DESQN算法与DQN‑LSTM算法、以及DQNRC方法、DQNMLP方法、Myopic方法和Q学习方法进行了比较。具体超参数设定如表2所示。[0160][0161][0162] 表1系统参数设定[0163][0164] 表2超参数设定[0165] 本申请算法接入性能对比如下:[0166] 本申请仿真基于2个SU和6个信道认知无线网络下算法性能。在该系统模型下,主要通过对算法的平均接入成功率,平均收益,平均主用户受干扰概率和平均次用户受干扰概率四个方面评估算法的接入性能,本申请PER‑DESQN算法其他深度强化学习算法相比,其收敛速度明显增加,这是因为使用ESN(回声状态网络)网络替代了传统深度网络,即使用固定权重的方法替代梯度下降法更新权重,大大缩短了收敛时间。此外,本申请与其它算法相比PER‑DESQN算法具有较高的接入成功率,并且可以获取较高的收益,即传输速率。而且在具有较高接入准确度的同时,还具有较低的用户碰撞率,实现了对用户通信质量的保护。这是因为PER‑DESQN算法与其它算法相比,采用优先级经验回放采样机制,使TD误差高的样本获得更多的被采样机会,增加了对网络训练的有效性。[0167] 随着信道数量的增加,所有算法的接入准确率也均随之增加,这是由于信道数增加给SU提供了更多的接入选择,因此接入碰撞发生的概率随之减小。随着信道数量的增加,本申请所提PER‑DESQN算法的的领先优势越发明显,这是由于本申请所提算法结合了PER‑DDQN的高效率采样带来的高精度预测和ESN(回声状态网络)对网络训练过程的简化,使本申请所提基于PER‑DDQN的动态频谱接入算法更能适应大状态空间带来的数据量增多的问题,即本申请所提PER‑DDQN算法更加适用于多信道多用户的复杂认知网络,提升了算法对实际应用的适用性。在用户数不变的前提下,本申请所提算法的接入准确度随着信道数量的增加而增加,且碰撞概率随信道数量的增加而减小。这是因为随着信道数量的增加,次用户可以获得更多的接入机会。[0168] 在信道数不变的前提下,本申请所提算法的接入准确度随着用户数量的增加而减少,且碰撞概率随用户数量的增加而增加。这是因为随着用户数量的增加,次用户之间会发生更多的碰撞机会。本申请所提的PER‑DESQN算法可以在多用户多信道认知无线网络中实现收敛,具有较强的适应性和稳定性,可以广泛服务于面向大量用户和传输海量数据的无线通信系统。[0169] 为了探究不同的折扣因子对收敛稳定性的影响,获取当算法折扣因子为0.5和0.95的情况,并结合上节基于0.9的折扣因子的仿真结果:本申请所提的PER‑ESQN算法的收敛稳定性随着折扣因子的增加而增加;这是因为折扣因子越大,未来收益对当前预期收益的影响越大,在计算预期收益时,预测的未来收益占比例越高,这更有利于对环境的学习并缩短训练时间。因此,当环境具有很强的时间相关性时,折扣因子需要设置得较大。[0170] 本申请实现的有益效果如下:[0171] (1)本申请提出了一种基于PER‑DESQN的多用户多信道认知无线网络动态频谱接入算法。由于在经典深度强化学习中,深度神经网络结构复杂导致收敛速度下降,因此本申请采用ESN(回声状态网络)网络利用底层时间相关性作为Q网络预测并估计Q值,大大降低了训练的计算量,缩短收敛时间。同时,为了解决DQN网络中存在的Q值过估计问题,因此采用DDQN网络将估计Q值和决策动作过程分别用两个网络训练,避免使用同一个Q值训练网络,提高了预测精度。[0172] (2)为了解决在DDQN算法中以随机采样的方法在经验回放区内采样带来的Q值不稳定的问题,本申请提出利用基于SumTree的优先级经验回放机制,并结合重要性采样原则,对经验池中的样本按优先级采样,提升算法稳定性和接入准确度。仿真实验表明,基于PER‑DESQN的多用户多信道认知无线网络动态频谱接入算法可以做出快速准确的动态频谱接入决策,并显著增加系统传输速率。[0173] 以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理内所做的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

专利地区:内蒙古

专利申请日期:2022-07-07

专利公开日期:2024-11-29

专利公告号:CN115190489B


以上信息来自国家知识产权局,如信息有误请联系我方更正!
该专利所有权非本平台所有,我方无法提供专利权所有者联系方式,请勿联系我方。
电话咨询
到底部
搜本页
回顶部