一种深度Q神经网络抗干扰模型及智能抗干扰算法的制作方法

文档序号:15878842发布日期:2018-11-09 17:30阅读:538来源:国知局
导航: X技术> 最新专利> 电子通信装置的制造及其应用技术
一种深度Q神经网络抗干扰模型及智能抗干扰算法的制作方法

本发明属于无线通信技术领域,特别是一种深度q神经网络抗干扰模型及智能抗干扰算法。

背景技术

由于无线通信环境的开放性,无线通信系统极易遭受恶意干扰的攻击。此外,由于人工智能技术的飞速发展,使得干扰智能化水平不断提高,未来的通信干扰将呈现“波形灵巧”、“决策智能”等典型特点,使得传统抗干扰技术(如跳频和扩频)的抗干扰能力明显下降,甚至完全丧失,给无线通信系统或网络的稳定和安全带来极大的挑战。因而,迫切需要研究更加高效的抗干扰方法。针对新型的干扰环境特性,引入人工智能技术将是一种可选的方案。用户采用各种智能学习的方法,对干扰波形样式、信号构成和决策规律等进行有效的分析,并以此为基础智能地选取对抗决策,将有效地提升其抗干扰能力。

考虑到干扰环境的动态特性,强化学习成为研究智能抗干扰问题最优决策的一种热门工具(参考文献:c.j.c.h.watkins,etal.,“q-learning,”mach.learn.,,vol.8,pp.279-292,1992)。然而,它无法拓展到状态决策空间庞大的应用环境。



技术实现要素:

本发明的目的在于提供一种深度q神经网络抗干扰模型及智能抗干扰算法,很好地刻画基于深度强化学习算法的抗干扰场景。

实现本发明目的的技术解决方案为:一种深度q神经网络抗干扰模型,对该模型做如下刻画:一组发射端和接收端对为一个用户,一个用户进行通信,一个或多个干扰机对用户通信实施干扰;在动态未知环境中,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征,最终获取干扰的策略,并采用深度q神经网络对q函数进行拟合,作为该模型的决策依据。

进一步地,用户接收端的信干噪比sinr表示为:

公式中(1)中,ft表示用户在代理指导下所选频率,t表示当前时刻;表示用户的功率,u(f)和bu分别表示用户的功率谱密度和基带信号带宽,gu表示用户发送端到接收端的信道增益,gj表示干扰到用户接收端的信道增益,ftj表示干扰选择的干扰频率,表示干扰的功率谱密度函数,n(f)表示噪声的功率谱密度函数;

此外,用βth表示成功传输所需要的sinr门限,定义归一化门限如公式(2)所示:

在接收终端部署了一个代理,该接收终端的功率谱密度函数如式(3)所示:

其中,j=1,…,j表示干扰;

模型中的离散频谱采样值定义为:

其中,δf表示频谱分辨率;i表示采样数,s(f+fl)为式(3)所述功率谱密度函数、f表示采样频率、fl为所选频率的下界;

代理通过频谱向量st={st,1,st,2,...,st,n}决定传输频率,并通过可靠链路通知发送端;st,n为t时刻所决定的第n段传输频率。

进一步地,所述的在动态未知环境中,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征,最终获取干扰的策略,具体如下:

在动态未知的通信环境中,模型中的抗干扰问题建模为马尔科夫决策过程,该环境存在的复杂干扰模式与历史信息有关,因此环境状态定义为st={st,st-1,...,st-t+1},其中,t表示回溯的历史状态数目,st表示一个t×n的二维矩阵,由st矩阵构建出频谱瀑布图。

进一步地,所述的环境状态中,s∈{s1,s2,...}表示当前的传播环境状态,a∈{f1,f2,...,fk}是用户的频率选择策略,p(s′|s,a)表示用户的频率选择策略a由状态s变为状态s′的转移概率;

对于立即回报r定义为:

其中,λ表示因状态改变带来的代价,at表示t时刻的信道选择动作。

一种基于深度q神经网络抗干扰模型的智能抗干扰算法,包括以下步骤:

步骤1,初始化:给定ε=1,随机权重θ,感知初始环境s1,通过深度q神经网络得到拟合对应的q值表;

步骤2,用户依概率ε随机选择一个策略,或者,用户依概率1-ε选择q值最大的策略,即at=argamaxq(st,a;θ);

步骤3,计算选择该策略的回报值,观察选择该策略后下一时刻的状态变化;

步骤4,根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(st,a,r,st+1)储存到d中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,接着计算梯度并更新权值,然后进入步骤5;

步骤5,更新下一次选择策略的概率ε=max(0.1,ε-δε),其中δε为更新步长,并返回步骤2;

循环步骤2~5,直至达到最大迭代次数,算法结束。

进一步地,步骤1中所述的通过深度q神经网络得到拟合对应的q值表,具体如下:

首先对使用的深度卷积神经网络进行预处理,预处理过程为:

其中,nth表示噪声门限;si,t表示t时刻第i次训练接收到的信号大小,为预处理后信号大小;

经过预处理后,状态中包含零向量;然后使用深度卷积神经网络cnn对q函数进行拟合;对于当前的传播环境状态s和用户的频率选择策略a而言,拟合q函数表示如下:

其中,s′表示在状态s采用策略a所产生的下一个状态,γ表示折扣因子。

进一步地,步骤4所述的根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(st,a,r,st+1)储存到d中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,具体如下:

采用经验回放机制,用et=(st,at,rt,st+1)表示t时刻的代理经验,并将其存贮在矩阵dt=(e1,...,et)中;当经验池足够大时,从均匀分布e~u(d)中随机选取参量构建目标值其中r表示即时回报,γ表示折扣因子。

进一步地,步骤4中所述的计算梯度并更新权值,具体如下:

q学习在第i次迭代使用如式(8)所示损失函数:

li(θi)=ee~u(d)[(yi-q(s,a;θi))2](8)

其中,θi表示q学习在i次迭代的参数,表示在参数θi-1下依贪婪策略计算的目标值;

依据梯度下降法,对损失函数求微分,求得损失函数的梯度,如式(9)所示:

其中,li(θi)表示损失函数,表示求梯度运算。

本发明与现有技术相比,其显著优点在于:(1)对传统卷积神经网络进行预处理,在不影响性能的情况下,降低计算复杂度;(2)模型完备,物理意义清晰,提出的基于深度强化学习的智能抗干扰算法,实现对提出模型的有效求解,求出用户的抗干扰功率控制策略;(3)能够有效地应对动态及智能干扰,并很好地刻画基于深度强化学习算法的抗干扰场景。

附图说明

图1是本发明深度q神经网络抗干扰模型的系统模型图。

图2是本发明中抗干扰q神经网络模型的结构示意图。

图3是本发明中q神经网络抗干扰更新过程图。

图4是本发明实施例1中对抗固定干扰模式的频谱瀑布图。

图5是本发明中实施1中对抗固定模式干扰的输出信息量的图。

图6是本发明实施例2中对抗动态及智能干扰模式的频谱瀑布图。

具体实施方式

本发明所提出的深度q神经网络抗干扰模型及智能抗干扰算法,旨在提供方案以解决智能抗干扰问题。本发明基于深度学习算法,将接收端的频谱瀑布图作为学习的输入状态,采用深度q神经网络对状态的q值函数进行拟合,并将其作为决策依据;接着,通过相应的决策算法,更新用户的频率选择策略。

图1是抗干扰系统模型图。该模型中,一组发射端和接收端对为一个用户,一个用户进行通信,控制系统可以帮助用户进行选频,系统中存在一个或多个干扰机对用户通信实施干扰。

图2是抗干扰q神经网络模型。抗干扰q神经网络采用卷积神经网络框架,输入为频谱瀑布图,经过两层卷积加两层全连接操作得到了当前状态对应的q值表,然后通过相应的决策算法即可得出当前状态下最优的抗干扰决策。而深度神经网络参数的更新,则通过实时记录当前输入状态、所选决策说明经过抗干扰学习、立即回报和下一步环境状态进行训练予以实现。

对该模型做如下刻画:一组发射端和接收端对为一个用户,一个用户进行通信,一个或多个干扰机对用户通信实施干扰;在动态未知环境中,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征,最终获取干扰的策略,并采用深度q神经网络对q函数进行拟合,作为该模型的决策依据。

图3是抗干扰q神经网络更新过程,该更新过程采用经验回放的思想,当代理的训练经验足够大时,从经验矩阵中随机抽取目标值;并通过梯度下降法对系统参量进行更新。

本发明基于传统q学习,结合智能抗干扰问题,考虑干扰智能性强、干扰决策估计困难、学习决策空间庞大等因素,采用深度神经网络对q值函数进行拟合,并对神经网络状态更新,通过相应决策算法,得出最优抗干扰决策。

进一步地,所述深度q神经网抗干扰络模型,其用户接收端的信干噪比sinr表示为:

公式中(1)中,ft表示用户在代理指导下所选频率,t表示当前时刻;表示用户的功率,u(f)和bu分别表示用户的功率谱密度和基带信号带宽,gu表示用户发送端到接收端的信道增益,gj表示干扰到用户接收端的信道增益,ftj表示干扰选择的干扰频率,表示干扰的功率谱密度函数,n(f)表示噪声的功率谱密度函数。

此外,用βth表示成功传输所需要的sinr门限,定义归一化门限如公式(2)所示:

在接收终端部署了一个代理,该接收终端的功率谱密度函数如式(3)所示:

其中,j=1,…,j表示干扰;

模型中的离散频谱采样值定义为:

其中,δf表示频谱分辨率;i表示采样数,s(f+fl)为式(3)所述功率谱密度函数、f表示采样频率、fl为所选频率的下界;

代理通过频谱向量st={st,1,st,2,...,st,n}决定传输频率,并通过可靠链路通知发送端;st,n为t时刻所决定的第n段传输频率。

进一步地,所述的深度q神经网络抗干扰模型,其通信环境是动态未知的,该模型中的抗干扰问题可建模为马尔科夫决策过程(markovdecisionprocess)。该环境存在的复杂干扰模式与历史信息有关,因此环境状态定义为st={st,st-1,...,st-t+1},其中,t表示回溯的历史状态数目,st表示一个t×n的二维矩阵,由st矩阵构建出频谱瀑布图。

进一步地,在所述的深度q神经网络抗干扰模型中,s∈{s1,s2,...}表示当前的传播环境状态,a∈{f1,f2,...,fk}是用户的频率选择策略,p(s′|s,a)表示用户的频率选择策略a,由状态s变为状态s′的转移概率。对于立即回报r的定义如下:

其中,λ表示因状态改变带来的代价,at表示t时刻的信道选择动作。

本发明基于深度q神经网络抗干扰模型的智能抗干扰算法,包括以下步骤:

步骤1,初始化:给定ε=1,随机权重θ,感知初始环境s1,通过深度q神经网络得到拟合对应的q值表;

步骤2,用户依概率ε随机选择一个策略,或者,用户依概率1-ε选择q值最大的策略,即

步骤3,计算选择该策略的回报值,观察选择该策略后下一时刻的状态变化;

步骤4,根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(st,a,r,st+1)储存到d中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,接着计算梯度并更新权值,然后进入步骤5;

步骤5,更新下一次选择策略的概率ε=max(0.1,ε-δε),其中δε为更新步长,并返回步骤2;

循环步骤2~5,直至达到最大迭代次数,算法结束。

进一步地,步骤1中所述的通过深度q神经网络得到拟合对应的q值表,具体如下:

首先对使用的深度卷积神经网络进行预处理,预处理过程为:

其中,nth表示噪声门限;si,t表示t时刻第i次训练接收到的信号大小,为预处理后信号大小;

经过预处理后,状态中包含零向量;然后使用深度卷积神经网络cnn对q函数进行拟合;对于当前的传播环境状态s和用户的频率选择策略a而言,拟合q函数表示如下:

其中,s′表示在状态s采用策略a所产生的下一个状态,γ表示折扣因子。

进一步地,步骤4所述的根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(st,a,r,st+1)储存到d中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,具体如下:

采用经验回放机制,用et=(st,at,rt,st+1)表示t时刻的代理经验,并将其存贮在矩阵dt=(e1,...,et)中;当经验池足够大时,从均匀分布e~u(d)中随机选取参量构建目标值其中r表示即时回报,γ表示折扣因子。

进一步地,步骤4中所述的计算梯度并更新权值,具体如下:

q学习在第i次迭代使用如式(8)所示损失函数:

li(θi)=ee~u(d)[(yi-q(s,a;θi))2](8)

其中,θi表示q学习在i次迭代的参数,表示在参数θi-1下依贪婪策略计算的目标值;

依据梯度下降法,对损失函数求微分,求得损失函数的梯度,如式(9)所示:

其中,li(θi)表示损失函数,表示求梯度运算。

由于计算目标值和更新网络权值在不同阶段,因此实现算法过程中只需要一层预处理卷积神经网络。

实施例1

本发明的第一个实施例具体描述如下,系统仿真采用python语言,基于caffe深度学习框架,参数设定不影响一般性。该实施例验证所提模型与方法的有效性,图4验证对抗固定干扰模式的有效性。参数设置为,干扰和用户的频带为20mhz,频谱感知的频率分辨率为100khz,用户每1ms进行一次全频段感知,并将感知到的频谱数据保持200ms,因此,st矩阵大小为200×200,用户信号带宽为4mhz,用户中心频率每10ms改变2mhz,所以k=9。用户和干扰的信号波形均为升余弦波,滚降系数为α=0.5。干扰功率为30dbm,用户的信号功率为0dbm。解调门限βth为10db,换频切换代价λ为0.2。在实施例1中,我们考虑2种固定干扰模式:1、扫频干扰,扫频速度为1ghz/s;2、梳状干扰,3个固定干扰频率,分别为2mhz,10mhz,18mhz。

图4是本发明实施例1中对抗固定干扰模式的频谱瀑布图,从图中可以看出,扫频干扰由于线性的频率变化呈现对角线,而梳状干扰表现为许多垂直的条纹,用户的信号为矩形的方块,用户信号和干扰信号没有重叠,说明经过抗干扰学习后,用户基本避开了固定模式的干扰。

图5是本发明中实施1中对抗固定模式干扰的输出信息量的图,其中输出的信息量已经进行归一化,从图中可以看出,随着迭代次数的增加,设备的学习情况变得更好,避开固定模式的干扰,最终达到稳定信息输出。

实施例2

本发明的第二个实施例具体描述如下,系统仿真采用python语言,基于caffe深度学习框架,参数设定不影响一般性。该实施例验证所提模型与方法的有效性,图4验证对抗固定干扰模式的有效性,图5验证对抗动态干扰和智能干扰的效性。参数设置为,干扰和用户的频带为20mhz,频谱感知的频率分辨率为100khz,用户每1ms进行一次全频段感知,并将感知到的频谱数据保持200ms,因此,st矩阵大小为200×200,用户信号带宽为4mhz,用户中心频率每10ms改变2mhz,所以k=9。用户和干扰的信号波形均为升余弦波,滚降系数为α=0.5。干扰功率为30dbm,用户的信号功率为0dbm。解调门限βth为10db,换频切换代价λ为0.2。在实施例2中,我们考虑动态干扰模式和智能干扰模式:1、动态干扰,每100ms在扫频干扰和梳状干扰间随机切换;2、智能梳状干扰,通过计算用户在过去100ms内的选频概率选择梳状干扰频率。

图6是本发明实施例2中对抗动态及智能干扰模式的频谱瀑布图,图中红色三角形表示干扰模式的变换时刻,黑色方块表示用户信号被干扰的位置(时间、频点)。从图中可以看出,在动态干扰和智能干扰条件下,虽未预先对干扰的动态性和智能性建模,抗干扰学习依旧能够保证用户有效地避开大部分干扰。

综上所述,本发明提出的深度q神经网络抗干扰模型,充分考虑了抗干扰问题中干扰智能性强、干扰决策估计困难、学习决策空间庞大的问题,比传统模型更有实际意义;提出的基于深度q神经网络抗干扰模型的智能抗干扰算法,能够实现对提出模型的有效求解,求出用户的抗干扰功率控制策略,有效地应对动态及智能干扰。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 一种下一代传感网通信系统的实...
  • 基于皮尔森系数的LTE高负荷...
  • 数据传输控制方法、网络设备与...
  • 一种基于对分搜索式的非正交接...
  • 一种通信方法、装置及存储介质...
  • 一种网络分析方法、服务器及网...
  • 一种WIFI连接方法及装置与...
  • 一种WSN节点向电信网络的鉴...
  • 一种定义第二接口的单SIM双...
  • 一种蓝牙传输方法、蓝牙控制器...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
神经网络算法相关技术
  • 一种基于ANFIS模糊神经网络的机器人路径规划方法与流程
  • 一种基于ZigBee动态自组织网络的车辆群定位通信系统的制造方法与工艺
  • 一种基于BP神经网络的人工智能优化方法与流程
  • 基于深度神经网络的风电机组齿轮箱故障监测方法及系统与流程
  • 一种基于卷积神经网络的移动用户行为预测方法与流程
  • 一种车辆自组织网络混合型路由生成算法的制造方法与工艺
  • 一种二值卷积神经网络处理器及其使用方法与流程
  • 基于卷积神经网络和手机传感器数据的跌倒检测方法与流程
  • 对花卉识别系统进行改进的辅助系统和进行改进的方法与流程
  • 一种基于卷积神经的农作物害虫图像识别方法与流程
卷积神经网络算法相关技术
  • 对花卉识别系统进行改进的辅助系统和进行改进的方法与流程
  • 一种基于卷积神经的农作物害虫图像识别方法与流程
  • 一种基于双流卷积神经网络的立体匹配方法与流程
  • 一种基于卷积神经网络的图像处理方法、装置及移动终端与流程
  • 一种基于卷积深度网络的图像识别算法及系统的制造方法与工艺
  • 一种利用卷积神经网络的医学图像处理装置与方法与流程
  • 基于BP神经网络算法的电力变压器故障诊断装置及方法与流程
  • 一种基于1D卷积神经网络的室性异位搏动检测方法与流程
  • 用于实现稀疏卷积神经网络加速器的装置和方法与流程
  • 基于多任务级联卷积神经网络的人脸检测方法及检测装置与流程
神经网络算法入门相关技术
  • 一种基于神经网络算法的电能消耗预测系统的制作方法
  • 基于神经网络改进算法的电信客户流失预测方法
  • 一种基于智能天线和神经网络算法的抗干扰方法
  • 一种基于神经网络的无线传感器网络入侵检测算法
  • 一种基于lmbp神经网络的泰勒定位算法
  • Atm网络中利用最早到期日算法的停走排队业务的方法
  • 基于bp神经网络算法对涂层老化的分析方法
  • 一种基于bp神经网络算法的核事故源项反演方法
  • 基于微分进化算法和bp神经网络的避雷器均压环优化法
  • 基于神经网络和标签库的语句相似度算法的制作方法

玻璃钢生产厂家辽宁商场美陈制作厦门不锈钢家具贵阳玻璃钢造型泰安玻璃钢花坛制作白城玻璃钢花箱哪家好百色不锈钢雕塑生产厂家湖北玻璃钢花瓶厂家直销黑龙江玻璃钢浮雕乐山玻璃钢雕塑多少钱济南玻璃钢卡通雕塑生产厂家贵州玻璃钢坐凳价格宣城玻璃钢制品厂家福州玻璃钢装饰造型价格唐山玻璃钢外壳价格珠海玻璃钢机械外壳厂赣州玻璃钢动物雕塑定做梧州玻璃钢装饰工程多少钱济南玻璃钢设备外壳制作扬州玻璃钢花池制造贵阳玻璃钢花池价格六安玻璃钢坐凳批发海南玻璃钢休闲椅生产厂家柳州玻璃钢外壳定做三亚玻璃钢餐桌椅加工三明玻璃钢座椅公司晋中玻璃钢座椅制作洛阳玻璃钢动物雕塑制作陕西玻璃钢树池坐凳多少钱襄阳玻璃钢休闲椅厂家直销潍坊玻璃钢公仔雕塑制作香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化