本文来自《航空工程进展》,作者宋洪川等
摘要:飞机躲避中程空空导弹的逃生机动策略对于提高战斗机的生存能力至关重要。深度确定性策略梯度算法训练智能体学习飞机躲避导弹的逃生机动策略研究。以飞机和导弹的相对态势参数作为智能体的输入状态,飞机控制指令作为智能体的输出动作,导弹-飞机追击模型作为智能体的学习环境,设计形成奖励为相对情况和飞行参数,以及战斗结果组成的稀疏奖励可以实现从状态参数到控制量的端到端逃生机动策略。通过与基于专家先验知识的四种典型逃生机动攻击区域的仿真验证对比,结果表明,Agent实现的逃生策略的攻击区域仅次于尾部着陆攻击区域,且策略依赖于飞机的先验知识来避免导弹。最低学历。
关键词:导弹躲避;逃生机动策略;深度确定性策略梯度;深度强化学习
0 简介
现代空战根据雷达探测范围和使用的武器类型可分为超视距空战和近距离空战。随着机载雷达和空空导弹性能的提高,超视距阶段的空战比例从1980年代的不足30%上升到21世纪初的50%以上[1]。因此,如何利用有效的逃生机动策略,提高战斗机在有限机动性下对中程空空导弹的躲避和逃生能力,对于提高其空战生存能力至关重要[2]。
飞机躲避导弹问题是一种追逃策略。导弹为追击者,按照制导律策略追击飞机;飞机是逃生者,决定最优控制策略以逃避导弹的追击。传统的飞机规避导弹通常使用专家系统方法[3-7]、微分博弈方法[8-10]、最优控制方法[11-13]和模型预测方法[14-15]来解决最优或次优逃逸问题演习。专家系统方法在很大程度上依赖于人类专家的先验知识。当导弹或飞机子系统发生变化时,人类专家需要对新的子系统进行分析,并再次给出新的逃生机动策略。微分博弈、最优控制和模型预测方法都依赖于清晰完整的数学模型,需要对复杂的微分方程进行解析解或数值解。飞机躲避导弹问题包含许多复杂的非线性系统,各个子系统的建模难免存在误差,这无疑增加了上述方法求解飞机躲避策略的难度。
近年来,随着人工智能的发展,强化学习与深度神经网络相结合,衍生出一系列从原始输入到输出的直接控制算法,无需建模,仅通过端到端学习[16]]。深度确定性策略梯度(DDPG)是一种可应用于连续动作空间的无模型算法[17]。该算法已在国内外不同领域得到应用。王 M 等人。 [18]利用DDPG算法研究平板车的追逃问题; S.YOU 等人。 [19] 和 R. Cimurs 等人。 [20] 使用该算法研究了智能体同时避开动态和静止障碍物的能力。 ,追逐目标的导航问题。上述研究中动态障碍物的动力学和运动学模型都比较简单。与逃跑者相比,追击者在速度和机动性上没有绝对优势,追击者也没有采取有效的追击策略。范新磊等。 [21]将DDPG算法应用于导弹躲避决策训练,在四种典型初始情况下验证了躲避策略的有效性。引文法,飞机导弹的气动模型和飞机导弹的相对运动模型,它们的初始状态范围较小,没有与典型的逃生策略进行比较,以及逃生策略的有效性DDPG算法学习到的无法更准确地评估。 .
针对上述问题,本文构建了基于DDPG算法的导弹躲避训练系统。首先,建立导弹-飞机追逃模型,包括飞机导弹的粒子模型(考虑气动特性和推力特性)、空空导弹的制导规律和杀伤率模型、相对运动飞机导弹模型;然后介绍DDPG算法并基于DDPG算法设计导弹。追逃问题得到奖励;然后将导弹追逃问题建模为基于DDPG算法的强化学习问题,构建了基于DDPG算法的导弹避让训练系统;对比四种基于专家先验知识的经典逃生策略,验证基于DDPG算法的逃生策略的有效性。
1个导弹飞机追逐和逃生模型
本文使用的导弹飞行器追逃模型包括:飞行器和导弹的粒子模型、导弹的制导律模型、杀伤率模型和导弹飞行器的相对运动模型。
飞机规避导弹追击模型的假设包括:(1)飞机和导弹都使用粒子模型,同时考虑了飞机和导弹的升阻特性和推力特性;(2)导弹采用比例制导制导法;(3)忽略风的影响;(4)忽略侧滑角[9, 22].
1.1 飞机和导弹的粒子模型
飞机和导弹的粒子运动学模型是
其中:x,y,z为地球轴系的三轴坐标,x轴指向正北,y轴指向正东,z轴垂直向下; V为飞机的飞行速度;
˙是V在地轴系三个轴上的分量; γ为爬升角,表示速度与水平面的夹角; χ为航迹方位角,表示飞机飞行速度V在水平面上的投影与x轴的夹角。
飞行器的粒子动力学模型表示为[22]
地点:
˙分别为飞行器速度变化率、爬升角变化率和航迹方位角变化率; nt、nn、μ为飞行器的控制变量,其中nt为沿速度方向的切向过载,控制飞行器的加减速; nn 为沿飞行器升力方向的法向过载,控制升力方向的运动; μ 为轨道倾角; g是重力加速度。
其中:L,
分别是升力和阻力; T 是发动机的推力; m 是飞机的质量; α是飞机的迎角。
导弹飞机的追逃模型中,受飞机升力、阻力和推力的限制,飞机切向过载ntt∈[-2, 1],法向过载nnt∈[-4, 8] , 轨道倾角 μt∈[-π,π]。 (下标 t 和 m 分别表示飞机(目标)和导弹。)
1.2型导弹飞机相对运动模型
导弹飞行器相对运动示意图如图1所示。[xm,ym,zm]T,[xt,yt,zt]T代表导弹与飞行器在地面的位置矢量分别为轴,D代表导弹相对于飞行器的位移,也称为视线。
图1 导弹飞行器的相对运动模型
图1 导弹-飞机交战几何模型
导弹与飞机的距离:
Vm和Vt分别是导弹和飞机的速度向量,导弹与飞机的相对速度:
视线变化率(导弹和飞机距离为正)是
视线角速度矢量:
视线的角速度:
使用飞机在水平面的前导角和导弹进入角,如图2所示,其中
飞机和导弹的速度分别在水平面上的投影。
图2 飞机前导角和导弹进入角
图2 飞机方位角和导弹俯仰角
视轴的方位角可以表示为
飞机在水平面的前导角(飞机速度与视线的夹角):
式中:χt为飞行器航迹的方位角。
导弹在水平面的进入角(导弹速度方向与视线的夹角):
其中:χm 为导弹轨迹的方位角。
1.3 导弹制导规律与杀伤率模型
空空导弹采用比例制导规律,比例系数为
其中:Vm为导弹的飞行速度; C 是一个常数。
当视线距离小于导弹杀伤半径或小于1.距离变化率与时间步长乘积的5倍时,判定导弹击中飞行器。
公式中:kr为导弹杀伤半径; Δt 为仿真时间步长; ∨ 是数学符号“或”。
本文忽略了导弹和飞机的探测传感器和电子对抗模型,只从运动学和动力学的角度考虑导弹失效情况。当且仅当导弹远离目标时,导弹才会失败(D˙>0).
2 DDPG算法
强化学习是通过试错机制与环境交互的代理,其目标是找到最大化环境总回报的最优策略。强化学习可以建模为马尔科夫过程(S,A,P,R),其中S是状态集,A是动作集,P是状态转移模型战斗机规避导弹,R是奖励函数。在时间步 t 期间,代理处于状态 st ∈ S,根据策略 π 在 ∈ A 处采取行动,并获得奖励 rt。环境响应 at 的动作并向代理呈现新状态 st+1∈S。时间步 t 的总奖励为
其中 γ∈[0,1] 是贴现率。代理的目的是学习最大化预期奖励的策略 [23]。
状态 st 在策略 π 下采取行动的期望行动价值函数:
使用贝尔曼方程递归更新估计的动作值函数 Q,直到找到最优策略。使用贝尔曼方程[23]估计动作值函数:
DDPG算法是一种基于actorcritic架构的模型无关深度强化学习算法,由策略网络和动作价值网络组成。其中,确定性策略 μ(st|θμ) 由参数为 θμ 的神经网络表示,动作值函数 Q(st, at|θQ) 由参数为 θQ 的神经网络表示 [17, 24] .
critic network 的输出标签由 Bellman 方程估计,记为 yt:
critic network 的损失:
critic network使用反向传播的方法根据公式(18).
actor网络使用策略梯度优化,策略梯度是指期望返回函数J对策略函数参数θμ的梯度[17]
其中:ρμ是确定性策略的状态分布。
D.Silver 等人。 [25]证明如果∇θμμ(st|θμ)和∇aQ(st,at|θQ)存在,则确定性策略梯度∇θμJ存在。
DDPG借鉴了Deep Q Network(Deep Q Network)的经验池技术,将每一步的经验e=(st,at,rt,st+1)存储在经验池D={e1 , e2, ..em}。由于yt在计算critic网络的损失函数时依赖于Q网络,同时Q网络也在训练,因此训练过程会不稳定。因此,目标网络分别在actor和critic中建立运动估计。目标网络有延迟更新,训练更稳定,收敛性更好。
3 奖励设计
与可以使用标签的监督学习不同,强化学习必须尝试找出采用哪种策略才能获得最大奖励,因此稀疏奖励问题是深度强化学习在实践中应用的核心问题。稀疏奖励在强化学习任务中很普遍。智能体只有完成任务才能获得奖励,中间过程无法获得奖励[26]。
本文增加了人为设计的“强化”奖励,也称为成型奖励。在agent完成任务的过程中,通过整形奖励引导飞行器成功躲避导弹。
3.1 形成奖励设计
形成奖励可以在代理得到最终结果之前评估代理的策略。因此,塑造奖励的设计必须准确,否则会导致策略函数收敛到局部最优。强化学习问题越复杂,影响奖励的因素就越多,塑造奖励设计的难度也越大。
本文利用导弹飞行器的相对态势参数设计成形奖励(公式(20)),引导飞行器避开导弹,加快算法收敛速度。
p>
其中:D0为导弹与飞行器的初始距离;
为视线变化率绝对值的最大值; Ci, i=1, 2, ..., 6 是每个子奖励在总奖励中的权重系数; rd为导弹与飞机的距离奖励,
导弹和飞机之间距离变化率的奖励,(rd和
描述飞机导弹的距离情况); rλ为飞机前导角奖励,rq为导弹进入角奖励,(rλ和rq描述了飞机导弹的角度情况); rMa是飞机飞行马赫数奖励,其目的是防止飞机失速; rh是飞行器飞行高度的奖励,目的是防止飞行器撞地。
3.2 稀疏奖励设计
在大多数强化学习问题中都存在稀疏奖励,即任务完成后的奖励。飞机规避导弹问题的稀疏奖励是导弹-飞机交战的结果,表示为
其中:γt∈[0, 1] 为贴现系数; tm是战斗结果产生的时刻,即最后时刻; t∈[0, tm] 是当前时刻;错过意味着飞机成功躲避; hit 表示导弹成功击中飞机; C7为成功回避奖励的权重系数。
结合公式(20)~form(21),可以得到总奖励表达式:
方程(20)和(21)),奖励权重系数Ci,i=1,2,...,7需要结合奖励参数的取值范围来确定。
首先选择C7的值,因为根据公式(21),成功躲避的奖励为C7 1,被击中或坠毁的奖励为0。本文中C7=选择40,即成功逃脱后奖励为40。根据C7=40综合考虑公式(20)每个奖励的取值范围,Ci,i=1,2,... ,6个值如表1所示。
表1奖励系数值
表1奖励系数的取值
4个基于DDPG的飞机规避导弹训练系统框架
将飞机规避问题建模为强化学习问题。飞行器与导弹在t时刻的运动参数和相对情况是强化学习的状态st,飞行器在t时刻的控制指令是强化学习的动作,导弹飞行器的追飞模型是一个强化学习环境。
基于DDPG强化学习方法、导弹飞行器追击模型和飞行器规避导弹的奖励设计,可以建立飞行器规避导弹训练系统,如图3所示。
图3基于DDPG的飞机规避导弹训练系统
图3基于DDPG的导弹躲避训练系统
基于DDPG的飞机规避导弹训练系统共有8个状态st如表2所示。at有3个动作,如表3所示。
表 2 和表 3 中的 state st 和 action at 分别是 actor 网络的输入和输出。输入和输出的量都在-1和1之间,输入和输出根据各自的取值范围进行归一化和反归一化。
表2飞机规避导弹训练系统现状
表2导弹规避训练系统的状态
表3飞机规避导弹训练系统的动作
表3导弹规避训练系统的动作
基于DDPG的agent只依靠飞行器生成的经验数据和公式(22))来避开导弹环境并存储在经验池中。一种有效的逃生策略。
5 模拟过程和结果5.1 初始场景设置
空空导弹攻击区是指空空导弹发射时可以击中目标的空间区域。导弹攻击区与导弹和飞机的初始速度和初始高度、导弹的离轴发射角度、目标进入角、导弹制导规律、目标机动模式等因素有关。它不仅是衡量空空导弹攻击能力的指标,也是衡量目标飞机逃生机动策略有效性的指标。在其他影响因素相同的前提下,飞机逃生机动对应的导弹攻击区域越小,逃生机动越有效。
考虑到在超视距空战场景中,导弹迎面发射对目标飞机的威胁最大,因此本文将攻击区域范围限定在飞机前角的范围内。 -30° 至 30°。本文使用图4所示的攻击区域作为逃生策略的评价标准。
图4 飞机前倾角-30°~30°的攻击区域
图4飞机方位角从-30°到30°的攻击区
agent 训练的初始场景配置如下:飞机位置保持不变,始终在原点,正北方向。导弹初始位置在以飞行器为中心、半径20-40公里、飞行器前角为-30°至30°的封闭范围内(图4中的封闭线部分),导弹的航向总是指向飞机。考虑到导弹是从舰载机上发射的,导弹的初始高度和马赫数取决于舰载机的高度和马赫数。因此,本文设定飞机导弹的初始高度为8 000 m,初始马赫数为0.9。导弹发射后会急剧加速,导弹马赫数随飞行时间变化如图5所示,最大马赫数大于5.0。
图5 导弹飞行马赫数随时间变化
图5导弹马赫数随时间变化
5.2 训练过程及结果
总共大约700,000次训练,模拟生成总共2.3亿组经验(e=(st, at, rt, st+1))数据。
训练过程及结果如图6所示。x形符号表示飞机以非正常飞行状态(失速或撞地)结束模拟,圆形符号表示飞机被击中导弹,三角形符号表示飞机成功躲避导弹。
图6 训练过程及结果
图6 训练过程及结果
从图6(a)可以看出,在前1000代训练中,飞机失速或撞地占52.6%,被导弹击中占4< @7.3%,飞机仅成功躲避导弹一次。此时agent还没有学会控制飞机的正常飞行,更不用说躲避导弹了。
第 2000 代到第 3000 代的训练结果如图 6(b) 所示。可以看出飞机失速或撞地占15.5%,被导弹击中次数占70.9%,飞机成功躲避导弹占13.6%。此时agent已经能够逐渐控制飞机的飞行,但一直无法有效避开导弹。
最后 1000 代的训练结果如图 6(c) 所示。可以看出,飞机失速或撞地仅占总数的2.7%,导弹命中率占3<@7.0%,飞机成功规避导弹占60. 总数的 3%。此时agent已经自主学习了一种飞机规避策略,可以在25公里左右的距离内规避导弹。
agent学习的逃生机动策略如图7所示,实线为飞机,虚线为导弹。图 7(a)是逃生机动的三维轨迹图。图7(b)和7(c)分别为以地轴系x坐标为横坐标、地轴系y坐标和高度h为纵坐标的飞机导弹飞行轨迹。图片。三角形代表起点,实心圆圈代表终点。图7(b)中y轴的正方向为向下。
图7 基于DDPG算法的逃生策略
图7 基于DDPG算法的规避机动策略
从图7可以看出,agent实现的逃生机动策略是导弹发射后飞机急转弯,尽快将导弹置于机尾后方,降低高度边转弯到 5 000 m 左右,最后飞机成功拉起。避开导弹。
5.3 典型逃生策略介绍
参考文献[4-5,7,27]研究了飞机躲避导弹的问题,总结出四种典型的依靠导弹躲避先验知识的逃生机动策略。
(1)直线平飞:逃生飞机保持初始高度、速度和航向。
(2)蛇式机动:逃生平面航迹的方位角χ在一定幅度范围内连续周期性变化。
(3)水平尾翼机动:逃生飞机以最大稳定盘旋角速度转向尾翼(飞行器与导弹航向偏差小于5°),然后飞离状态加力燃烧室。
(4)尾挂式下降机动:逃生飞机以大于90°的滚转角转弯下降,直到飞机与导弹的航向偏差小于5°战斗机规避导弹,然后在低空处于加力状态以平飞逃生。
典型的逃生策略如图 8 所示。
图 8 典型的逃生策略
图8经典的规避机动策略
与agent训练导弹躲避的初始条件相同,每个典型的躲避机动的攻击区域如图9所示。
图 9 典型机动策略下的攻击区域
图9经典机动策略的攻击区域
结合图6(c)和图9,得到了典型机动策略和agent学习的逃生机动策略的攻击区域对比图,如图10所示。
图10所有逃生机动策略的攻击区域比较
图10所有规避机动策略的攻击区域
从图10可以看出,所有逃生机动策略的攻击范围从大到小依次为:平面机动>蛇机动>水平尾翼机动≈agent实现的逃生机动>尾着陆机动。
综上所述,深度确定性策略算法实现的逃生机动,在没有任何飞机规避导弹先验知识的情况下,攻击面积优于蛇形机动,等于水平尾翼机动,略逊于尾部下降机动。
6 个结论
(1)本文构建的基于DDPG算法的导弹避让训练系统表明,agent最终可以学习到一种有效的逃生机动策略。
(2)与四种典型的逃逸机动策略的攻击区域相比,智能体的逃逸机动攻击区域仅次于落尾攻击区域,但由代理对导弹躲避有显着影响。需要最少的先验知识。
【转载声明】转载的目的是为了传递更多信息。如涉及版权等问题,请在30天内联系该账号,我们会尽快解决!