科研成果

当前位置: 首页 > 科学研究 > 科研成果 > 正文

论文推荐第7期 | 强化学习赋能卫星编队:控制器参数寻优

发布时间:2025-08-08 点击数量:

题目:TD3-Based Model Predictive Control for Satellite Formation-Keeping

时间:2024年8月

作者:西安交通大学博士生胡星,翟智研究员,刘金鑫教授,王晨希副教授等

简介:针对空间编队任务中轨迹跟踪与燃料消耗协同优化的问题,本研究提出基于强化学习的智能控制参数优化方法。通过建立考虑J2摄动效应的航天器高精度相对运动模型,将模型预测控制(MPC)参数调整问题转化为强化学习框架,并采用双延迟深度确定性策略梯度(TD3)算法实现控制器参数的自主优化。仿真验证表明,所开发的TD3-MPC混合架构在编队保持控制中展现出显著优势——相较于传统线性MPC控制器,稳定运行场景下卫星轨迹跟踪误差减少3.67%,燃料消耗降低22.27%。

原文链接:https://ascelibrary.org/doi/10.1061/JAEEEZ.ASENG-5646

引用本文:Hu X , Zhai Z , Liu J ,et al.TD3-Based Model Predictive Control for Satellite Formation-Keeping[J].Journal of Aerospace Engineering, 2024, 37(6).DOI:10.1061/JAEEEZ.ASENG-5646.



摘要:空间任务中编队飞行的日益普及导致研究人员更加关注设计卫星沿参考轨道编队运动的最佳控制系统,以减少跟踪误差和能耗。本文介绍了一种新的方法,即基于双延迟深度确定性策略梯度的模型预测控制(TD3-MPC)方法。为了应对多目标编队保持挑战,开发了一种基于卫星动力学的线性模型预测控制器。随后,制定成本函数以促进多个目标的优化,特别是跟踪误差和燃料消耗。在解决控制器参数整定的复杂问题时,我们采用强化学习并设计了一个反映TD3算法控制器性能的奖励函数。仿真结果强调了所提出的TD3-MPC算法与线性模型预测控制器相比的优越性能,在大误差条件下,跟踪误差显著降低了27.83%,油耗显著降低了48.30%,在小误差条件下跟踪误差降低了3.67%,油耗显著降低了22.27%。通过有效地结合强化学习和模型预测控制的优势,TD3-MPC增强了卫星更精确地遵循其预期轨迹的能力,从而确保了卫星编队的稳定性和所需的作战性能。

关键词:MPC; TD3;卫星编队控制;强化学习;参数寻优


一、方法

本文提出了一种基于双延迟深度确定性策略梯度的模型预测控制(TD3-MPC)方法,用于解决卫星编队飞行中的多目标优化问题(跟踪误差和燃料消耗)。该方法结合了模型预测控制(MPC)的滚动优化能力与强化学习(TD3)的自动参数调优优势,具体实现如下:

将控制器参数调优问题建模为一个强化学习问题,TD3-MPC算法结构如图1所示。

undefined

图1 TD3-MPC算法结构图

1.大误差条件(初始位置偏差显著)

(1)轨道保持误差:TD3-MPC相比传统线性MPC降低27.83%。

(a). X轴方向轨道保持误差

undefined

(b). Y轴方向轨道保持误差

(c). Z轴方向轨道保持误差

图2 轨道保持误差曲线图,TD3-MPC控制器在初始65秒内展现出快速收敛特性,跟踪误差显著低于基准方法,验证了其短期控制效率。尽管在65-6000秒的中期阶段出现瞬时燃料消耗上升,但最终总燃料消耗仍降低了48.3%。这表明算法能动态识别能量消耗峰值阶段,通过参数自适应调整,在关键节点优化控制策略,实现长期能耗与跟踪精度的平衡。

(2)燃料消耗:TD3-MPC减少48.30%。

(a). X轴方向控制加速度曲线

(b). Y轴方向控制加速度曲线

(c). Z轴方向控制加速度曲线

图3 控制加速度曲线图,可以看出,算法在xyz三轴上的控制量均小于原MPC控制器。

(3)性能:轨迹超调量显著降低(见图4),控制加速度更平滑,稳态误差更小。

图4 空间相对坐标系中从卫星的轨迹

2.小误差条件(初始偏差微小)

(1)轨道保持误差:TD3-MPC进一步降低3.67%,稳态精度更高。

(a). X轴方向轨道保持误差

(b). Y轴方向轨道保持误差

(c). Z轴方向轨道保持误差

图5 轨道保持误差曲线图,针对前20s进行了放大。可以看出,在三个运动轴上,TD3-MPC算法相对于传统MPC算法,有效地降低了跟踪误差。

(2)燃料消耗:减少22.27%,稳态情况下燃料消耗同样得到下降。

(a). X轴方向控制加速度曲线

(b). Y轴方向控制加速度曲线


(c). Z轴方向控制加速度曲线

图6 控制加速度曲线图,可以看出三轴上的控制量均小于原MPC控制器。且其转换的过程也更加平缓,体现了算法在控制加速度调整上的有效性。

二、未来与展望

1.复杂扰动环境扩展:当前模型仅考虑J2摄动,未来可纳入大气阻力、太阳光压等更多扰动因素,提升控制器的鲁棒性。

2.不确定性考虑:当前研究缺乏对实际环境中存在的不确定性考虑。模型不确定性、通信延迟和电磁干扰等因素会影响卫星编队保持控制器在现实场景中的性能。因此,未来的研究将侧重于将这些不确定性纳入建模过程,使模型更加稳健,并与实际环境密切相关。

3.硬件在环验证:当前研究没有进行物理实验验证,后续计划通过半物理仿真平台验证算法在真实星载计算机上的可行性,推动工程应用。


【作者简介】

胡  星(第一作者),西安交通大学机械工程学院博士在读,主要研究方向为:卫星编队控制,强化学习与编队轨迹生成。

翟   智,西安交通大学机械工程学院研究员。主要研究方向为:航天器智能制造与健康管理。

刘金鑫(通讯作者),西安交通大学机械工程学院教授/博导。现任西安交大机械学院航天所所长、航空动力系统与等离子体技术全国重点实验室研究部副部长、西安交通大学与航天六院校企产教融合示范平台校方总师/平台负责人。目前主要研究方向为:空天推进系统、容错控制、故障诊断、太空制造技术等。

王晨希,西安交通大学机械工程学院副教授,主要研究方向为:故障诊断,自适应控制与强化学习。