【MATLAB源码-第420期】基于MATLAB的Actor-Critic强化学习的四旋翼无人机姿态与轨迹控制仿真
操作环境MATLAB 2024a1、算法描述摘要四旋翼无人机具有结构紧凑、机动性强、垂直起降能力突出等优势已广泛应用于巡检、测绘、安防、物流与应急救援等场景。然而四旋翼系统本质上具有强非线性、强耦合、欠驱动和易受外界扰动影响等特征传统固定参数控制器在参数失配、环境扰动和复杂轨迹任务下往往难以同时兼顾动态性能、稳态精度 与控制平滑性。近年来强化学习逐步被引入四旋翼控制领域尤其是Actor-Critic类方法因其兼具策略优化与价值评估能力在连续控制任务中展现出较强的适应潜力与此同时观测空间设计、仿真到实物迁移、输入约束和训练稳定性仍是该方向的核心挑战。本文围绕四旋翼无人机姿态与轨迹控制问题构建了一种基于Actor-Critic强化学习的增益调度控制框架。该方法并未简单地以强化学习直接输出全部底层控制量而是将其用于控制模式与增益配置的在线选择使学习策略与双环控制结构相结合。外环根据位置误差和速度误差生成姿态参考内环完成姿态稳定与角速度调节Actor-Critic策略则依据飞行状态在多个候选增益模式之间进行决策从而在瞬态响应与稳态跟踪之间建立更具适应性的折中。与近年来将强化学习用于增益整定、模型预测控制融合以及抗风扰轨迹跟踪的研究思路相比本文方案更强调工程可实现性与结构清晰性。仿真结果表明所设计的Actor-Critic控制方法能够在三维参考轨迹跟踪任务中取得稳定有效的控制效果。相较于固定增益控制器本文方法在综合位置均方根误差方面表现更优能够在保持姿态响应平稳的同时减小位置跟踪误差在控制输入层面通过模式滞回、最小驻留时间和输入平滑机制的引入切换过程中的突变被有效抑制控制曲线更符合四旋翼系统实际执行器的工作特性。研究结果说明将Actor-Critic强化学习与具有明确物理意义的控制结构相结合是提升四旋翼复杂任务适应性的一条可行路径。关键词四旋翼无人机强化学习Actor-Critic姿态控制轨迹跟踪增益调度智能控制1 引言四旋翼无人机控制问题一直是无人系统研究中的重要方向。与固定翼平台相比四旋翼具备更高的悬停能力和低速机动性能但也因此更加依赖控制算法对推力与姿态之间耦合关系的实时调节。传统PID、LQR、反步法、滑模控制以及模型预测控制 等方法在建模清晰、工况相对确定的条件下具有良好性能但当系统遭遇参数不确定、风扰动、输入延迟以及高动态机动任务时其控制性能往往受到明显影响。近年来大量研究开始将深度强化学习引入四旋翼控制希望利用数据驱动方式提升系统对复杂环境和未知条件的适应能力。相关研究表明强化学习已经从简单悬停扩展至姿态控制、轨迹跟踪、增益整定、抗风扰飞行乃至仿真到实物迁移等多个方向。然而四旋翼控制并不是一个适合“纯黑箱”学习直接替代全部控制结构的简单问题。一方面四旋翼系统对输入约束、控制带宽、执行器响应速度和姿态稳定性要求很高另一方面学习策略若缺乏物理结构约束往往容易出现训练时间长、回报波动大、控制输入高频振荡以及仿真到实际平台泛化能力不足等问题。已有研究特别指出观测空间的选择会显著影响四旋翼强化学习策略的训练难度和迁移表现而高质量仿真环境、课程学习和结构化动作空间能够显著降低学习成本。与此同时将Actor-Critic框架与模型预测控制、扰动补偿、策略正则化或增益整定思想结合已经成为提升稳定性与工程可部署性的重要趋势。基于上述背景本文不采用直接由神经网络输出四个电机控制量的方式而是建立一种更适合工程实现的Actor-Critic增益调度框架。该框架保留双环控制结构的清晰物理意义让强化学习承担“在不同飞行阶段选择更合适控制模式”的任务。这样既保留了传统控制器的稳定基础又引入了学习策略的自适应能力使系统能够在轨迹跟踪初始阶段、中间过渡阶段和末端稳定阶段表现出不同的控制侧重。本文的研究重点不在于构造极端复杂的深度网络而在于证明Actor-Critic在结构化四旋翼控制任务中的可行性、有效性与工程解释性。2 四旋翼系统与控制问题描述四旋翼无人机由机体、四个电机及螺旋桨组成。通过调节四个旋翼转速可以实现总升力变化以及滚转、俯仰、偏航三个方向上的力矩调节。由于平移运动与姿态运动之间存在内在耦合四旋翼系统通常采用分层控制思想位置外环根据空间轨迹误差生成姿态参考姿态内环根据期望姿态和角速度误差产生总推力与姿态力矩从而完成飞行控制任务。这种控制结构具有明确的物理分工也是当前大多数高性能四旋翼控制器的共同基础。在实际应用中四旋翼控制问题的难点主要体现在三个方面。其一系统非线性显著位置通道与姿态通道之间的相互影响使得单纯采用固定参数控制器难以覆盖全部任务区间。其二外界风扰、输入延迟、执行器不一致性及载荷变化会破坏理想模型假设。其三复杂轨迹任务往往同时要求较小的跟踪误差、较快的过渡速度和较平滑的控制输入而这些目标之间本身存在矛盾。相关研究已经在抗风扰、输入延迟、离线强化学习路径规划和策略正则化等方面展开探索说明四旋翼强化学习控制正在由“能学会”转向“学得稳、用得上、可迁移”。因此本文将控制目标定义为在给定空间参考轨迹条件下使四旋翼能够在有限时间内实现稳定起飞、平滑过渡和连续轨迹跟踪并在整个飞行过程中保持姿态可控、位置误差较小以及控制输入变化受限。围绕这一目标本文构建以Actor-Critic为核心的增益模式决策机制将其嵌入传统双环控制框架中使强化学习对系统控制风格进行在线调节。3 基于Actor-Critic的控制框架设计Actor-Critic方法兼具策略函数与价值函数两部分。Actor负责根据当前状态给出动作选择Critic负责评估当前策略下状态或状态动作对的价值从而为策略改进提供方向。对于四旋翼这类连续控制系统而言Actor-Critic类方法相较于单纯值函数方法更适合处理复杂状态空间和连续调节任务也更容易与已有控制结构结合。近年来Actor-Critic不仅被用于直接控制也被用于模型预测控制融合、增益调节和飞行策略快速训练这为本文采用该框架提供了方法依据。本文的核心设计思想是将Actor-Critic用于“控制模式选择”而不是直接输出全部底层推力命令。具体而言首先离线设定若干组具有不同动态特性的候选增益模式这些模式分别偏向快速响应、平衡控制和平滑稳态等控制目标然后以位置误差、速度误差、姿态误差及角速度信息构造学习状态Actor根据当前飞行状态从候选模式中选择更适合的增益配置Critic则对该选择在当前情形下的长期回报进行评估。这样做的优势在于学习器不必从零开始摸索完整控制律而是在具备物理意义的控制结构中进行高层调度从而降低训练难度增强可解释性。在奖励设计方面本文重点考虑位置误差、姿态误差、控制能量、控制增量和模式切换代价。位置误差项用于保证轨迹跟踪精度姿态误差项用于抑制姿态偏差过大带来的飞行不稳定控制能量和控制增量项用于限制控制输入过于激进模式切换代价则避免策略在相邻模式之间频繁来回跳变。已有研究表明强化学习在四旋翼控制中能否获得稳定策略很大程度上取决于奖励函数设计是否兼顾动态性能与执行器可承受性。将结构约束与正则化机制引入学习过程是减少高频振荡与提升策略可靠性的有效方法。此外为了进一步增强工程合理性本文在执行阶段引入模式滞回、最小驻留时间和输入变化率限制。模式滞回用于防止策略因局部状态波动引发无意义切换最小驻留时间用于保证每种模式至少维持一定时间从而体现真实控制器对增益切换的要求而输入变化率限制和一阶平滑处理则有助于减小推力与力矩指令的尖峰。这一设计使本文方法与直接端到端控制相比更符合四旋翼执行器的工作特性也更接近现有研究中“强化学习与控制结构融合”的主流方向。4 姿态与轨迹控制器实现思路本文在实现上采用位置外环与姿态内环协同设计。位置外环根据参考轨迹与当前飞行状态计算位置误差和速度误差并生成期望姿态和总推力参考。由于四旋翼在水平运动中需要依靠滚转和俯仰改变推力方向因此位置误差不仅影响平移通道也会间接影响姿态参考。对于姿态内环则根据滚转、俯仰和偏航的期望值与实际值之间的差异输出相应的姿态力矩指令。整个控制过程中Actor-Critic策略并不改变双环结构本身而是对关键增益模式进行选择和调整使控制器在不同状态下具有更灵活的响应风格。从飞行过程来看控制任务通常可以分为三个阶段。初始阶段位置误差较大需要更积极的控制模式以尽快建立接近参考轨迹的运动趋势中间过渡阶段误差虽已下降但轨迹曲率变化和姿态耦合更明显需要在精度与平滑之间取得平衡稳态跟踪阶段则更强调误差抑制和控制输入平滑。本文方法正是利用Actor-Critic在这些阶段之间进行模式切换。仿真结果表明策略在前段瞬态阶段会经历有限次模式调整随后逐步收敛至更适合稳态运行的模式这说明学习器确实承担了高层控制风格调度功能而不是退化为完全随机切换或完全静态选择。5 仿真设计与结果分析为验证所提方法的有效性本文构建了四旋翼三维轨迹跟踪仿真场景并设置固定增益控制器作为对比对象。评价指标主要包括训练验证累计回报、训练验证位置均方根误差、三维轨迹跟踪效果、三轴位置误差变化、姿态跟踪曲线、控制输入曲线以及综合位置均方根误差。之所以采用这一组指标是因为四旋翼控制效果不能仅通过单一误差数值评价还需要同时考察训练趋势、空间轨迹一致性、姿态稳定性以及控制输入平滑程度。该评价思路与近年来相关文献中对轨迹跟踪、鲁棒性和可部署性多维联合评估的做法是一致的。从训练过程看Actor-Critic策略的验证累计回报呈现先上升后趋稳的特征位置均方根误差则整体下降并在后期进入较平稳区间。这说明学习过程并非无序探索而是逐渐形成了能够降低综合代价的策略。虽然提升幅度并不属于极端激进型但训练曲线已能体现出收敛趋势。对于四旋翼控制而言稳定提升往往比短期内大幅波动后偶然获得较优值更具工程意义因为真实系统更关注一致性与可重复性。从三维轨迹结果看Actor-Critic控制器相较固定增益控制器在参考轨迹附近表现出更好的跟踪一致性尤其是在回环段和曲率变化较大的区域其空间偏差更小。对应的三轴位置误差曲线也表明所提方法在横向和纵向通道上均表现出更优的误差抑制能力在高度方向上则保持与基线相近甚至略优的稳定表现。这说明学习策略并非只在某一个通道上带来偶然改善而是在多轴耦合条件下提升了整体控制品质。从姿态响应看滚转和俯仰通道能够平稳跟踪期望姿态偏航通道基本保持良好一致性没有出现明显发散或高频震荡。控制输入曲线进一步表明在加入平滑与限速机制后总推力和姿态力矩的变化更加自然模式切换引起的输入突变得到了有效抑制。增益模式切换曲线显示策略在瞬态阶段会经历有限次有序切换而在进入稳定跟踪阶段后逐步收敛到较合适的主导模式。这样的现象符合四旋翼控制规律在大误差阶段需要较强控制在小误差阶段则更适合收敛到较稳定的控制参数而不应持续频繁切换。综合性能对比结果表明Actor-Critic控制器在整体位置均方根误差指标上优于固定增益控制器说明所提方法在轨迹跟踪精度方面取得了实质改善。更重要的是这种改善并非通过增加高频控制动作换取而是在控制输入更平滑、姿态响应更稳定的前提下实现的。因此本文方法在“性能提升”与“工程可实现性”之间建立了较为合理的平衡。6 方法讨论尽管本文方法在仿真中取得了较为积极的结果但仍需理性认识其局限性。首先Actor-Critic策略仍建立在仿真环境基础上其泛化能力受动力学建模精度、扰动设定方式和观测噪声建模质量影响较大。相关研究已经反复表明四旋翼强化学习控制面临显著的仿真到实物迁移问题观测维度设计、训练域随机化程度以及输入表示方式都会影响迁移成败。其次本文采用的是“强化学习辅助增益调度”而非完全端到端控制。该设计的优势在于训练更稳、解释性更强但也意味着策略上限会受到候选模式库的限制。若候选模式设计不合理即使学习器本身有效也难以突破先验控制结构所规定的边界。未来可以进一步考虑连续参数调节、策略蒸馏、分层强化学习以及安全约束学习等方向以增强控制器在更复杂环境中的适应性。相关文献中关于持续强化学习、策略正则化、离线强化学习以及安全过滤机制的探索均说明未来四旋翼智能控制将更强调鲁棒性、安全性与结构融合而不是单纯追求端到端替代。7 结论本文围绕四旋翼无人机姿态与轨迹控制问题研究了一种基于Actor-Critic强化学习的增益调度控制方法。该方法通过将Actor-Critic策略嵌入双环控制结构实现了对不同控制模式的在线选择使系统在轨迹跟踪初始阶段、过渡阶段和稳态阶段表现出更符合任务需求的控制特性。仿真结果表明所设计方法能够在保证姿态平稳和控制输入较为平滑的同时减小空间轨迹跟踪误差并在综合位置均方根误差指标上优于固定增益控制器。从研究意义上看本文并未将强化学习简单视为替代全部传统控制器的“万能方案”而是强调其与结构化控制方法相结合的工程价值。事实表明在四旋翼这样对安全性、实时性和稳定性要求较高的系统中保留清晰的控制分层结构并让强化学习承担高层调度与自适应选择任务是一种兼顾性能、稳定性与解释性的合理思路。未来可进一步结合抗风扰建模、离线数据学习、在线微调和安全约束机制推动该方法向更复杂场景和更高可信度方向发展。参考文献[1] Shen S E, Huang Y C. Application of Reinforcement Learning in Controlling Quadrotor UAV Flight Actions[J]. Drones, 2024, 8(11): 660. DOI: 10.3390/drones8110660.[2] Huang K, Rana R, Spitzer A, et al. DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control[C]//Proceedings of The 7th Conference on Robot Learning. PMLR, 2023, 229: 326-340.[3] Dionigi A, Costante G, Loianno G. The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control[C]//2024 IEEE/RSJ International Conference on Intelligent Robots and Systems. 2024. DOI: 10.1109/IROS58592.2024.10802831.[4] Eschmann J, Albani D, Loianno G. Learning to Fly in Seconds[J]. IEEE Robotics and Automation Letters, 2024, 9(7): 6336-6343. DOI: 10.1109/LRA.2024.3396025.[5] Romero A, Song Y, Scaramuzza D. Actor-Critic Model Predictive Control[C]//2024 IEEE International Conference on Robotics and Automation. 2024: 14777-14784. DOI: 10.1109/ICRA57147.2024.10610381.[6] Sönmez S, Montecchio L, Martini S, et al. Reinforcement Learning-Based PD Controller Gains Prediction for Quadrotor UAVs[J]. Drones, 2025, 9(8): 581. DOI: 10.3390/drones9080581.[7] Liu Y, Hao L, Wang S, et al. Trajectory Tracking Controller for Quadrotor by Continual Reinforcement Learning in Wind-Disturbed Environment[J]. Sensors, 2025, 25(16): 4895. DOI: 10.3390/s25164895.[8] Quan J, Hu W, Ma X, et al. Reinforcement Learning Stabilization for Quadrotor UAVs via Lipschitz-Constrained Policy Regularization[J]. Drones, 2025, 9(10): 675. DOI: 10.3390/drones9100675.[9] Zhang Z, Fei Y, Zhou J, et al. Robust Reinforcement Learning Control for Quadrotor with Input Delay and Uncertainties[J]. Journal of the Franklin Institute, 2024, 361(13): 107012. DOI: 10.1016/j.jfranklin.2024.107012.[10] Zhao H, Fu H, Yang F, et al. Data-driven Offline Reinforcement Learning Approach for Quadrotor’s Motion and Path Planning[J]. Chinese Journal of Aeronautics, 2024, 37(11): 386-397. DOI: 10.1016/j.cja.2024.07.012.2、仿真结果演示3、关键代码展示略4、MATLAB 源码获取V点击下方名片关注公众号获取