文章总结与翻译一、主要内容该研究聚焦离线强化学习(Offline RL)中核心的分布偏移(OOD点估计)问题,提出了一种基于显式行为密度的约束策略优化方法(CPED)。离线强化学习因无法与环境交互,难以准确估计分布外(OOD)状态-动作点,现有方法要么通过Q函数悲观估计规避OOD点,要么通过策略控制限制动作空间,但存在过于保守或OOD区域识别不准确的缺陷。CPED创新性地引入Flow-GAN模型,直接且精确地估计行为策略的密度,以此界定安全区域——该区域既包含训练数据中观察到的点,也涵盖未观察但安全的状态-动作点,实现了在安全范围内的合理探索,避免了过度保守的学习。理论层面,作者证明了带混合损失的Flow-GAN能够准确估计密度(收敛率达OP(n−1/2)O_{\mathbb{P}}(n^{-1/2})O