点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入0.这篇文章干了啥这篇文章提出了 UAV-Flow Colosseo首个面向语言引导无人机精细控制的真实世界基准数据集旨在解决现有语言引导无人机任务主要关注高层规划和长距离导航而忽略了低层精细轨迹控制的问题。UAV-Flow 的核心创新在于提出了Flying-on-a-WordFlow任务范式——无人机通过模仿人类专家飞行员的轨迹来学习执行原子化的语言指令实现短距离、反应式的精细飞行动作如绕树飞行、在桥上方悬停、从右侧穿过等。数据集包含30,692条真实世界飞行轨迹覆盖8大类运动类型由拥有800小时飞行经验的专业飞手在3个大型校园环境中采集总录制时长超过100小时。此外作者提出了地空协同部署框架解决了大模型无法直接部署在无人机机载算力上的问题并实现了首个VLA模型在开放环境中语言引导无人机控制的真实世界部署。实验表明VLA模型在精细控制任务上显著优于传统VLN方法。下面一起来阅读一下这项工作~1. 论文信息论文题目UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning作者Xiangyu Wang, Donglin Yang, Yue Liao, Wenhao Zheng, Bin Dai, Wenjun Wu, Hongsheng Li, Si Liu作者机构北京航空航天大学、新加坡国立大学、香港中文大学 MMLab、杭州北航国际创新研究院论文链接https://arxiv.org/pdf/2505.15725项目主页https://prince687028.github.io/UAV-Flow2. 摘要无人机正在演变为语言交互平台实现更直观的人机交互。虽然先前的工作主要集中在高层规划和长距离导航上但我们将注意力转向语言引导的精细轨迹控制即无人机根据语言指令执行短距离、反应式的飞行动作。我们将此问题形式化为 Flying-on-a-WordFlow任务并引入无人机模仿学习作为一种有效方法。在该框架中无人机通过模仿与原子化语言指令配对的专家飞行员轨迹来学习精细控制策略。为了支持这一范式我们提出了 UAV-Flow这是首个面向语言条件化精细无人机控制的真实世界基准。它包括任务形式化、在多样化环境中收集的大规模数据集、可部署的控制框架以及用于系统评估的仿真套件。我们的设计使无人机能够紧密模仿人类飞行员精确的专家级飞行轨迹并支持直接部署而无需仿真到真实的迁移。我们在 UAV-Flow 上进行了广泛实验对 VLN 和 VLA 范式进行了基准测试。结果表明 VLA 模型优于 VLN 基线并突出了空间接地在精细 Flow 设置中的关键作用。据我们所知这是 VLA 模型在开放环境中语言引导无人机控制的首次真实世界部署。3. 效果展示图2传统无人机VLN与我们的Flow方法分析。左图VLN任务旨在通过根据指令规划长距离路径来抵达远处目标。右图Flow方法专注于在当前场景内执行由语言引导的、朝向视觉锚定目标的短距离轨迹。 「3D视觉工坊」编译4. 主要贡献提出了 Flying-on-a-WordFlow任务范式将语言引导无人机控制从飞得更远转向飞得更好聚焦短距离精细轨迹控制。构建了 UAV-Flow首个面向语言条件化无人机模仿学习的真实世界基准数据集包含30,692条真实飞行轨迹和10,109条仿真轨迹。提出了地空协同部署框架采用全局对齐连续运动方案解决了大模型在无人机上的实时部署问题。实现了首个 VLA 模型在开放环境中语言引导无人机控制的真实世界部署。5. 基本原理是啥Flow 任务定义Flow 任务的核心是将原子化语言指令映射为可执行的无人机动作基于两个核心能力运动意图理解Motion Intent Understanding解释低层飞行语义如以45度角移动5米空间上下文接地Spatial Context Grounding将语言中的空间引用与视觉观测关联如飞到标记物右侧策略函数定义为其中是无人机6-DoF状态是视觉观测是语言指令是低层控制动作。指令类型Flow 任务定义了两种指令类型原始运动指令Primitive Motion Commands起飞、平移、旋转、俯冲等基本飞行动作物体交互指令Object-Interactive Commands接近、环绕、穿越、悬停等需要视觉感知的空间推理任务真实世界数据采集数据采集流程包含三个关键步骤1. 高质量轨迹采集在3个大学校园总面积5.02 km²中采集由拥有800小时飞行经验的专业飞手操作使用 DJI Mavic 3T RTK配备4K相机和RTK GPS模块每条指令从多个起始位置执行增加行为多样性2. 轨迹-视觉对齐通过时间戳同步飞行日志与视频将GPS坐标转换为以起始位置为中心的局部笛卡尔坐标系以5Hz均匀采样生成视觉观测与飞行姿态的配对序列3. 语言指令标注大规模标注团队审核飞行视频过滤模糊或不连贯的飞行片段利用GPT系列模型进行语言多样化生成开放词汇指令集地空协同部署框架由于无人机机载算力有限无法直接部署大模型作者提出了地空协同策略无人机端通过RTSP和MAVROS流式传输FPV视频和状态数据地面站执行推理并返回低层控制指令全局对齐连续运动方案采用前瞻机制的chunk-wise动作预测预测目标点与当前状态融合生成全局位姿仿真评估环境基于UnrealCV构建了 UAV-Flow-Sim 仿真数据集采用混合策略人工采集 基于规则的数据生成包含273条标注测试轨迹覆盖所有主要动作类型使用成功率和归一化动态时间规整NDTW作为评估指标6. 实验结果基准方法作者将两类方法适配到Flow任务VLN模型Seq2Seq-UAV将离散动作输出改为连续位姿回归CMA-UAV双向LSTM 循环注意力机制Travel-UAV基于MLLM架构直接从视觉输入生成航点VLA模型OpenVLA-UAV单帧视觉输入动作空间离散化为256个tokenPi-0-UAV多帧输入使用Flow Matching机制输出6-DoF动作块仿真环境评估在UAV-Flow-Sim上对固定词汇和开放词汇指令集进行闭环评估关键发现传统VLN模型Seq2Seq-UAV、CMA-UAV在Flow任务上表现较差RNN架构导致轨迹漂移Travel-UAV在原始运动指令上表现良好但视觉编码仅17个token限制了精细语义理解VLA模型OpenVLA-UAV、Pi-0-UAV在精细控制和视觉接地上显著优于VLN方法开放词汇训练不仅没有降低成功率反而增强了语言泛化能力真实世界部署将 Pi-0-UAV 在 UAV-Flow 真实世界数据集上训练后通过地空协同框架部署到真实无人机上Pi-0-UAV 的动作块输出与前瞻机制有效集成实现了平滑、无延迟的连续飞行控制成功执行了多种精细飞行动作数据集统计数据集轨迹数量运动类型采集环境UAV-Flow真实30,6928大类3个校园5.02 km²UAV-Flow-Sim仿真10,1098大类UE仿真环境仿真测试集273全覆盖UE仿真环境7. 总结 未来工作总结UAV-Flow Colosseo 提出了首个面向语言引导无人机精细控制的真实世界基准包含30K真实飞行轨迹。通过Flow任务范式将研究焦点从飞得更远转向飞得更好并实现了VLA模型在开放环境中语言引导无人机控制的首次真实世界部署。实验表明VLA模型在精细控制任务上显著优于传统VLN方法空间接地能力是关键因素。局限性与展望真实世界定量评估受飞行安全和环境变化限制系统性真实世界评估仍具挑战性短距离与长距离结合当前聚焦视觉范围内的短距离控制将精细执行与长距离规划结合是未来关键方向动态环境适应在更复杂的动态环境中如人群、移动物体的部署有待探索本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。