从Labelme到DOTA：手把手教你搞定遥感图像旋转目标检测的自定义数据集

张

张建站

2026/6/8 12:00:42

10分钟阅读

从Labelme到DOTA遥感图像旋转目标检测实战指南当处理无人机或卫星拍摄的遥感图像时传统的水平边界框往往难以准确捕捉目标的真实朝向和位置。旋转目标检测OBB技术通过预测带角度的边界框显著提升了飞机、车辆等定向目标的检测精度。本文将完整呈现从Labelme标注数据到DOTA格式转换再到MMDetection框架实战的全流程解决方案。1. 旋转目标检测基础认知旋转目标检测与传统水平检测的核心区别在于标注方式。以DOTA数据集为例每个目标通过四个顶点坐标(x1,y1,x2,y2,x3,y3,x4,y4)定义形成任意方向的四边形。这种标注方式特别适合具有明显方向特性的目标如航空影像中的飞机机头朝向各异港口集装箱排列方向不一道路车辆行驶方向不同关键优势对比检测方式标注点数量适用场景IOU计算复杂度水平边界框2点通用物体低旋转边界框4点具有方向特性的物体高多边形分割多点不规则形状物体极高提示实际项目中需权衡标注成本与检测精度旋转框在遥感领域通常是最佳折中选择2. 数据格式转换实战2.1 Labelme到DOTA的转换逻辑Labelme生成的JSON文件包含多边形顶点信息与DOTA要求的旋转框格式存在映射关系。转换时需要处理以下核心字段# Labelme示例片段 { shapes: [ { label: airplane, points: [[x1,y1], [x2,y2], [x3,y3], [x4,y4]], shape_type: polygon } ] } # 对应DOTA格式 airplane 0 # 类别与difficult标记 x1 y1 x2 y2 x3 y3 x4 y4 # 必须顺时针排列转换脚本关键步骤解析JSON中的多边形顶点验证顶点数量是否为4非四边形需特殊处理按顺时针顺序重新排列顶点输出为DOTA标准的TXT格式2.2 实际转换中的边缘情况顶点顺序校正使用向量叉积法判断顶点排列方向def is_clockwise(points): edge 0 for i in range(len(points)): x1, y1 points[i] x2, y2 points[(i1)%4] edge (x2 - x1) * (y2 y1) return edge 0非四边形处理对多边形进行最小外接矩形计算坐标归一化处理不同标注工具的坐标原点差异3. DOTA数据处理全流程3.1 图像裁剪策略优化针对4096×4096的大尺寸遥感图像推荐采用滑动窗口裁剪法重叠率设置50%重叠可确保目标完整性多尺度处理生成0.5x、1.0x、1.5x三种尺度无效区域过滤剔除无目标的空白裁剪块性能对比实验数据裁剪策略mAP0.5训练速度(imgs/s)显存占用直接resize0.623.210GB无重叠裁剪0.711.86GB50%重叠裁剪0.781.26GB多尺度重叠0.830.86GB3.2 DOTA_devkit深度使用官方工具包提供的关键功能需要针对性适配# 图像裁剪示例 python prepare_dota.py --base_img_dir ./images \ --base_label_dir ./labelTxt \ --output_dir ./crop_output \ --crop_size 1024 \ --gap 512注意裁剪后的子图命名需保留原图坐标信息如P0001__1000__2000__0.png表示从原图(1000,2000)位置裁剪4. MMDetection实战配置4.1 数据集注册规范在MMDetection中注册自定义DOTA格式数据集创建mmdet/datasets/dota.pyDATASETS.register_module() class DOTADataset(CustomDataset): CLASSES (plane, ship, storage-tank, ...) # 按实际类别修改 def load_annotations(self, ann_file): # 实现DOTA格式解析逻辑 return ann_list修改mmdet/datasets/__init__.pyfrom .dota import DOTADataset __all__.extend([DOTADataset])4.2 S2ANet模型调优针对旋转目标检测的典型配置修改项# configs/s2anet/s2anet_r50_fpn_1x_dota.py model dict( bbox_headdict( num_classes15, # 匹配DOTA类别数 anchor_generatordict( angles[0, 30, 60, 90] # 调整anchor角度分布 ) ) ) data dict( traindict( typeDOTADataset, ann_filedata/dota/train/labelTxt/, img_prefixdata/dota/train/images/ ) )关键训练参数建议初始学习率0.0025batch_size4时正样本IoU阈值0.5多尺度训练[(800,800), (1000,1000)]5. 部署优化经验在实际项目中遇到的典型问题及解决方案CUDA版本冲突当出现MMCV与PyTorch版本不匹配错误时使用以下组合PyTorch 1.7 CUDA 11.0MMCV-full 1.3.8显存不足处理# 启用梯度累积 optimizer_config dict(typeGradientCumulativeOptimizerHook, cumulative_iters4)预测结果后处理对裁剪检测结果进行NMS合并时建议使用from mmrotate.core.bbox import rbbox_nms keep rbbox_nms(dets, iou_threshold0.1)处理大尺寸遥感图像时最耗时的往往不是模型推理而是图像预处理阶段。在实际部署中发现使用OpenCV的GPU加速处理能显著提升性能# 启用CUDA加速 cv2.cuda.setDevice(0) gpu_mat cv2.cuda_GpuMat() gpu_mat.upload(img) resized cv2.cuda.resize(gpu_mat, (1024,1024))

Arduino I2C地址扫描避坑指南：为什么你的OLED屏幕或传感器总是连不上？

Arduino I2C地址扫描避坑指南：为什么你的OLED屏幕或传感器总是连不上？ 刚接触Arduino和I2C通讯的新手们，是否经常遇到这样的场景：按照教程一步步接线，上传代码后却始终提示"设备未找到"？这种挫败…...

2026/6/8 11:54:49 阅读更多 →

Android手机玩转FT8通信：5分钟快速部署FT8CN开源工具终极指南

Android手机玩转FT8通信：5分钟快速部署FT8CN开源工具终极指南【免费下载链接】FT8CN Run FT8 on Android 项目地址: https://gitcode.com/gh_mirrors/ft/FT8CN 你是否曾经想过，在野外通联时摆脱沉重的笔记本电脑，只用一部手机就能完…...

2026/6/8 11:51:06 阅读更多 →

2026创业者该读哪个MBA？创新创业生态与性价比全解

创业者选MBA，往往不看单一排名，而看课程能不能直接用在项目上、校友能不能对接资本与合伙人、学费花出去能不能换回资源。本文用五个实战维度拆解国内高端MBA，上海交通大学安泰MBA领衔对比复旦、中欧，数据以2026级公开信息为准。 …...

2026/6/8 11:51:02 阅读更多 →

CSDN AI数字营销卡片配置手册（跳转权限解禁版）：官方未公开的3种合规跳转变通方案

更多请点击： https://codechina.net 第一章：CSDN AI 数字营销的引流卡片支持跳转官网、小程序链接吗？ CSDN AI 数字营销平台提供的引流卡片，是面向技术创作者与企业用户的核心转化组件，其核心能力之一即为外链跳转。目…...

2026/6/8 4:16:56 阅读更多 →

如何3分钟找回遗忘的压缩包密码：免费开源工具的终极指南

如何3分钟找回遗忘的压缩包密码：免费开源工具的终极指南【免费下载链接】ArchivePasswordTestTool 利用7zip测试压缩包的功能对加密压缩包进行自动化测试密码项目地址: https://gitcode.com/gh_mirrors/ar/ArchivePasswordTestTool 你是否曾经面对一个加密…...

2026/6/7 0:03:20 阅读更多 →

Linux桌面便签神器：Sticky如何让你的工作效率提升300%？

Linux桌面便签神器：Sticky如何让你的工作效率提升300%？ 【免费下载链接】sticky A sticky notes app for the linux desktop 项目地址: https://gitcode.com/gh_mirrors/stic/sticky 在Linux桌面上，你是否经常需要快速记录一闪而过的灵…...

2026/6/8 5:33:48 阅读更多 →

YOLO11部署优化：OpenVINO推理 | 在Intel CPU上利用OpenVINO异构推理加速，无需GPU也能实时检测

我在Intel i7-13700上实测，YOLO11n经过OpenVINO INT8量化后推理延迟从原始的92ms降至19ms，配合异构调度实现CPU+GPU双核并行后进一步压缩到11ms，无需独立GPU即可跑满30FPS实时检测写在前面：一个被低估的部署痛点过去两年，我在三个不同的工业视觉项目中遇到同样的困境—…...

2026/6/8 0:51:40 阅读更多 →