CWC 数据集概况项目数值原始图片总量2750 张VOC_xml 目录YOLO格式总量2750 张与原始数量一致图片分辨率800 × 600图片格式JPG类别数11 类是否做过数据增强未做离线增强数量完全一致无增强后缀 数据划分8:1.6:0.4 ≈ 80% : 16% : 4%子集图片数标注数占比训练集 (train)2200220080.0%验证集 (val)44044016.0%测试集 (test)1101104.0%合计27502750100%️ 各类别按子集分布完全均衡类别VOC原始TrainValTestbluegrass早熟禾2502004010chenopodium_album藜2502004010cirsium_setosum刺儿菜2502004010corn玉米2502004010sedge莎草2502004010cotton棉花2502004010nightshade龙葵2502004010tomato番茄2502004010velvet苘麻2502004010lettuce生菜2502004010radish萝卜2502004010关键结论无离线数据增强— 每类恰好 250 张原始图没有做 Mosaic、翻转等离线扩增但训练时 YOLO 框架会自动做在线增强Mosaic、MixUp、随机翻转、HSV 扰动等类别完全均衡— 每类 250 张不存在类别不平衡问题划分比例 80:16:4— 每类严格按此比例分为 200:40:10