用Python脚本快速整理PA100K数据集：按26个属性自动分类验证集图片

张

张建站

2026/5/4 13:09:47

10分钟阅读

用Python脚本快速整理PA100K数据集按26个属性自动分类验证集图片当你第一次打开PA100K数据集的压缩包时面对近10万张行人图像和密密麻麻的标签文件是否感到无从下手作为计算机视觉领域常用的行人属性识别基准数据集PA100K的26种属性标签既是其价值所在也是新手面临的第一个挑战。本文将带你用Python脚本实现验证集图像的自动化分类整理让杂乱的数据秒变结构化素材库。1. 理解PA100K数据集的结构与价值PA100K数据集包含10万张真实场景下的行人图像每张图像都标注了26种属性标签。这些标签覆盖了从衣着特征如短袖、长裤到携带物品背包、手提包等丰富维度是训练属性识别模型的黄金标准。原始数据集通常按训练集80%、验证集10%、测试集10%划分但所有图像都混放在同一文件夹中需要通过标签文件进行关联。关键目录结构示例PA100K/ ├── images/ # 所有图像混合存放 │ ├── 000001.jpg │ └── ...(100000 files) ├── train_list.txt # 训练集文件名与标签 ├── val_list.txt # 验证集文件名与标签 └── test_list.txt # 测试集文件名与标签标签文件每行的格式为图像路径\t标签1,标签2,...,标签26其中1表示具有该属性。例如images/000001.jpg 1,0,1,0,0,0,0,0,0,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,02. 自动化分类脚本的核心设计下面这个不足50行的Python脚本能自动将验证集图像按属性分类到不同文件夹。我们先看完整代码再逐模块解析import os import tqdm import shutil from pathlib import Path def ensure_dir(path): 确保目录存在不存在则创建 Path(path).mkdir(parentsTrue, exist_okTrue) def get_active_attributes(label_str): 解析标签字符串返回激活属性的索引列表 return [i for i, val in enumerate(label_str.split(,)) if val 1] def organize_by_attributes(): # 定义26个属性名称与官方顺序一致 attributes [ Hat, Glasses, ShortSleeve, LongSleeve, UpperStride, UpperLogo, UpperPlaid, UpperSplice, LowerStripe, LowerPattern, LongCoat, Trousers, Shorts, Skirt, boots, HandBag, ShoulderBag, Backpack, HoldObjectsInFront, AgeOver60, Age18-60, AgeLess18, Female, Front, Side, Back ] # 路径配置 label_file ./val_list.txt img_source ./images/ output_root ./attribute_sorted/ # 创建属性分类目录 ensure_dir(output_root) for idx, attr in enumerate(attributes): ensure_dir(f{output_root}{idx:02d}_{attr}) # 处理每张图像 with open(label_file) as f: for line in tqdm.tqdm(f, descProcessing images): img_relpath, labels line.strip().split(\t) active_indices get_active_attributes(labels) # 复制到每个激活属性对应的目录 img_name os.path.basename(img_relpath) for idx in active_indices: dest_dir f{output_root}{idx:02d}_{attributes[idx]} shutil.copy2( os.path.join(img_source, img_relpath), os.path.join(dest_dir, img_name) ) if __name__ __main__: organize_by_attributes()2.1 关键技术点解析路径处理现代化使用pathlib.Path替代传统的os.path提供更面向对象的路径操作exist_okTrue参数避免重复创建目录时的错误检查进度可视化tqdm进度条直观显示处理进度预估剩余时间desc参数自定义进度条描述文字健壮性增强采用copy2()而非copyfile()保留原始文件的元数据统一的路径拼接方式避免跨平台兼容问题命名规范化属性目录采用02d_前缀格式确保排序正确性使用os.path.basename安全提取文件名3. 扩展应用与实战技巧3.1 适配训练集处理只需修改脚本中的label_file和img_source变量即可处理训练集label_file ./train_list.txt # 改为训练集标签文件 img_source ./train_images/ # 训练集专属图像目录提示大规模数据集处理建议增加以下优化使用多进程加速multiprocessing.Pool添加MD5校验防止文件损坏实现断点续处理功能3.2 处理常见错误场景错误类型解决方案预防措施文件不存在捕获FileNotFoundError预处理时校验文件完整性权限不足使用try-catch块处理提前检查目录可写性标签格式错误添加正则校验使用assert len(labels)26典型异常处理代码try: shutil.copy2(src, dst) except PermissionError: print(f权限拒绝{dst}) os.chmod(dst, 0o755) # 尝试修改权限 shutil.copy2(src, dst) # 重试3.3 迁移到其他多标签数据集该脚本框架可轻松适配以下数据集RAPv2数据集修改属性列表和标签解析逻辑Market-1501属性调整目录结构处理方式DeepFashion适应分层标签体系通用化改造示例def universal_organizer(label_file, attr_names, img_root): # 保持核心逻辑不变 # 只需自定义标签解析器 ...4. 可视化分析与质量检查分类完成后建议运行以下检查脚本生成统计报告import pandas as pd from collections import Counter def analyze_distribution(output_root): counts {} for attr_dir in os.listdir(output_root): attr attr_dir.split(_, 1)[1] img_count len(os.listdir(os.path.join(output_root, attr_dir))) counts[attr] img_count df pd.DataFrame.from_dict(counts, orientindex, columns[Count]) df[Percentage] df[Count] / df[Count].sum() * 100 return df.sort_values(Count, ascendingFalse)典型输出结果示例属性图片数量占比Age18-60876587.65%Trousers654265.42%Front621162.11%.........这种分析能帮助发现数据偏差例如年龄集中在18-60岁正面朝向图像占主导某些稀有属性如AgeOver60样本不足对于实际项目建议对样本极少的属性采用过采样或数据增强策略。以下是一个简单的过采样示例from imblearn.over_sampling import RandomOverSampler ros RandomOverSampler() X_resampled, y_resampled ros.fit_resample(X_train, y_train[:, attr_idx])

手把手教你改造YOLOv5s模型，避开Upsample层陷阱，成功部署到昇腾SD3403板子

昇腾SD3403部署实战：YOLOv5模型Upsample层改造全解析边缘AI芯片的部署过程中，模型兼容性往往是开发者面临的第一个拦路虎。最近在昇腾SD3403平台上部署YOLOv5时，发现原生的Upsample层在转换为Caffe格式时会导致整个流程中断。这个问题并非个…...

2026/5/4 13:08:26 阅读更多 →

AUC-MW损失函数优化信息检索排序效果

1. 项目背景与核心价值在信息检索领域，神经检索模型近年来逐渐成为主流方案。但传统基于交叉熵（Cross-Entropy）的损失函数在优化排序任务时存在明显局限——它更关注单个文档的相关性预测准确度，而非整体排序列表的质量。这正是A…...

2026/5/4 13:08:05 阅读更多 →

投稿在即，NCBI维护中？手把手教你用Webin-CLI 9.0.1把测序数据传到ENA（附R脚本自动生成manifest）

紧急科研数据备份方案：Webin-CLI 9.0.1全流程上传ENA指南当论文投稿截止日期迫在眉睫，而NCBI服务却突然中断时，许多研究者会陷入数据公开的困境。欧洲核苷酸档案库(ENA)作为国际认可的替代平台，提供了稳定可靠的数据托管服务。本…...

2026/5/4 13:07:34 阅读更多 →

LoopViT：结合循环机制的视觉Transformer优化架构

1. 项目概述在计算机视觉领域，Transformer架构近年来展现出惊人的潜力。LoopViT是我最近开发的一种新型视觉推理架构，它通过引入循环机制改进了传统视觉Transformer的计算效率和信息流模式。这个架构特别适合处理视频分析、医学影像分割等需要时序建模的…...

2026/5/3 0:06:07 阅读更多 →

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版频繁提示…...

2026/5/4 13:37:30 阅读更多 →

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间【免费下载链接】zhihuishu 智慧树刷课插件，自动播放下一集、1.5倍速度、无声项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习流程而烦恼吗&am…...

2026/5/3 0:27:49 阅读更多 →