1. 项目背景与核心价值视觉问答VQA领域近年来发展迅速但现有数据集在空间推理能力测试上存在明显短板。传统VQA数据集大多关注物体识别和简单属性问答难以评估模型对物体间复杂空间关系的理解能力。STVQA-7K的诞生正是为了解决这一痛点。我在实际参与多个VQA项目时深有体会当遇到红色杯子左侧的笔记本被什么颜色的物体遮挡这类需要多层空间推理的问题时即使最先进的模型也频频出错。这促使我们思考如何构建更专业的评估基准。2. 数据集设计原理2.1 场景图的结构化表示数据集的核心创新在于将每张图片转换为场景图Scene Graph表示。这种结构化数据包含三类关键元素物体节点Objects标注所有显著物体及其属性颜色、形状等关系边Relations精确记录物体间的空间关系left_of, on_top等场景属性Scene Attributes全局信息如光照、室内/室外等我们采用分层标注策略基础层物体检测框和类别标签中间层物体属性和二元关系高级层复合空间关系如透过窗户看到的2.2 问题生成机制每个图像对应的问题集都经过严格设计30% 基础空间问题A在B的哪侧40% 复合推理问题遮挡A的物体是什么颜色20% 假设性问题如果移动A会暴露什么10% 对抗性问题包含视觉干扰项问题难度通过三个维度控制推理步长单步→多步关系复杂度二元→多元视觉干扰强度清晰→模糊/遮挡3. 数据采集与标注流程3.1 图像来源与处理原始图像来自三个主要渠道室内场景数据集如NYUv2自动驾驶街景数据经隐私处理人工合成的3D场景使用Blender渲染所有图像都经过分辨率标准化统一为1024×768光照一致性调整隐私信息擦除人脸、车牌等3.2 标注质量控制采用三级校验机制初级标注由经过培训的标注员完成基础标注专家复核计算机视觉专家检查逻辑一致性交叉验证不同标注组对同一图像独立工作特别开发了标注辅助工具自动关系冲突检测如不能同时存在left_of和right_of空间关系可视化验证问题合理性评分系统4. 数据集统计特性STVQA-7K包含7,200张高分辨率图像平均每图18.7个标注物体53种空间关系类型每个图像配套15-20个问题总计128,400个问答对数据分布特点| 类别 | 比例 | 示例 | |-----------------|--------|---------------------------| | 方位关系 | 35% | A在B的哪个方向 | | 遮挡推理 | 25% | 完全可见的物体有哪些 | | 相对距离 | 20% | 哪个物体离镜头最近 | | 场景理解 | 15% | 这个房间可能是什么用途| | 对抗性问题 | 5% | 图中是否有违反物理定律的物体 |5. 基准测试与评估5.1 评估指标设计除常规准确率外引入空间一致性得分SCS关系推理深度RRD抗干扰能力ANC逻辑连贯性LCS5.2 主流模型表现对比测试结果揭示有趣现象纯视觉模型在基础问题上表现尚可78%准确率多模态模型在复合问题上优势明显提升22%所有模型在对抗性问题上的表现下降超过35%典型错误模式分析镜像混淆分不清left/right的相对性遮挡误判将阴影识别为物理遮挡深度错觉误判物体前后关系6. 应用场景与延伸价值6.1 模型训练建议基于该数据集开发模型时建议采用显式空间注意力机制引入关系推理模块设计专门的对抗训练策略6.2 潜在应用方向超越基准测试的实际价值机器人环境理解AR/VR中的物体交互自动驾驶场景解析视觉障碍辅助系统7. 使用注意事项数据划分建议训练集5,000图像验证集1,000图像测试集1,200图像保留200作为隐藏测试集常见挑战长尾分布问题某些关系类型样本较少标注歧义处理如near的量化标准计算资源需求高分辨率图像处理扩展建议可结合其他VQA数据集进行迁移学习建议用场景图生成任务进行预训练对关键关系类型可进行数据增强在实际研究中使用本数据集时建议先从小规模样本开始验证模型的基础空间理解能力再逐步挑战复杂问题。我们团队在使用过程中发现先训练模型预测物体间的基本空间关系如左右、上下再进阶到遮挡推理能获得更好的效果提升曲线。