SPARC视觉语言模型中零频次多标签识别的分数提示与自适应融合此论文先构造“复合 prompt”去额外探测类别之间的共现关系再对模型分数做双重归一化最后把单类 prompt 分数和复合 prompt 分数按排序统计量自适应融合得到更稳的多标签预测分数。论文地址https://openaccess.thecvf.com/content/CVPR2025/papers/Miller_SPARC_Score_Prompting_and_Adaptive_Fusion_for_Zero-Shot_Multi-Label_Recognition_CVPR_2025_paper.pdf代码地址https://github.com/kjmillerCURIS/SPARC创新点1. 提出了一种真正“黑盒式”的零样本多标签识别框架,不依赖训练数据、不做 prompt tuning、不修改 VLM 架构也不需要访问模型内部特征或注意力图而只是把 CLIP 这类视觉-语言模型当作一个生成分数的工具来使用2.发现并系统分析了 VLM 分数中的双重偏置VLM 在多标签识别中的分数并不是“干净”的至少包含两类系统性偏差image-level bias同一张图对不同 prompt 的分数整体偏高或偏低和prompt-level bias不同 prompt 天然具有不同的打分基线3.提出了面向多标签识别的复合提示词融合机制。整体框架图1 SPARC整体流程图1.Compound Prompt Generation(复合提示词生成)不同于单类别提示词复合提示词会包含多个类别比如a photo of cat and sofa,因为如果图像本身具有多标签结构那么提示词也应该去利用这种“多标签共现结构”这样可以从 VLM 中挖出比单 提示词更丰富的信号其模块使用概率阈值法选择可能在现实视觉场景中合理出现的类对和三元组这些对和三元组用于生成形式为“A和B”和“A、B、C”的公式化复合提示我们将这些公式提示输入给LLM并要求其生成自然句子。2.Normalization(层级归一化)分为按图像归一化和按提示词归一化图像归一化目的是是去掉这张图整体偏高/偏低的影响不再看绝对分数高不高而看在这张图内部这个提示相对其他提示是否异常地高而按提示词归一化是让不同提示词的分数更可比如下图所示图像和提示层的偏差表现为水平和垂直条纹;归一化去除这些障碍从而实现更好的分离。3.Rank Fusion(层级融合)论文中提出在复合提示下最大分数常常不可靠第二大甚至第三大分数更有信息量因为最大值常常被某个“只命中了另一个物体”的复合提示拉高而第二高值、第三高值这些“弱化后的 max”反而更能反映该类真实存在时的一致性信号。文中对于此解释到对于 “A and B” 这样的 提示词当你想检测 A 时如果 B 真出现在图里分数也会明显升高也就是说模型并不是在严格执行A 和 B 都在时才高分而更像是在执行一种A 或 B 只要有一个在时分数就可能不低。因此SPARC 提取各个复合得分的 order statistics如第 1 大、第 2 大、第 3 大等并与归一化后的单类别得分一起构成特征向量随后通过 PCA 求取最大方差方向作为融合权重将这些分数自适应地组合为 fused score最后再与单类别得分相加得到最终类别分数该方法本质上是在无监督条件下利用分数分布结构自动寻找最能区分正负样本的方向。可创新点可以利用此论文中提出的多标签识别因为在之前原始数据集训练时出现个别类别检测的精度不高其中例如bj_wkps表计外壳破损bj_bpps表计表盘破损bj_bpmh表计表盘模糊这几类视觉上都和“表计局部缺陷”有关差异很细所以模型容易串类所以此论文中的创新点可以引入模型之中结果如下效果提升的比较显著但为了更好的引入此创新点加上了一个分支用 CLIP 做图文相似度打分再与 BLIP 的预测结果融合SPARC-lite:文本描述的问题已经解决。