从产线漏检说起上周产线反馈了个头疼的问题:AOI检测系统在PCB板小焊点检测上频繁漏检,尤其是0402封装的电阻焊盘。查看误判样本时发现,那些芝麻大小的焊点在特征图上几乎消失不见。RT-DETR的Encoder-Decoder结构虽然全局建模能力强,但对这种3x3像素级别的目标确实有些“力不从心”。今天咱们就聊聊怎么给RT-DETR动个小手术,增强小目标检测能力。问题根因分析RT-DETR默认的Backbone下采样率是32倍,这意味着输入图像上4个像素在特征图上就压缩成1个。对于小目标来说,经过几层卷积和池化后,特征响应已经微弱到被背景噪声淹没。更麻烦的是,Transformer的注意力机制倾向于关注显著区域,小目标的微弱特征在自注意力计算中权重被大目标“抢走”了。我试过直接调整网络结构——降低下采样率到16倍,效果确实有提升,但推理速度直接慢了40%,这在实际部署中是不可接受的。必须在保持实时性的前提下解决问题。特征金字塔的局限性很多人第一反应是加FPN(特征金字塔),这思路没错,但直接套用有问题。RT-DETR的Hybrid Encoder本身就有多尺度特征融合,但它的融合方式更偏向语义信息对齐,对小目标的空间细节保留不够。我试过在Backbone的stage2和stage3输出上直接加P2、P3层,结果mAP只提升了0.3%,代价是显存占用涨了15%。问题的关键在于:简单的特征叠加并不能增强小目标的特征响应,只是把不同尺度的特征拼在一起而已。