复旦大学出手:AI实现文本指令与图像生成精准对齐能力提升
这项由复旦大学上海市智能信息处理重点实验室与上海智能视觉计算协同创新中心联合开展的研究于2026年5月以预印本形式发布论文编号为arXiv:2605.28615有兴趣深入探究技术细节的读者可以通过该编号查阅完整原文。你有没有遇到过这样的场景你告诉AI绘图工具画一只红色的猫和一只蓝色的狗结果出来的图里蓝色的是猫、红色的是狗或者干脆两只动物的颜色全混在一起又或者你想要三个苹果放在桌子左边AI给你画出来的是两个苹果、位置也不对这种让人哭笑不得的状况其实折磨着几乎所有使用过AI绘图工具的人。复旦大学的研究团队花了相当多的心思来解决这个问题。他们提出了一套名为BiDPO的新方法核心思路是教会AI模型更精准地理解文字描述与画面元素之间的对应关系尤其是在复杂场景下——多个物体、各有不同属性、还有彼此之间的空间位置关系——能够准确地对号入座。一、为什么AI画图这么难听懂复杂指令先从根子上聊聊这个问题。现代AI绘图工具的原理简单来说有点像一个极其复杂的联想机器。你输入一段文字它在脑海中把文字和大量图片的关联全部搜索一遍然后拼凑出一张符合描述的新图。这个过程对于简单描述比如一只猫效果很好但当描述变得复杂时比如一只灰色的猫和一只绿色的老鼠AI就容易把灰色和绿色搞错配对因为它并不真正理解哪个颜色词对应哪个动物只是在做模糊的概率匹配。学术界把这个难题称为组合式文本到图像生成说的就是当提示词里涉及多个物体、多种属性以及物体间关系时AI能否准确地把每个描述和对应的视觉元素正确配对。现有的一些解决方案虽然有效但大多需要用户额外提供布局信息比如告诉AI每个物体应该在图里的哪个位置或者依赖超级大的语言模型来辅助理解这些方法不但麻烦还很费计算资源。复旦大学的团队选择了一条不同的路他们想让AI模型本身就能在只靠文字提示的情况下真正搞懂复杂描述里的对应关系不需要任何额外的辅助输入。二、一个聪明的纠错训练法让AI从对比中学习研究团队采用的核心技术叫做直接偏好优化英文缩写DPO原本是用来训练语言模型的技术让它从人类的喜好对比中学习——告诉AI哪个回答更好哪个更差让它慢慢往好的方向靠拢。把这个思路搬到图像生成领域可以用一个生动的比方来理解。假设你在教一个刚入职的美工助理。你给他看两张图一张画的是灰色猫和绿色老鼠正确匹配另一张画的是颜色配反了的错误版本。然后你告诉他第一张是对的第二张是错的记住这个区别。通过大量这样的对比练习助理逐渐就能掌握正确的对应规律。不过复旦的研究团队发现之前把DPO用在图像生成上的方法只考虑了图图对比——用一张好图和一张差图做对比让模型学会倾向于生成好图。这个方法忽略了文字这一端的对比同一张图配正确描述和错误描述之间的差别同样蕴含着巨大的学习价值。于是他们提出了双模态DPO也就是BiDPO里Bi双重的由来。这套方法同时在图像层面和文字层面做对比训练。训练时不仅要让模型在图图对比中学习好图vs坏图还要在文字对比中学习好描述vs坏描述配上同一张图。更妙的是这两套文字层面的对比训练实际上隐含地包含了图图对比的信息——两种文字训练合在一起等价于同时告诉模型对于正确描述应该倾向于生成正确图对于错误描述应该远离那种错误图。整套逻辑形成了一个完整的闭环。三、放大镜效应让AI把注意力聚焦在关键区域仅仅做双模态对比训练还不够。复旦团队发现在训练复杂场景时模型的注意力容易被分散——它在学习猫的颜色是否正确时可能也在被背景、其他不相关物体分心。于是他们引入了一个区域级引导机制。这个机制的原理类似于用一个放大镜圈出图片里的关键区域然后告诉模型在计算这次训练的得失分时圈出来的这个区域权重加倍其他背景区域权重减半。具体实现上研究团队会事先记录下每张训练图里各个物体所在的位置框边界框训练时在损失计算上给这些区域更大的权重背景区域则权重降低到一半。这样一来模型就被强迫去关注那些真正涉及属性对比的关键区域——比如猫身上的灰色区域和老鼠身上的绿色区域——而不是漫无目的地学习整张图的统计规律。研究团队特别提到对于需要整体理解的任务比如数量统计、空间关系他们没有使用这个区域引导机制因为这类任务本来就需要全局视野。四、从零造出一个高质量对错样本库好的训练需要好的数据。研究团队发现市面上根本没有现成的、高质量的、带区域标注的组合式图像偏好数据集于是他们自己动手建了一个取名BiComp。整个数据集的构建过程就像一个精密的流水线工厂。第一步从多个公开来源收集了约5万条和组合描述相关的图像文字对这些描述涉及颜色、形状、材质、空间关系、动作关系以及数量等六个维度。之后用Flux图像生成模型把这些描述逐一生成对应图片每条描述生成2到4张图。第二步生成的图片不一定完全符合原始描述所以需要重新生成准确的描述。这个步骤颇为复杂首先用DeepSeek-V3语言模型分析原始描述属于哪个维度然后用DeepSeek-R1提取描述里提到了哪些具体物体接着用Grounding DINO目标检测模型找到图片里这些物体的位置再用SAM2分割模型精确圈出每个物体的形状最后用Qwen2.5-VL这个视觉语言模型对照圈出的区域逐一描述每个物体的属性比如颜色、形状、材质并按照统一的模板合成新的准确描述。第三步在准确描述的基础上生成差描述——故意把属性改错比如把灰色改成绿色或者把两个物体的颜色对调或者把两个物体的颜色统一成同一种。然后用Qwen图像编辑模型按照修改后的描述把原图也相应地修改生成对应的差图片。这样研究团队就同时拥有了好图好描述和差图差描述的完整配对。第四步质量把关。用Qwen2.5-VL对每张图片提问——比如图中区域1的物体是灰色的吗——根据回答的置信度过滤掉质量不合格的样本。最终这个数据集包含了57474张原始图片和94502张编辑图片覆盖颜色、形状、材质、空间关系、非空间关系动作类以及数量六个维度是一个相当可观的规模。研究团队还额外引入了12000条来自VisMin公开数据集的真实照片数据增加数据的多样性和真实感。空间关系这个维度处理起来尤为特殊。要通过图像编辑来改变两个物体的空间位置关系在技术上非常困难比如把猫在盘子左边改成猫在盘子右边这几乎要重新生成整张图。所以研究团队对空间关系维度采用了不同策略先用DeepSeek-V3把原始描述解析成一个包含位置布局的场景方案再修改其中的空间关系最后用CreatiLayout这个布局到图像的生成工具直接根据修改后的布局生成两张不同的图。五、实战成绩超越众多知名模型的惊人提升理论上说得再好最终还是要靠实测结果说话。研究团队把BiDPO用于微调Stable Diffusion XLSDXL这个广为人知的基础模型然后在四个学术界公认的评测基准上进行了测试。在T2I-CompBench这个专门考察组合生成能力的基准上SDXL经过BiDPO训练后颜色属性绑定得分从58.90跳升到79.35提升幅度超过20个百分点形状属性绑定从46.90涨到60.47提升约14个百分点材质属性绑定从53.13升至71.36提升约18个百分点。三项加起来平均约有17%的提升效果相当显著。与此同时空间关系和非空间关系动作方面也有小幅但稳定的提升。更值得一提的是这些成绩超过了许多需要额外布局输入的专用方法比如GLIGEN、LMD和InstanceDiffusion而BiDPO只靠纯文字提示就做到了这一点。在GenEval这个考察复杂指令跟随能力的基准上整体得分从0.53升至0.62在两个物体子项上从0.68升至0.86在数量计数子项上从0.42升至0.59。有意思的是在单物体和颜色这两个子项上BiDPO训练后的SDXL甚至超过了体量大得多的DALL-E 3和Flux.1-dev——这对一个经过轻量微调的小模型来说算得上一个相当亮眼的结果。在DPG-Bench这个考察语义对齐能力的综合基准上整体得分从73.38提升到78.84在实体、属性、关系等子项上都有3到5个百分点的稳定提升。在GenEval 2这个专门为测试现代模型而设计的更难基准上原子级别的得分提升了6.6%整体提示层面提升了1.8%。研究团队还把BiDPO扩展到了SD3-Medium这个基于更新架构的模型上进行测试结果同样令人满意——经过BiDPO训练的SD3-Medium在组合复杂度越高的场景中提升越明显在某些项目上甚至超过了Flux这个公认的强模型。这说明BiDPO并不是只对某一种特定模型有效而是具有相当的通用性。此外研究团队还用HPSv2这个评估图像美学质量的工具进行了测试结果发现BiDPO在提升组合准确性的同时图像的视觉质量也有所改善平均提升了2.65%。这说明这套训练方法并没有以牺牲画面美感为代价换取语义准确性两者实现了同步提升。六、拆解实验每个设计环节究竟贡献了多少研究团队还做了一系列对比消融实验逐一验证BiDPO各个设计环节的实际贡献结果非常清晰。单纯的监督微调SFT——就是直接把好图喂给模型训练不做任何偏好对比——几乎没有带来任何提升在T2I-CompBench上的得分甚至比基线还略低。这说明仅仅是增加训练数据在没有对比信号的情况下对解决属性绑定问题几乎没有帮助。只做图像层面的DPO对比ImageDPO有一定效果颜色维度提升到67.39但在数量计数子项上出现了明显退步从50.08降至39.34说明单靠图图对比训练信号不够全面。只做文字层面的DPO对比TextDPO则出现了灾难性的下滑T2I-CompBench整体得分骤降至13.48GenEval整体得分更是跌到4.71。原因在于单靠文字偏好训练完全缺乏视觉生成的引导信号模型的图像生成能力严重退化生成的图像质量极差。两者结合的BiDPO不带区域引导则带来了大幅提升T2I-CompBench整体得分达到53.10GenEval整体得分达到60.71充分说明双模态结合是关键。加上区域级引导之后T2I-CompBench进一步提升1.2个百分点到54.37GenEval提升1.4个百分点到62.14说明区域引导机制能在双模态基础上带来额外的细粒度对齐能力。归根结底BiDPO的设计哲学可以用一句话概括让模型同时从图的对比和字的对比中学习还要在学习过程中用放大镜聚焦关键区域缺一不可。说到底这项研究做的事情其实很直觉教AI模型通过大量对的和错的对比样本来真正搞懂文字描述和图像元素之间的配对关系而不是靠模糊的概率统计来碰运气。这种双边对比区域聚焦的训练思路相比之前的方法更加系统也更直指问题核心。对于普通用户来说这项研究意味着在不久的将来AI绘图工具在处理红苹果和蓝杯子、三只狗坐在桌子左边这类描述时会越来越少地出现张冠李戴的错误对复杂文字描述的理解和执行能力会更接近人类的直觉预期。当然研究团队也坦承在空间关系和数量统计这些维度上提升幅度相对小于颜色、形状等属性维度这些仍是值得继续深耕的方向。研究团队提到未来计划把BiDPO扩展到自回归式图像生成模型等更多架构上探索其更广泛的适用性。有兴趣进一步了解技术细节的读者可以通过论文编号arXiv:2605.28615查阅完整原文相关代码也已在GitHub上公开。QAQ1BiDPO和普通的Diffusion DPO有什么区别A普通的Diffusion DPO只做图像层面的偏好对比用好图和差图让模型学会倾向生成好图但完全忽略了文字描述端的对比信息。BiDPO在此基础上增加了文字层面的对比训练让模型同时学习同一张图正确描述vs错误描述之间的差别两套训练结合在一起还隐含了图像层面的对比信息形成更完整的学习信号。此外BiDPO还加入了区域级引导机制让损失计算重点关注图像中的关键物体区域而非漫无目的地学习整张图。Q2BiComp数据集是怎么保证质量的ABiComp数据集在构建流程末尾设有一个VQA视觉问答过滤环节。研究团队用Qwen2.5-VL这个视觉语言模型根据每张图的标注信息自动生成针对性问题比如区域1里的物体是灰色的吗让模型给出0到1的置信度评分不符合要求的样本直接剔除以此确保留下来的图文对在属性描述上是准确一致的。Q3BiDPO训练后的模型视觉质量会下降吗A不会反而有所提升。研究团队用HPSv2美学评估工具在DrawBench上进行了测试经过BiDPO训练的SDXL在概念艺术、照片、动漫和绘画四个类别上平均美学得分提升了约2.65%。这说明BiDPO在改善组合语义准确性的同时并没有以牺牲画面美感为代价两者实现了同步改善。