PaCo-RL：西安交大首创“一致性裁判”强化学习框架，让AI生成四张图也能保持角色与风格完美统

你是否曾有过这样的经历：想让AI画一组连环画，比如“一只狐狸在森林、舞台、海边、卧室弹吉他”，结果AI生成的四张图里，狐狸变成了四种不同的动物，吉他变了样，画风也从油画突变成了水彩？

这就是AI绘画领域长期存在的“一致性图像生成”难题。现有的主流模型擅长单图创作，却难以在多张图中保持身份（长得一样）、风格（画风统一）和逻辑（叙事连贯）的高度一致。其根源在于缺乏配套的标注数据、人类审美难以量化定义，以及传统训练方法算力成本过高。

近日，来自西安交通大学与新加坡 A*STAR的研究团队提出了突破性解决方案——PaCo-RL。该框架引入强化学习理念，通过独创的“一致性裁判”机制，让AI在“试错”中自动学会如何保持多图像的一致性，无需海量标注数据，即可实现媲美商用模型的生成效果。

PaCo-RL 主要赋能两大应用场景，彻底解决“多图崩坏”问题：

在修改图片局部时，严格保持其他元素不变。

根据一段描述，直接生成一组风格统一的配套图片。

三大一致性支柱：

相比现有方案，PaCo-RL 引入了三项颠覆性设计：

传统AI只判断“图好不好看”或“符不符合提示词”，而 PaCo-RL 专门训练了一个多模态大模型裁判。

这是极具工程智慧的优化。

痛点：用高清大图进行强化学习训练，显存消耗巨大，成本高昂。
创新：PaCo-RL 发现，裁判只需看半尺寸小图即可判断一致性。因此，训练时使用 $512 \times 512$ 分辨率，推理生成时直接输出 $1024 \times 1024$ 高清大图。
收益：训练时间缩短近 50%，且最终生成质量毫无损失。就像学画画先用草稿练构图，熟练后再画正稿。

训练时需同时兼顾“一致性”、“美观度”和“提示词遵循度”。若某一项（如一致性）信号过强，AI容易“偏科”作弊（例如生成四张完全一样的图来刷高分）。

PaCo-RL 的训练过程模拟了“教练带徒弟”的模式：

研究团队自动构建大规模数据集，将同一描述生成的图片（亲兄弟）与不同描述生成的图片（陌生人）混合配对，邀请人类标注“是否配套”。以此微调 Qwen2.5-VL 模型，使其具备**“看图找茬”和“写出理由”**的能力，成为公正的 PaCo-Reward 裁判。

论文在多个权威基准测试中取得了显著成果：

测试维度	指标/基准	PaCo-RL 表现	对比优势
裁判准确性	ConsistencyRank	44.9%	比 Qwen2.5-VL (34.4%) 和 CLIP (39.4%) 高出 10%+
编辑能力	EditReward-Bench	0.751	超越所有开源模型，接近 GPT-5 (0.755)
生成一致性	T2IS-Bench	+11.7%	视觉一致性得分比最强开源 Baseline 高出近 12%，逼近 GPT-4
编辑综合分	GEdit-Bench	7.799 / 8.053	一致性与提示词遵循度双重提升，实现“既要又要”
训练效率	时间成本	6小时	相比传统方法 (12小时) 效率翻倍，且效果更好