FLUX-Reason-6M & PRISM-Bench:600 万级 T2I 推理数据集 + 七轨道基准,开源模型研发新助力

图像模型3个月前发布 小马良
106 0

在文本到图像(Text-to-Image, T2I)生成领域,一个长期存在的困境是:开源模型越做越像,却始终难以真正“理解”复杂指令

问题不在架构,而在数据与评估 —— 缺乏大规模、注重语义推理的训练数据集,也缺少能够真实衡量“是否听懂了”的评测基准。

为此,来自香港中文大学、香港大学、北京航空航天大学、阿里巴巴和商汤科技的研究团队联合推出两项重磅资源:

  • FLUX-Reason-6M:首个专为“推理能力”设计的百万级双语T2I数据集;
  • PRISM-Bench:一套全面、判别性强、与人类判断高度一致的新型评估基准。

它们共同构成了一套完整的“训练+评测”基础设施,旨在推动开源T2I模型向更高阶的认知能力迈进。

FLUX-Reason-6M & PRISM-Bench:600 万级 T2I 推理数据集 + 七轨道基准,开源模型研发新助力

核心目标:让AI不只“画得像”,更要“想得清”

当前主流T2I模型多依赖海量图文对进行训练,但这些数据普遍存在两个问题:

  1. 描述简单:如“一只狗在草地上奔跑”,缺乏空间关系、风格控制或逻辑嵌套;
  2. 无推理过程:模型无法学习“如何一步步构建画面”。

这导致模型面对复杂提示时容易出错,例如:

“一位穿着印有‘Dream’字样的黑色T恤的男子,站在标有‘Reality’的红色门旁,天空中有用发光字体写着‘Awake’的云朵。”

这类任务需要理解实体、文本渲染、位置布局、语义隐喻等多重推理。而 FLUX-Reason-6M 正是为了教会模型“拆解问题、逐步生成”而生。

FLUX-Reason-6M:600万张图,教AI“思考式作画”

基本信息

项目数据
图像数量600万张
描述文本2000万条(英/中双语)
构建耗时4个月
计算资源128 × A100 GPU

这是目前最大规模、最系统化的推理导向T2I数据集,完全开源,供全球研究者使用。

多维度内容框架

数据集围绕六个关键维度组织,覆盖从基础元素到创造性表达的完整谱系:

维度说明
Imagination(想象)超现实、抽象概念可视化
Entity(实体)对象识别、数量控制、属性绑定
Text Rendering(文本渲染)图像内文字内容准确呈现
Style(风格)艺术流派、媒介模拟(油画、像素风等)
Affection(情感)氛围、情绪传递(欢快、忧郁等)
Composition(构图)空间布局、视角、层次结构

每个维度都有精细标注和难度分级,支持定向训练与分析。

核心创新:生成思维链(GCoT)

这是 FLUX-Reason-6M 的灵魂所在 —— Generation Chain-of-Thought(GCoT)

每条提示都附带详细的生成步骤分解,例如:

Prompt: “一只坐在标有‘奇妙’的粉色纸箱里的可爱约克夏犬,周围环绕着柔软的羽毛和鲜艳的粉色花朵。”

GCoT:
1. 主体:一只可爱的约克夏犬,坐姿;
2. 背景容器:一个打开的粉色纸箱,侧面清晰标有中文“奇妙”;
3. 周围元素:轻盈的白色羽毛散落四周,几朵亮粉色玫瑰点缀其间;
4. 风格:柔和光影,卡通写实混合风格;
5. 构图:中心对称,狗位于视觉焦点。

通过这种结构化监督信号,模型不仅能学会“画什么”,还能掌握“怎么一步步构思”。

数据构建流程

整个数据管道高度自动化,包含以下环节:

  1. 使用 FLUX.1-dev 模型生成高质量图像;
  2. 利用 VLMs(视觉语言模型)反推描述并生成 GCoT;
  3. 多轮过滤去噪、质量打分与人工校验;
  4. 中英文互译与一致性对齐。

最终产出的数据兼具多样性、准确性与教学价值。

PRISM-Bench:比人类更懂“好不好”

有了好数据,还需要一个可靠的“考官”。于是团队推出了 PRISM-Bench —— 当前最全面的T2I评估基准。

设计理念

传统自动指标(如CLIP Score)往往与人类感知脱节。PRISM-Bench 的目标是:

用先进的VLM作为“代理评委”,实现接近人类判断的细粒度评分

它包含 7个独立赛道,每个赛道含100个精心设计的提示,总计700个测试案例。

赛道测试重点
Imagination抽象概念具象化能力
Entity实体完整性与属性匹配
Text Rendering图像内文本准确性
Style风格一致性与还原度
Affection情绪氛围传达
Composition布局合理性与美学
Long-Text长指令理解与信息保留

其中,“Long-Text”赛道特别具有挑战性,要求模型处理超过50词的复杂指令。

评估方式

采用两阶段评估协议:

  1. 对齐性评估:判断图像是否忠实反映提示内容;
  2. 美学质量评估:评价图像本身的视觉美感。

评估由 GPT-4.1 和 Qwen2.5-VL-72B 等顶级VLM执行,结合定制提示模板,确保结果稳定且可复现。

同时发布中文版本 PRISM-Bench-ZH,专门测试模型对中文提示的理解能力。

实测结果:揭示现状与差距

研究人员在 PRISM-Bench 上对 19个领先T2I模型 进行了系统评测,包括:

  • 闭源模型:Gemini 2.5-Flash-Image、GPT-Image-1
  • 开源模型:Qwen-Image、Stable Diffusion 系列、FLUX.1-Krea-dev 等

主要发现:

  1. 闭源模型整体领先,尤其在 Imagination、Style 和 Long-Text 赛道表现突出;
  2. 开源模型在部分任务上具备竞争力,尤其是在 Entity 和 Composition 方面;
  3. 所有模型在 Text Rendering 和 Long-Text 上得分普遍偏低,说明:
    • 文本生成仍不稳定(常拼错、变形);
    • 长指令信息丢失严重,难以完整响应。

📌 这表明:推理能力仍是T2I系统的共性短板,亟需针对性改进。

为什么重要?不只是两个工具

FLUX-Reason-6M 与 PRISM-Bench 的意义远超单一数据集或基准:

意义说明
✅ 填补训练空白提供首个面向“推理工程化”的大规模数据,使模型可被系统性地教导“如何思考”。
✅ 统一评测标准结束“各测各的”混乱局面,提供可横向比较的权威 benchmark。
✅ 推动公平竞争所有资源全部开源,降低研究门槛,让更多团队参与前沿探索。
✅ 指明改进方向实测结果揭示具体薄弱环节,为后续研究提供清晰路线图。

这是一次典型的“基础设施级”贡献 —— 不直接提出新模型,却为整个领域铺好了前进的道路。

© 版权声明

相关文章

暂无评论

none
暂无评论...