Janus-4o：基于数据集 ShareGPT-4o-Image 的新型多模态图像生成模型

374 0

香港中文大学（深圳） 的研究人员推出了一项重要的多模态研究成果 —— ShareGPT-4o-Image 数据集 及其衍生的开源多模态大语言模型 Janus-4o。该研究旨在将 GPT-4o 在图像生成方面的卓越能力，迁移至开源社区中，从而推动高质量图像生成模型的发展。

通过构建一个大规模、高质量的合成数据集，并在此基础上训练出具备文本到图像和图文混合到图像生成能力的模型，Janus-4o 为当前开源多模态领域带来了新的突破。

这是一个包含 92,000 个样本 的高质量图像生成数据集，分为两个部分：

类型	数量	描述
文本到图像（Text-to-Image）	45,000 条	基于结构化提示词生成图像
文本+图像到图像（Text+Image-to-Image）	46,000 条	基于输入图像和文本指令进行图像编辑

示例提示词：“一只可爱的吉他正在一个花拱下为麦克风演奏，温暖的灯光从低角度照射”
对应图像：一幅展现上述场景的高质量插画风格图像。

Janus-4o 支持根据自然语言描述生成高质量图像。例如：

Janus-4o 还支持在已有图像基础上结合文本指令进行图像修改。例如：

ShareGPT-4o-Image 数据集采用两种互补流程构建：

提示优先流程（Prompt-First）
- 定义六维属性空间（对象、背景、风格等）
- 随机采样组合形成结构化提示
- 使用 GPT-4o 生成对应图像
图像优先流程（Image-First）
- 从 ALLaVA 数据集中选取真实世界的高质量图像
- 利用 GPT-4o 生成描述性提示词，用于图像理解任务训练

这一策略确保了数据集的多样性与可控性，为后续模型训练打下坚实基础。

Janus-4o 是首个在开源社区中实现以下能力的 MLLM（多模态大语言模型）：

它不仅能够理解文本语义，还能处理图像输入并进行像素级编辑，具有极强的上下文感知与生成能力。

Janus-4o 基于 Janus-Pro 架构，在 ShareGPT-4o-Image 数据集上进行微调，仅使用 91K 合成样本 和 6小时训练时间，即可在 8×A800 GPU 机器 上实现显著性能提升。

模型	GenEval 分数 ↑	DPG-Bench 分数 ↑
Janus-Pro	78.3	84.5
Janus-4o	82.3 (+4.0)	86.1 (+1.6)

Janus-4o 仅使用 91K 样本即超越现有基线模型，展现了极高的训练效率与泛化能力。

在多个维度的人类评估中，Janus-4o 表现出更强的吸引力与实用性：

这表明 Janus-4o 不仅在自动评测中领先，在实际用户体验层面也具有明显优势。

提示优先流程（Prompt-First）
- 构建结构化提示模板（六维属性：对象、背景、动作、风格、视角、光照）
- 使用 GPT-4o 生成图像
- 确保图像内容可控且多样化
图像优先流程（Image-First）
- 从 ALLaVA 数据集中挑选高质量图像
- 使用 GPT-4o 生成对应的描述性提示词
- 构建图文联合推理训练样本