香港中文大学(深圳) 的研究人员推出了一项重要的多模态研究成果 —— ShareGPT-4o-Image数据集 及其衍生的开源多模态大语言模型 Janus-4o。该研究旨在将 GPT-4o 在图像生成方面的卓越能力,迁移至开源社区中,从而推动高质量图像生成模型的发展。
- GitHub:https://github.com/FreedomIntelligence/ShareGPT-4o-Image
- 模型:https://huggingface.co/FreedomIntelligence/Janus-4o-7B
- 数据集:https://huggingface.co/datasets/FreedomIntelligence/ShareGPT-4o-Image
通过构建一个大规模、高质量的合成数据集,并在此基础上训练出具备文本到图像和图文混合到图像生成能力的模型,Janus-4o 为当前开源多模态领域带来了新的突破。

核心内容概览
ShareGPT-4o-Image 数据集
这是一个包含 92,000 个样本 的高质量图像生成数据集,分为两个部分:
类型 | 数量 | 描述 |
---|---|---|
文本到图像(Text-to-Image) | 45,000 条 | 基于结构化提示词生成图像 |
文本+图像到图像(Text+Image-to-Image) | 46,000 条 | 基于输入图像和文本指令进行图像编辑 |
示例提示词:“一只可爱的吉他正在一个花拱下为麦克风演奏,温暖的灯光从低角度照射”
对应图像:一幅展现上述场景的高质量插画风格图像。
Janus-4o 模型功能亮点
✅ 文本到图像生成
Janus-4o 支持根据自然语言描述生成高质量图像。例如:
- 输入:“一只可爱的吉他正在一个花拱下为麦克风演奏”
- 输出:一张表现该场景的高清图像,背景细节丰富,光影效果自然
✅ 文本+图像到图像生成
Janus-4o 还支持在已有图像基础上结合文本指令进行图像修改。例如:
- 输入图像:一张普通吉他演奏的照片
- 输入文本:“增强背景颜色,添加柔和的图案和风格一致的配饰”
- 输出:经过修饰的更具艺术感的新图像
技术特点解析
📦 高质量数据集构建
ShareGPT-4o-Image 数据集采用两种互补流程构建:
- 提示优先流程(Prompt-First)
- 定义六维属性空间(对象、背景、风格等)
- 随机采样组合形成结构化提示
- 使用 GPT-4o 生成对应图像
- 图像优先流程(Image-First)
- 从 ALLaVA 数据集中选取真实世界的高质量图像
- 利用 GPT-4o 生成描述性提示词,用于图像理解任务训练
这一策略确保了数据集的多样性与可控性,为后续模型训练打下坚实基础。
🧠 多模态建模能力
Janus-4o 是首个在开源社区中实现以下能力的 MLLM(多模态大语言模型):
- 文本到图像生成
- 文本+图像联合输入 → 图像生成
它不仅能够理解文本语义,还能处理图像输入并进行像素级编辑,具有极强的上下文感知与生成能力。
⚙️ 高效训练方案
Janus-4o 基于 Janus-Pro 架构,在 ShareGPT-4o-Image 数据集上进行微调,仅使用 91K 合成样本 和 6小时训练时间,即可在 8×A800 GPU 机器 上实现显著性能提升。
训练机制说明:
- 文本到图像生成:通过自回归方式预测图像标记(image tokens)
- 图文联合生成:同时处理输入图像的语义嵌入与视觉标记表示,实现对图像内容的精准控制
性能评估结果
🔍 GenEval & DPG-Bench(文本到图像)
模型 | GenEval 分数 ↑ | DPG-Bench 分数 ↑ |
---|---|---|
Janus-Pro | 78.3 | 84.5 |
Janus-4o | 82.3 (+4.0) | 86.1 (+1.6) |
🖼️ ImgEdit-Bench(图文到图像)
模型 | ImgEdit-Bench 得分 ↑ |
---|---|
BLIP-Diffusion | 2.89 |
OFA | 3.01 |
Janus-4o | 3.26 |
Janus-4o 仅使用 91K 样本即超越现有基线模型,展现了极高的训练效率与泛化能力。
人类评估表现
在多个维度的人类评估中,Janus-4o 表现出更强的吸引力与实用性:
维度 | Janus-4o 表现 |
---|---|
视觉质量 | 显著优于基线模型 |
指令遵循 | 更准确地还原用户意图 |
风格一致性 | 更自然、更连贯 |
整体偏好 | 获得更高评分 |
这表明 Janus-4o 不仅在自动评测中领先,在实际用户体验层面也具有明显优势。
工作原理简述
数据集构建方法
- 提示优先流程(Prompt-First)
- 构建结构化提示模板(六维属性:对象、背景、动作、风格、视角、光照)
- 使用 GPT-4o 生成图像
- 确保图像内容可控且多样化
- 图像优先流程(Image-First)
- 从 ALLaVA 数据集中挑选高质量图像
- 使用 GPT-4o 生成对应的描述性提示词
- 构建图文联合推理训练样本
模型训练策略
- 模型架构:基于 Janus-Pro 微调
- 训练目标:
- 文本到图像:自回归生成图像 token
- 图文到图像:融合图像编码器输出与文本提示,进行图像编辑