字节跳动发布了一款名为 BAGEL 的开源多模态基础模型,该模型拥有 70 亿活跃参数(总规模为 140 亿),在大规模交错多模态数据上进行训练。BAGEL 不仅在标准多模态理解排行榜中超越了当前主流开源模型(如 Qwen2.5-VL 和 InternVL-2.5),还在文本到图像生成质量方面,达到了与顶级闭源生成器(如 SD3)相媲美的水平。
- 项目主页:https://bagel-ai.org
- GitHub:https://github.com/ByteDance-Seed/Bagel
- 模型:https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
- Demo:https://demo.bagel-ai.org
- ComfyUI插件:https://github.com/neverbiasu/ComfyUI-BAGEL
更重要的是,BAGEL 并不仅仅是一个图像生成工具,它具备多模态理解和推理能力,能完成从图像编辑、风格转换到未来帧预测、世界导航等复杂任务,展现出“世界建模”的潜力。这些能力远超以往的图像编辑模型范畴。

核心亮点一览
能力维度 | 表现亮点 |
---|---|
多模态理解 | 在 MME、MMBench、MM-Vet 等标准基准测试中表现优异 |
图像生成 | 在 GenEval、WISE 等文本到图像生成任务中生成质量高且富有逻辑性 |
图像编辑 | 在 GEdit-Bench 和 IntelligentBench 上表现出更强的智能编辑能力 |
世界建模 | 支持动态场景预测、多视角合成、环境导航等高级任务 |
BAGEL 的主要功能模块
1. 多模态理解与生成
BAGEL 可以处理图文混合输入,并生成相应输出。无论是从文本生成图像,还是从图像生成描述,都能做到语义准确、视觉逼真。
2. 复杂推理任务
BAGEL 能执行自由形式图像操作、未来帧预测、3D 操作及世界导航等任务,展现了强大的推理能力。
3. 长上下文推理
支持长序列多模态交互,适用于需要多步骤推理的复杂生成任务,例如连续图像生成、视频内容扩展等。
BAGEL 的核心能力详解
对话能力
作为统一的生成与理解模型,BAGEL 基于大型语言模型初始化训练,具备对话能力,能够处理图像与文本混合输入,并生成图文交错输出。

图像生成
BAGEL 在大规模交错视频和网络数据集上预训练,能够生成高质量图像、视频帧或图文混合内容。通过自然对齐的多模态思维链,BAGEL 在生成前会“思考”,从而提升输出质量。

图像编辑
得益于交错视频片段的预训练,BAGEL 能够在保持视觉一致性和细节的前提下,实现高效图像编辑。其编辑能力不仅限于基础调整,还能完成复杂的语义级修改。

风格转换
BAGEL 具备对视觉风格的深度理解,只需少量对齐数据即可实现图像风格迁移,甚至可以跨越不同艺术风格进行转换。

导航与世界建模
通过从现实世界视频中学习,BAGEL 掌握了导航能力,可在多种环境中进行路径预测与场景理解,包括科幻世界、画作场景、旋转视角等复杂情境。

多轮组合能力
BAGEL 从视频、网页和语言数据中学习广泛知识,能够进行物理建模、动态预测、未来帧生成等任务,并通过统一接口实现多轮交互与任务串联。

思考模式
BAGEL 引入“思考”机制,在生成前基于上下文进行推理,将简短提示转化为详细、连贯的输出,确保结果更具逻辑性和细节准确性。

技术原理简介
BAGEL 采用 混合专家架构(MoT),通过选择性激活模态特定参数,提升了模型对多模态信息的处理效率。其整体框架基于下一组标记预测范式,训练目标是预测下一组语言或视觉标记。
关键设计包括:
- 混合专家架构(MoT):BAGEL采用混合专家架构,通过选择性激活模态特定参数,避免了传统模型中的瓶颈问题。
- 共享自注意力操作:BAGEL通过共享的自注意力操作,允许长上下文交互,从而支持复杂的多模态推理。
- 多模态数据预训练:BAGEL在大规模交织的多模态数据上进行预训练,这些数据包括文本、图像、视频和网络内容。
- 长上下文推理:BAGEL能够处理长上下文的多模态数据,支持复杂的生成任务。

新兴能力的演进过程
随着训练数据量和多模态标记数的增加,BAGEL 展现出逐步提升的能力演化趋势:
- 初期阶段:掌握基本的多模态理解和生成;
- 中期阶段:实现简单图像编辑;
- 后期阶段:发展出复杂的智能编辑与世界建模能力。
这种阶段性演进表明,高级多模态推理建立在扎实的基础能力之上。实验还发现,结合变分自编码器(VAE)与视觉变换器(ViT)特征,显著提升了图像编辑效果,验证了视觉-语义融合的重要性。
测试表现概览
BAGEL 在多个权威基准测试中均取得优异成绩:
- 多模态理解基准测试:BAGEL在多个标准多模态理解基准测试中表现优异,例如MME、MMBench、MM-Vet等。
- 文本到图像生成:BAGEL在GenEval和WISE基准测试中表现出色,生成的图像质量高,具有较强的推理能力。
- 图像编辑:BAGEL在GEdit-Bench和IntelligentBench基准测试中表现出色,能够处理复杂的图像编辑任务。
- 世界建模:BAGEL在世界导航和多帧生成任务中表现出色,能够生成动态的多帧图像。
这些结果充分展示了 BAGEL 在开放多模态研究方向上的领先潜力。
