开源版GPT-4o！字节跳动开源新一代多模态模型 BAGEL：多模态理解、图像生成、图像编辑，还能“思考”

图像模型10个月前更新小马良

884 0

字节跳动发布了一款名为 BAGEL 的开源多模态基础模型，该模型拥有 70 亿活跃参数（总规模为 140 亿），在大规模交错多模态数据上进行训练。BAGEL 不仅在标准多模态理解排行榜中超越了当前主流开源模型（如 Qwen2.5-VL 和 InternVL-2.5），还在文本到图像生成质量方面，达到了与顶级闭源生成器（如 SD3）相媲美的水平。

项目主页：https://bagel-ai.org
GitHub：https://github.com/ByteDance-Seed/Bagel
模型：https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
Demo：https://demo.bagel-ai.org
ComfyUI插件：https://github.com/neverbiasu/ComfyUI-BAGEL

更重要的是，BAGEL 并不仅仅是一个图像生成工具，它具备多模态理解和推理能力，能完成从图像编辑、风格转换到未来帧预测、世界导航等复杂任务，展现出“世界建模”的潜力。这些能力远超以往的图像编辑模型范畴。

核心亮点一览

能力维度	表现亮点
多模态理解	在 MME、MMBench、MM-Vet 等标准基准测试中表现优异
图像生成	在 GenEval、WISE 等文本到图像生成任务中生成质量高且富有逻辑性
图像编辑	在 GEdit-Bench 和 IntelligentBench 上表现出更强的智能编辑能力
世界建模	支持动态场景预测、多视角合成、环境导航等高级任务

BAGEL 的主要功能模块

1. 多模态理解与生成

BAGEL 可以处理图文混合输入，并生成相应输出。无论是从文本生成图像，还是从图像生成描述，都能做到语义准确、视觉逼真。

2. 复杂推理任务

BAGEL 能执行自由形式图像操作、未来帧预测、3D 操作及世界导航等任务，展现了强大的推理能力。

3. 长上下文推理

支持长序列多模态交互，适用于需要多步骤推理的复杂生成任务，例如连续图像生成、视频内容扩展等。

BAGEL 的核心能力详解

对话能力

作为统一的生成与理解模型，BAGEL 基于大型语言模型初始化训练，具备对话能力，能够处理图像与文本混合输入，并生成图文交错输出。

图像生成

BAGEL 在大规模交错视频和网络数据集上预训练，能够生成高质量图像、视频帧或图文混合内容。通过自然对齐的多模态思维链，BAGEL 在生成前会“思考”，从而提升输出质量。

图像编辑

得益于交错视频片段的预训练，BAGEL 能够在保持视觉一致性和细节的前提下，实现高效图像编辑。其编辑能力不仅限于基础调整，还能完成复杂的语义级修改。

风格转换

BAGEL 具备对视觉风格的深度理解，只需少量对齐数据即可实现图像风格迁移，甚至可以跨越不同艺术风格进行转换。

导航与世界建模

通过从现实世界视频中学习，BAGEL 掌握了导航能力，可在多种环境中进行路径预测与场景理解，包括科幻世界、画作场景、旋转视角等复杂情境。

多轮组合能力

BAGEL 从视频、网页和语言数据中学习广泛知识，能够进行物理建模、动态预测、未来帧生成等任务，并通过统一接口实现多轮交互与任务串联。

思考模式

BAGEL 引入“思考”机制，在生成前基于上下文进行推理，将简短提示转化为详细、连贯的输出，确保结果更具逻辑性和细节准确性。

技术原理简介

BAGEL 采用 混合专家架构（MoT），通过选择性激活模态特定参数，提升了模型对多模态信息的处理效率。其整体框架基于下一组标记预测范式，训练目标是预测下一组语言或视觉标记。

关键设计包括：

混合专家架构（MoT）：BAGEL采用混合专家架构，通过选择性激活模态特定参数，避免了传统模型中的瓶颈问题。
共享自注意力操作：BAGEL通过共享的自注意力操作，允许长上下文交互，从而支持复杂的多模态推理。
多模态数据预训练：BAGEL在大规模交织的多模态数据上进行预训练，这些数据包括文本、图像、视频和网络内容。
长上下文推理：BAGEL能够处理长上下文的多模态数据，支持复杂的生成任务。

新兴能力的演进过程

随着训练数据量和多模态标记数的增加，BAGEL 展现出逐步提升的能力演化趋势：

初期阶段：掌握基本的多模态理解和生成；
中期阶段：实现简单图像编辑；
后期阶段：发展出复杂的智能编辑与世界建模能力。

这种阶段性演进表明，高级多模态推理建立在扎实的基础能力之上。实验还发现，结合变分自编码器（VAE）与视觉变换器（ViT）特征，显著提升了图像编辑效果，验证了视觉-语义融合的重要性。

测试表现概览

BAGEL 在多个权威基准测试中均取得优异成绩：

多模态理解基准测试：BAGEL在多个标准多模态理解基准测试中表现优异，例如MME、MMBench、MM-Vet等。
文本到图像生成：BAGEL在GenEval和WISE基准测试中表现出色，生成的图像质量高，具有较强的推理能力。
图像编辑：BAGEL在GEdit-Bench和IntelligentBench基准测试中表现出色，能够处理复杂的图像编辑任务。
世界建模：BAGEL在世界导航和多帧生成任务中表现出色，能够生成动态的多帧图像。

这些结果充分展示了 BAGEL 在开放多模态研究方向上的领先潜力。

图像模型 # BAGEL # GPT-4o # 多模态模型 # 字节跳动

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Pattern Diffusion：专为无缝图案生成而生的扩散模型

Pattern Diffusion：专为无缝图案生成而生的扩散模型

图像模型 # Pattern Diffusion # 无缝图案

7个月前

03110

DreamActor-H1：字节跳动推出高保真人类-产品演示视频生成框架

DreamActor-H1：字节跳动推出高保真人类-产品演示视频生成框架

新技术 # DreamActor-H1 # 字节跳动

9个月前

03030

图像编辑模型FireRed-Image-Edit：小红书团队出品，让图片编辑像说话一样简单

图像编辑模型FireRed-Image-Edit：小红书团队出品，让图片编辑像说话一样简单

图像模型 # FireRed-Image-Edit # 图像编辑模型 # 小红书

4周前

01800

新型图像训练自由方法 IP-Composer：从多个视觉概念中合成图像

新型图像训练自由方法 IP-Composer：从多个视觉概念中合成图像

图像模型 # IP-Composer

10个月前

05120

暂无评论

none

暂无评论...