开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”

图像模型2个月前更新 小马良
466 0

字节跳动发布了一款名为 BAGEL 的开源多模态基础模型,该模型拥有 70 亿活跃参数(总规模为 140 亿),在大规模交错多模态数据上进行训练。BAGEL 不仅在标准多模态理解排行榜中超越了当前主流开源模型(如 Qwen2.5-VL 和 InternVL-2.5),还在文本到图像生成质量方面,达到了与顶级闭源生成器(如 SD3)相媲美的水平。

更重要的是,BAGEL 并不仅仅是一个图像生成工具,它具备多模态理解和推理能力,能完成从图像编辑、风格转换到未来帧预测、世界导航等复杂任务,展现出“世界建模”的潜力。这些能力远超以往的图像编辑模型范畴。

开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”

核心亮点一览

能力维度表现亮点
多模态理解在 MME、MMBench、MM-Vet 等标准基准测试中表现优异
图像生成在 GenEval、WISE 等文本到图像生成任务中生成质量高且富有逻辑性
图像编辑在 GEdit-Bench 和 IntelligentBench 上表现出更强的智能编辑能力
世界建模支持动态场景预测、多视角合成、环境导航等高级任务

BAGEL 的主要功能模块

1. 多模态理解与生成

BAGEL 可以处理图文混合输入,并生成相应输出。无论是从文本生成图像,还是从图像生成描述,都能做到语义准确、视觉逼真。

2. 复杂推理任务

BAGEL 能执行自由形式图像操作、未来帧预测、3D 操作及世界导航等任务,展现了强大的推理能力。

3. 长上下文推理

支持长序列多模态交互,适用于需要多步骤推理的复杂生成任务,例如连续图像生成、视频内容扩展等。

BAGEL 的核心能力详解

对话能力

作为统一的生成与理解模型,BAGEL 基于大型语言模型初始化训练,具备对话能力,能够处理图像与文本混合输入,并生成图文交错输出。

开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”

图像生成

BAGEL 在大规模交错视频和网络数据集上预训练,能够生成高质量图像、视频帧或图文混合内容。通过自然对齐的多模态思维链,BAGEL 在生成前会“思考”,从而提升输出质量。

开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”

图像编辑

得益于交错视频片段的预训练,BAGEL 能够在保持视觉一致性和细节的前提下,实现高效图像编辑。其编辑能力不仅限于基础调整,还能完成复杂的语义级修改。

开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”

风格转换

BAGEL 具备对视觉风格的深度理解,只需少量对齐数据即可实现图像风格迁移,甚至可以跨越不同艺术风格进行转换。

开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”

导航与世界建模

通过从现实世界视频中学习,BAGEL 掌握了导航能力,可在多种环境中进行路径预测与场景理解,包括科幻世界、画作场景、旋转视角等复杂情境。

开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”

多轮组合能力

BAGEL 从视频、网页和语言数据中学习广泛知识,能够进行物理建模、动态预测、未来帧生成等任务,并通过统一接口实现多轮交互与任务串联。

开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”

思考模式

BAGEL 引入“思考”机制,在生成前基于上下文进行推理,将简短提示转化为详细、连贯的输出,确保结果更具逻辑性和细节准确性。

开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”

技术原理简介

BAGEL 采用 混合专家架构(MoT),通过选择性激活模态特定参数,提升了模型对多模态信息的处理效率。其整体框架基于下一组标记预测范式,训练目标是预测下一组语言或视觉标记。

关键设计包括:

  1. 混合专家架构(MoT):BAGEL采用混合专家架构,通过选择性激活模态特定参数,避免了传统模型中的瓶颈问题。
  2. 共享自注意力操作:BAGEL通过共享的自注意力操作,允许长上下文交互,从而支持复杂的多模态推理。
  3. 多模态数据预训练:BAGEL在大规模交织的多模态数据上进行预训练,这些数据包括文本、图像、视频和网络内容。
  4. 长上下文推理:BAGEL能够处理长上下文的多模态数据,支持复杂的生成任务。
开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”

新兴能力的演进过程

随着训练数据量和多模态标记数的增加,BAGEL 展现出逐步提升的能力演化趋势:

  • 初期阶段:掌握基本的多模态理解和生成;
  • 中期阶段:实现简单图像编辑;
  • 后期阶段:发展出复杂的智能编辑与世界建模能力。

这种阶段性演进表明,高级多模态推理建立在扎实的基础能力之上。实验还发现,结合变分自编码器(VAE)与视觉变换器(ViT)特征,显著提升了图像编辑效果,验证了视觉-语义融合的重要性。

测试表现概览

BAGEL 在多个权威基准测试中均取得优异成绩:

  1. 多模态理解基准测试:BAGEL在多个标准多模态理解基准测试中表现优异,例如MME、MMBench、MM-Vet等。
  2. 文本到图像生成:BAGEL在GenEval和WISE基准测试中表现出色,生成的图像质量高,具有较强的推理能力。
  3. 图像编辑:BAGEL在GEdit-Bench和IntelligentBench基准测试中表现出色,能够处理复杂的图像编辑任务。
  4. 世界建模:BAGEL在世界导航和多帧生成任务中表现出色,能够生成动态的多帧图像。

这些结果充分展示了 BAGEL 在开放多模态研究方向上的领先潜力。

开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”
© 版权声明

相关文章

暂无评论

none
暂无评论...