新型多模态扩散基础模型MMaDA：通过统一的扩散架构和训练策略，在多种领域（如文本推理、多模态理解和文本到图像生成）中实现卓越性能

多模态模型10个月前发布小马良

484 0

普林斯顿大学、北京大学、清华大学和字节跳动的研究人员推出新型多模态扩散基础模型 MMaDA系列，该模型通过统一的扩散架构和训练策略，在多种领域（如文本推理、多模态理解和文本到图像生成）中实现卓越性能。

GitHub：https://github.com/Gen-Verse/MMaDA
模型：https://huggingface.co/Gen-Verse/MMaDA-8B-Base
Demo：https://huggingface.co/spaces/Gen-Verse/MMaDA

MMaDA 通过以下三大创新脱颖而出：

MMaDA 采用统一的扩散架构，具备共享的概率公式和模态无关的设计，无需模态特定的组件。
MMaDA 引入了混合长链思维（CoT）微调策略，跨模态整理出统一的 CoT 格式。
MMaDA 采用了一种统一的基于策略梯度的强化学习算法，称为 UniGRPO，专为扩散基础模型量身定制。利用多样化的奖励建模，UniGRPO 统一了推理和生成任务的后训练，确保性能的持续提升。

MMaDA 系列概览

MMaDA 包括一系列反映不同训练阶段的检查点：

MMaDA-8B-Base：完成预训练和指令微调后。具备基本的文本生成、图像生成、图像描述和思维能力。
MMaDA-8B-MixCoT（即将推出）：完成混合长链思维（CoT）微调后。能够进行复杂的文本、多模态和图像生成推理。将于两周后发布。
MMaDA-8B-Max（即将推出）：完成 UniGRPO 强化学习后。擅长复杂推理和出色的视觉生成。将于一个月后发布。

主要功能

MMaDA的主要功能包括：

文本推理：能够解决复杂的数学问题和逻辑推理任务，例如计算数学表达式的值、解决几何问题等。

多模态理解：可以理解图像内容并回答与图像相关的问题，例如描述图像中的场景、识别物体等。

文本到图像生成：根据文本描述生成高质量的图像，例如生成特定动物、地标建筑等的图像。

主要特点

统一扩散架构：MMaDA采用统一的扩散架构，消除了模态特定组件的需求，能够无缝处理不同类型的数据（如文本和图像）。
混合长链推理（CoT）微调：通过统一的CoT格式对模型进行微调，使模型在推理任务中表现出色。
统一强化学习（UniGRPO）：提出了一种基于策略梯度的强化学习算法，专门针对扩散基础模型进行优化，提升模型在复杂任务中的性能。

工作原理

MMaDA的工作原理基于以下几个关键步骤：

数据预处理：对文本和图像数据进行统一的离散标记化处理，将图像转换为离散的语义标记序列。
预训练：采用统一的扩散目标对模型进行预训练，使模型能够预测被掩盖的标记。
混合长链推理微调：通过统一的CoT格式对模型进行微调，使模型在推理任务中表现出色。
统一强化学习：使用UniGRPO算法对模型进行强化学习，通过多样化的奖励建模提升模型的性能。

测试结果

在多种任务上的测试结果表明，MMaDA具有强大的泛化能力和优越的性能：

文本推理：在GSM8K等数学推理基准测试中，MMaDA的性能超过了LLaMA-3-8B和Qwen2-7B等强大基线模型。
多模态理解：在POPE、MME、Flickr30k等多模态理解基准测试中，MMaDA的性能与专门的多模态理解模型相当，甚至在某些任务上表现更好。
文本到图像生成：在CLIP Score和ImageReward等图像生成基准测试中，MMaDA的性能超过了SDXL和Janus等生成专用模型。

多模态模型 # MMaDA # 多模态扩散基础模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Holo1：HCompany开源高性能视觉-语言模型，赋能Surfer-H代理实现精准网页交互

Holo1：HCompany开源高性能视觉-语言模型，赋能Surfer-H代理实现精准网页交互

多模态模型 # Holo1 # 视觉-语言模型

9个月前

03300

OpenVision 2：更高效、更对齐的生成式视觉编码器

OpenVision 2：更高效、更对齐的生成式视觉编码器

多模态模型 # OpenVision 2 # 视觉编码器

6个月前

01720

端到端的 VLA 模型InstructVLA：让机器人真正“听懂”指令并准确执行

端到端的 VLA 模型InstructVLA：让机器人真正“听懂”指令并准确执行

多模态模型 # InstructVLA # VLA 模型

7个月前

02120

Meta推出基于视频训练的“世界模型”V-JEPA 2：AI“世界模型”迈出理解物理世界的重要一步

Meta推出基于视频训练的“世界模型”V-JEPA 2：AI“世界模型”迈出理解物理世界的重要一步

多模态模型 # Meta # V-JEPA 2 # 世界模型

9个月前

02190

暂无评论

none

暂无评论...