中国团队推出 Lumina-DiMOO:支持生成与理解的全能多模态模型

图像模型3个月前发布 小马良
171 0

由上海人工智能实验室牵头,联合上海创智学院、上海交通大学、悉尼大学、南京大学、香港中文大学和清华大学的研究团队,共同推出 Lumina-DiMOO ——一个面向多模态生成与理解一体化的新型基础模型。

该模型突破传统架构限制,采用完全离散的扩散建模范式,在文本到图像生成、图像编辑、图像修复、可控生成与高级视觉理解等多项任务中实现统一建模,并在效率与性能上均达到当前开源模型的领先水平。

中国团队推出 Lumina-DiMOO:支持生成与理解的全能多模态模型

Lumina-DiMOO 的发布,为构建“一个模型处理多种模态”的通用智能系统提供了新范式。

核心理念:用统一架构打通生成与理解

当前多模态模型普遍面临两大挑战:

  • 架构割裂:生成与理解任务常使用不同模型或训练范式(如自回归 + 扩散)
  • 效率瓶颈:扩散模型采样步数多、速度慢,难以实用化

Lumina-DiMOO 提出以 “统一离散扩散” 为核心,将文本、图像等模态统一表示为离散 token 序列,在同一扩散框架下完成双向跨模态建模——既能从文本生成图像,也能从图像推理语义。

这意味着:同一个模型,既可作“创作者”,也可作“理解者”。

四大关键技术突破

1. 统一的离散扩散架构

不同于主流的连续扩散或混合架构(如 AR + Diffusion),Lumina-DiMOO 全程采用 离散 token 空间中的扩散过程,对输入和输出进行端到端建模。

  • 文本和图像均被编码为离散 token 流
  • 扩散过程在 token 级别进行噪声添加与去噪
  • 支持任意方向的跨模态生成(T2I、I2T、I2I)与理解(VQA、图像描述等)

这一设计实现了真正意义上的架构统一性,无需任务特定头或额外模块。

中国团队推出 Lumina-DiMOO:支持生成与理解的全能多模态模型

2. 多样化的多模态能力

Lumina-DiMOO 支持广泛的多模态任务,涵盖生成与理解两大方向:

✅ 多模态生成

  • 文本到图像(T2I):支持任意分辨率输出,细节丰富
  • 图像到图像(I2I)
    • 图像编辑(Edit)
    • 主题驱动生成(Subject-driven)
    • 图像修复(Inpainting)
    • 图像外推(Outpainting)
  • 可控生成:通过 prompt 实现风格、布局、对象控制

✅ 高级图像理解

  • 视觉问答(VQA)
  • 图像描述生成
  • 复杂场景语义解析

所有任务共享同一模型参数,无需微调即可切换模式。

3. 更高的采样效率

传统扩散模型通常需要数十甚至上百步采样,影响实用性。Lumina-DiMOO 在保证质量的前提下显著提升推理效率:

  • 相比自回归(AR)或混合范式,采样速度更快
  • 引入定制化缓存机制,减少重复计算
  • 实验表明:采样速度提升达 2 倍

示例配置:

  • 图像生成:64 步采样
  • 图像理解:块长度 256,采样 128 步

值得注意的是,由于文本生成以块状方式进行,而图像生成为全局解码,因此图像理解的速度增益相对有限,但仍优于同类模型。

4. 卓越的性能表现

在多个标准基准测试中,Lumina-DiMOO 表现出色,全面超越现有开源统一多模态模型,部分指标逼近甚至超过闭源系统。

任务类别性能亮点
T2I 质量在 COCO、PartiScore 等评测中取得 SOTA 分数
I2I 编辑保持主体一致性更强,边界更自然
图像修复在复杂遮挡场景下恢复效果更真实
VQA 准确率显著优于同规模多模态理解模型

定性结果也显示,其生成图像在构图、细节和语义对齐方面更具优势。

更多可视化案例可访问官方项目页面查看。

技术意义:推动多模态走向“统一建模”时代

Lumina-DiMOO 的价值不仅在于性能提升,更在于它验证了一条可行的技术路径:

用单一离散扩散框架,统一处理生成与理解任务

这为未来构建“通用感知-生成智能体”提供了重要参考,尤其适用于以下场景:

  • AI 创作工具(图文互转、智能编辑)
  • 智能助手(看图说话、提问解答)
  • 自动化内容审核与生成系统

同时,其高采样效率也为部署于实际产品中提供了可能。

© 版权声明

相关文章

暂无评论

none
暂无评论...