X-Omni:腾讯混元提出统一图像与语言生成的离散自回归新模型

图像模型4个月前发布 小马良
156 0

“能否用同一个模型,既写诗又作画?”这是多模态模型长期以来追求的目标。

近年来,研究者尝试将语言模型中成功的“下一 token 预测”范式扩展到图像领域,构建统一的离散自回归模型,期望实现图像生成与语言生成的无缝整合。然而,这类方法在实践中面临显著挑战:

  • 图像保真度低,细节模糊或失真;
  • 难以准确遵循复杂指令;
  • 在渲染长文本(如广告语、标语)时表现不佳;
  • 自回归过程中的误差累积导致整体质量下降。

这些问题使得不少研究转向“扩散+自回归”的混合架构,牺牲了统一建模的简洁性。

X-Omni:腾讯混元提出统一图像与语言生成的离散自回归新模型

腾讯混元项目组在新工作 X-Omni 中提出了一种新思路:不放弃离散自回归范式,而是通过强化学习来修复其缺陷。结果表明,这一路径不仅能大幅提升生成质量,还能在图像与语言任务之间实现真正的统一建模。

核心思想:用强化学习“校正”自回归生成

X-Omni 的核心突破在于,它认识到:离散自回归模型的性能瓶颈,不在于结构本身,而在于训练目标的局限性

传统的最大似然估计(MLE)仅要求模型“预测正确下一个 token”,但无法全局优化生成结果的视觉质量、语义一致性或指令对齐程度。

X-Omni:腾讯混元提出统一图像与语言生成的离散自回归新模型

为此,X-Omni 引入基于强化学习的优化阶段,使用 GRPO(Group Relative Policy Optimization)算法,结合设计好的奖励模型,对生成过程进行端到端校正:

  • 奖励信号来自图像质量(如 CLIP Score)、文本准确性(OCR 匹配度)、指令遵循程度等;
  • 模型在推理过程中逐步调整 token 生成策略,减少累积误差;
  • 整个过程无需额外标注数据,可在预训练基础上直接优化。

这相当于让模型从“机械地拼接 token”转变为“有目的地创作图像”。

系统架构:三部分协同工作

X-Omni 由三个关键组件构成,形成“编码—生成—解码”的完整链条:

1. 语义图像 Tokenizer:SigLIP-VQ

传统 VQ-VAE 类 tokenizer 往往丢失高层语义。X-Omni 采用 SigLIP-VQ,基于 SigLIP 视觉编码器构建:

  • 将图像映射为离散 token 序列;
  • 每个 token 不仅编码局部像素,还携带语义信息(如物体类别、风格);
  • 支持高保真重建,减少离散化带来的信息损失。

2. 统一自回归模型:语言与图像共用一个骨干

X-Omni 使用一个 7B 参数的统一 Transformer 模型,同时处理语言 token 和图像 token:

  • 所有 token 混合排列,模型学习跨模态上下文依赖;
  • 支持双向任务:给文本生成图像,或给图像生成描述;
  • 在预训练阶段融合图像描述、图文匹配、视觉问答等任务,提升理解能力。

这种设计实现了真正意义上的“模态无感”建模。

3. 离线扩散解码器:提升最终输出质量

虽然生成的是离散 token,但最终图像仍需高质量还原。X-Omni 采用一个预训练的扩散模型作为解码器

  • 输入为 tokenizer 生成的 latent code;
  • 扩散过程负责细节补全与纹理增强;
  • 解码器固定不动,不参与训练,仅用于推理阶段提升视觉保真度。

这一设计既保留了自回归的统一性,又借力扩散模型的生成优势。

关键特性

特性说明
强化学习优化使用 GRPO 算法优化生成策略,显著提升指令遵循与视觉质量
长文本渲染能力可在图像中准确生成多行中英文文本(如广告标语),优于现有方法
复杂指令理解能解析“穿红色外套的女性在雨中撑伞”等复合语义提示
无需 CFG 引导不依赖分类器自由引导(Classifier-Free Guidance),降低推理成本,提升一致性
多任务兼容支持图像生成、图像描述、视觉问答、OCR 等多种任务

工作流程简述

  1. 输入处理:文本提示被分词,图像被 SigLIP-VQ 编码为离散 token 序列;
  2. 自回归生成:统一模型按顺序预测后续 token,可生成图像 token 或语言响应;
  3. 强化学习优化:在推理阶段引入奖励模型,动态调整生成路径;
  4. 扩散解码:图像 token 被送入离线扩散解码器,生成高分辨率像素图像;
  5. 输出呈现:返回高质量图像或图文混合输出。

整个流程支持端到端推理,且生成过程完全自回归。

实验表现:全面领先

X-Omni 在多个权威基准上进行了评估:

1. 文本渲染能力

  • OneIG-Bench:在长文本图像生成任务中显著优于 Unified-IO、PaLI-X 等模型;
  • LongText-Bench:中文长文本渲染准确率提升 15% 以上,能完整保留“欢迎来到家居美学盛典”等复杂文案。

2. 图像生成质量

  • DPG-Bench 和 GenEval:在复杂指令遵循、构图合理性、细节保真度等维度达到 SOTA;
  • 示例:生成“穿汉服的女孩在樱花树下弹古筝”时,服饰纹理、乐器结构、背景层次均清晰可辨。

3. 图像理解能力

  • 在 OCRBench 上,X-Omni 的文本识别准确率超过多数专用模型;
  • 在 VQA 任务中表现与主流多模态模型相当,证明其具备双向能力。

值得一提的是,X-Omni 在不使用 CFG 的情况下实现高质量生成,相比依赖强引导的方法,推理更稳定、资源消耗更低。

© 版权声明

相关文章

暂无评论

none
暂无评论...