腾讯混元项目组联合北京大学提出新框架MixGRPO：用混合微分方程提升图像对齐效率

327 0

在图像生成领域，如何让模型输出更符合人类审美与偏好，已成为对齐研究的核心目标。基于流匹配（Flow Matching）的生成模型近年来展现出强大潜力，而 Group Relative Policy Optimization（GRPO）等强化学习式对齐方法，进一步提升了生成结果的主观质量。

然而，现有方法如 FlowGRPO 和 DanceGRPO 存在一个共性瓶颈：它们将整个去噪过程建模为马尔可夫决策过程（MDP），并在所有时间步上进行采样与梯度优化。这种全路径优化带来了高昂的计算成本，严重制约了训练效率。

腾讯混元项目组联合北京大学提出新框架MixGRPO：用混合微分方程提升图像对齐效率

针对这一问题，腾讯混元项目组联合北京大学提出了一种新框架——MixGRPO，通过融合随机微分方程（SDE）与常微分方程（ODE） 的采样机制，引入滑动窗口内的局部优化策略，在不牺牲性能的前提下，显著降低训练开销。

项目主页：https://tulvgengenr.github.io/MixGRPO-Project-Page
GitHub：https://github.com/Tencent-Hunyuan/MixGRPO
模型：https://huggingface.co/tulvgengenr/MixGRPO

实验表明，MixGRPO 相比 DanceGRPO 训练时间减少近 50%，其高速变体 MixGRPO-Flash 更是实现了 71% 的训练耗时压缩，同时在多个偏好对齐指标上实现反超。

问题背景：全路径优化为何低效？

在基于流匹配的图像生成中，模型通过逐步去噪从噪声数据恢复出目标图像。GRPO 类方法将这一过程视为强化学习任务，利用人类偏好数据构建奖励信号，指导模型生成更高质量图像。

但这类方法通常要求：

在每一轮训练中，对完整去噪路径上的多个时间步进行采样；
对每个采样步骤执行策略梯度更新；
依赖高频率的样本回放与奖励评估。

这导致两个主要问题：

计算冗余：早期和中期去噪步骤噪声大、语义模糊，过度优化这些阶段收益有限；
梯度稀疏：奖励信号在整个路径上传播衰减，难以有效引导关键阶段的改进。

因此，是否必须在整个去噪轨迹上进行优化？能否聚焦于更具决定性的阶段？

MixGRPO 给出了肯定回答。

核心思路：混合采样 + 滑动窗口

MixGRPO 的核心创新在于解耦采样与优化过程，并通过混合微分方程策略实现效率与性能的平衡。

1. 混合 ODE-SDE 采样机制

窗口内（关键阶段）：采用 SDE 采样，保留随机性，支持探索不同生成路径，适合作为 GRPO 优化的基础；
窗口外（稳定阶段）：切换为 ODE 采样，以确定性方式快速推进去噪，避免不必要的随机扰动。

⚙️ 简单理解：SDE 像“带噪声的导航”，适合复杂地形探索；ODE 像“高速公路”，适合已知路径的高效通行。

通过这种方式，模型仅在最具优化价值的时间段保留随机性，其余阶段则追求效率。

2. 滑动窗口优化机制

MixGRPO 引入一个可移动的时间窗口，仅在窗口覆盖的时间步上执行 GRPO 优化。窗口通常设置在去噪过程的中前期——此时图像结构尚未定型，优化带来的增益最大。

这一设计带来三重优势：

减少优化变量：只需对窗口内步骤计算梯度，大幅降低反向传播开销；
集中梯度信号：奖励反馈更聚焦于关键阶段，提升学习效率；
支持高阶求解器：窗口外使用 ODE 后，可启用如 DPMSolver++ 等高阶快速求解器，进一步加速前向采样。

该机制类似于强化学习中的“时间折扣”思想：越早的决策影响越大，应优先优化。

3. MixGRPO-Flash：更快的工程实现

基于上述框架，团队进一步推出 MixGRPO-Flash，在以下方面做了增强：

使用更高阶的 ODE 求解器处理非窗口区域；
优化 KV 缓存复用策略，减少重复计算；
调整窗口长度与移动节奏，实现训练稳定性和速度的最佳平衡。

结果是：在几乎不损失性能的前提下，训练速度再次跃升。

实验验证：效率与质量双提升

在多个主流人类偏好对齐基准上，MixGRPO 表现出全面优势：

指标	DanceGRPO	MixGRPO	提升
ImageReward	1.436	1.629	+13.4%
HPSv2	58.7	61.3	+4.4%
Pick Score	0.512	0.541	+5.7%

✅ 所有指标均基于相同基础模型（FLUX.1 Dev）测试。

更重要的是训练效率：

MixGRPO：训练时间降低 49%；
MixGRPO-Flash：训练时间减少 71%，接近三分之一耗时。

此外，MixGRPO 在单奖励与多奖励（HPSv2 + ImageReward + Pick Score）设置下均表现稳健，说明其对奖励信号组合具有良好的适应性。

开源与部署

目前，团队已发布基于 FLUX.1 Dev 架构、采用 MixGRPO 训练的模型版本，支持以下特性：

多重奖励模型联合训练（HPSv2、ImageReward、Pick Score）；
兼容主流扩散采样流程；
支持 ODE/SDE 模式切换，便于推理阶段灵活配置。

该模型可用于高质量图文生成、AIGC 内容审核优化、个性化创作辅助等场景。

总结

MixGRPO 并非对 GRPO 的简单加速，而是一种结构化的效率重构。它通过以下方式重新定义了偏好对齐的训练范式：

将“全路径优化”转为“关键路径聚焦”；
利用 ODE/SDE 的互补性实现采样-优化解耦；
为高阶求解器创造应用空间，推动工程落地。

更重要的是，它证明了：在生成模型对齐任务中， smarter 的优化策略，比 brute-force 更有效。

当行业仍在追求更大规模、更多数据时，MixGRPO 提醒我们：算法设计的精细度，才是决定效率上限的关键。

图像模型 # MixGRPO

文章版权归作者所有，未经允许请勿转载。

港科大与阿里推出Qwen-Image-Layered：将单图分解为可编辑RGBA图层，实现像素级精准编辑

图像模型 # Qwen-Image-Layered # RGBA图层 # 编辑模型

3个月前

01570

MotionEdit：首个专注动作编辑的图像生成基准与训练框架

图像模型 # MotionEdit # 图像编辑

3个月前

0660

新型图像生成模型MoMA：具有灵活的零样本能力，专注于主体驱动的个性化图像生成

图像模型 # MoMA # 个性化图像生成 # 文生图模型

1年前

09490

多功能大规模扩散模型OneDiffusion：能够无缝支持双向图像合成和理解，跨越多种不同的任务

图像模型 # OneDiffusion # 扩散模型

1年前

03300

暂无评论

暂无评论...

腾讯混元项目组联合北京大学提出新框架MixGRPO：用混合微分方程提升图像对齐效率

问题背景：全路径优化为何低效？

核心思路：混合采样 + 滑动窗口

1. 混合 ODE-SDE 采样机制

2. 滑动窗口优化机制

3. MixGRPO-Flash：更快的工程实现

实验验证：效率与质量双提升

开源与部署

总结

黑森林实验室联合 KREA AI 发布 FLUX.1 Krea [dev]：实现更真实、更自然的图像生成

GPT-IMAGE-EDIT-1.5M：用 GPT-4o 重构开源图像编辑数据集

相关文章

港科大与阿里推出Qwen-Image-Layered：将单图分解为可编辑RGBA图层，实现像素级精准编辑

MotionEdit：首个专注动作编辑的图像生成基准与训练框架

新型图像生成模型MoMA：具有灵活的零样本能力，专注于主体驱动的个性化图像生成

多功能大规模扩散模型OneDiffusion：能够无缝支持双向图像合成和理解，跨越多种不同的任务

暂无评论

文章

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

深开鸿 KaihongOS 桌面版 5.0 正式开放免费试用：基于开源鸿蒙，首获公安部安全认证

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

谷歌搜索重磅升级：AI 画布（Canvas）全面开放，搜索框变身“项目工作台”

新腾讯开源SongGeneration 2：歌词准确率超越 Suno v5，首个真正达到“商业级”的开源音乐大模型

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw

腾讯混元项目组联合北京大学提出新框架MixGRPO：用混合微分方程提升图像对齐效率

问题背景：全路径优化为何低效？

核心思路：混合采样 + 滑动窗口

1. 混合 ODE-SDE 采样机制

2. 滑动窗口优化机制

3. MixGRPO-Flash：更快的工程实现

实验验证：效率与质量双提升

开源与部署

总结

黑森林实验室联合 KREA AI 发布 FLUX.1 Krea [dev]： 实现更真实、更自然的图像生成

GPT-IMAGE-EDIT-1.5M：用 GPT-4o 重构开源图像编辑数据集

相关文章

文章

标签云

网址

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw

黑森林实验室联合 KREA AI 发布 FLUX.1 Krea [dev]：实现更真实、更自然的图像生成