腾讯混元联合高校提出 Direct-Align：用“一步恢复”实现扩散模型的高效偏好对齐

图像模型6个月前发布小马良

183 0

在文生图模型日益成熟的今天，提升生成质量已不再是唯一目标——如何让图像真正符合人类的审美偏好，成为更高阶的挑战。

现有方法通常依赖强化学习或可微奖励机制，将模型输出与人类偏好对齐。但这些方法普遍存在两个瓶颈：

计算成本高：需多步去噪并逐层反向传播梯度，训练耗时且资源密集；
依赖离线微调：为获得理想风格（如照片级真实感），必须预先训练专用奖励模型，灵活性差。

针对这些问题，腾讯混元团队联合香港中文大学（深圳）、清华大学深圳国际研究生院提出 Direct-Align ——一种全新的在线强化学习框架，首次实现对整个扩散轨迹的直接、高效对齐。

项目主页：https://tencent.github.io/srpo-project-page
GitHub：https://github.com/Tencent-Hunyuan/SRPO
模型：https://huggingface.co/rockerBOO/flux.1-dev-SRPO

其核心思想是：

不再逐步优化去噪过程，而是通过预设噪声先验 + 单步图像恢复，从任意时间步直接重建原始图像，并结合语义感知的动态奖励机制进行端到端优化。

该方法已在 FLUX.1.dev 模型上验证效果：仅用不到10分钟训练，就在人类评估中实现真实感提升3.7倍、美学质量提升3.1倍，同时显著降低对专用奖励模型的依赖。

腾讯混元联合高校提出 Direct-Align：用“一步恢复”实现扩散模型的高效偏好对齐

问题本质：为什么“后期微调”不够用？

当前主流偏好对齐方法（如GRPO、ReFL）通常只在扩散过程的后期几个时间步进行优化。原因在于：

多步去噪 → 多次前向+反向 → 计算开销呈指数增长；
早期高噪声状态下难以提取有效语义信息，导致奖励信号不可靠。

这带来两个后果：

优化范围受限，无法影响整体生成路径；
容易引发“奖励作弊”——模型学会迎合局部评分规则（如过度饱和、特定构图），而非真正提升质量。

Direct-Align 的突破在于：打破“必须逐步去噪”的思维定式，让模型能在任意时间步快速还原图像内容，从而在整个扩散轨迹上实施稳定优化。

核心技术：两个关键创新

1. 直接对齐（Direct-Align）——从噪声中“一键还原”图像

Direct-Align 的核心假设是：

扩散过程中的每一步状态，都是原始图像与噪声之间的线性插值。

这意味着：

无需运行完整去噪流程；
可在任意时间步（包括早期高噪声阶段）快速重建清晰图像；
奖励计算可在单步内完成，大幅降低计算负担。

这一机制使得优化不再局限于后期低噪声阶段，而是覆盖整个扩散轨迹，从根本上提升了控制粒度。

2. 语义相对偏好优化（SRPO）——用文本动态调节奖励

传统方法使用固定奖励模型打分，一旦部署就难以调整。Direct-Align 提出 SRPO（Semantic Relative Preference Optimization），将奖励建模为文本条件驱动的动态信号。

具体做法如下：

对每个样本生成两个分支：
- 正提示分支：如“高质量摄影风格”
- 负提示分支：如“卡通化、过饱和、模糊”
分别计算两者的奖励得分；
构建相对奖励：

这种设计带来了三大优势：

✅ 减少奖励作弊：负反馈直接抑制不良模式（如颜色溢出），无需KL正则或额外判别器；
✅ 支持在线调整：用户可通过修改提示词实时引导风格偏好；
✅ 降低离线微调需求：无需为每种风格单独训练奖励模型。

例如，在生成“一个年轻女孩在黑暗森林中骑着灰色狼”时，系统不仅能判断图像是否符合描述，还能根据“暗黑奇幻风”或“纪实摄影感”等指令动态调整奖励权重，确保输出既准确又具艺术表现力。

训练效率革命：10分钟完成高质量微调

得益于单步恢复与轻量级奖励机制，Direct-Align 实现了惊人的训练效率。

方法	训练时间	性能提升
DanceGRPO	~12小时	基准水平
Direct-Align	<10分钟	↑5.9×真实感, ↑8.7×美学

关键优化点包括：

仅需生成一张图像即可完成一次完整优化；
支持完全使用小型真实图像数据集替代在线采样（仅需约1500张图像）；
梯度通过解析方式直接回传至U-Net，避免重复前向计算。

这是目前首个能在分钟级时间内完成全流程微调的在线RL方法，极大降低了部署门槛。

实验结果：全面超越现有方案

1. 自动评估指标

在 Aesthetic Score v2.5、PickScore、ImageReward 和 HPSv2.1 等主流奖励模型下，Direct-Align 均显著优于基线 FLUX 模型。

2. 人类评估表现

在双盲测试中，评审员被要求比较生成图像的真实感与美学质量：

对比对象	真实感提升	美学质量提升
Baseline FLUX	3.7×	3.1×
DanceGRPO	5.9×	8.7×

尤其在光影细节、材质质感和场景合理性方面，Direct-Align 输出更具“无AI感”的自然表现。

3. 抗奖励作弊能力

在多种不同奖励函数测试下，模型均未出现过拟合现象（如色彩偏移、重复纹理），证明其具备良好的泛化性与稳定性。

文章版权归作者所有，未经允许请勿转载。

非自回归 MIM 文生图合成模型Meissonic：生成高质量、高分辨率的图像

图像模型 # Meissonic # 文生图合成模型

1年前

03900

图像修复模型PixelHacker：基于潜在类别引导并结合扩散模型，显著提升图像修复质量

图像模型 # PixelHacker # 图像修复模型

10个月前

04260

降低生成步数！腾讯发布混元文生图开源大模型的蒸馏模型和ComfyUI节点及工作流

插件 # Hunyuan-DiT # 混元 DiT # 腾讯混元

2年前

01,3550

BRIA AI推出最新开源背景移除模型RMBG v2.0

图像模型 # BRIA AI # RMBG v2.0 # 背景移除模型

1年前

04170

暂无评论

暂无评论...