CFG-Zero*：用于提升基于流匹配模型的图像和视频生成效果

487 0

南洋理工大学和普渡大学的研究人员推出CFG-Zero*，即一种改进的分类器自由引导（CFG）方法，专门用于提升基于流匹配（Flow Matching）模型（如SD3模型）的图像和视频生成效果。流匹配模型是一种先进的生成模型，通过学习数据的连续流动过程来生成高质量的图像和视频。CFG-Zero⋆通过优化引导机制，显著提高了生成内容的质量和与文本提示的一致性。

项目主页：https://weichenfan.github.io/webpage-cfg-zero-star
GitHub：https://github.com/WeichenFan/CFG-Zero-star
Demo：https://huggingface.co/spaces/weepiess2383/CFG-Zero-Star

例如，给定一个文本提示：“一个阳光明媚的海滩上，一只狗在追逐飞盘。” 使用传统的CFG方法生成的图像可能在细节上不够丰富，或者与文本描述的对齐不够准确。而使用CFG-Zero⋆生成的图像不仅能够更准确地表现出狗的动作和海滩的环境，还能在色彩、纹理和整体视觉效果上更接近真实的场景。

PS：目前已支持Wan2.1、Hunyuan、SD3/SD3.5、Flux和Qwen2.5-Omni，ComfyUI插件ComfyUI-KJNodes 已经支持CFG-Zero*

主要功能

CFG-Zero⋆的主要功能是提升生成模型的可控性和生成质量。具体来说：

优化生成内容的对齐性：通过改进的引导机制，CFG-Zero⋆能够更好地将生成的图像或视频与输入的文本提示对齐，确保生成内容更符合用户的意图。
减少生成过程中的误差：通过优化的尺度调整和零初始化技术，CFG-Zero⋆能够减少生成过程中的误差，尤其是在模型训练初期。
提高生成内容的质量：生成的图像和视频在细节、纹理、色彩等方面更接近真实场景，减少模糊和失真。

主要特点

优化的尺度调整（Optimized Scale）：通过引入一个可优化的标量参数，CFG-Zero⋆能够动态调整生成过程中的速度场，从而更准确地估计目标流动方向。
零初始化（Zero-Init）：在生成过程的初始步骤中，CFG-Zero⋆会将速度场置为零，避免在模型训练初期由于速度估计不准确而导致的错误轨迹。
广泛的适用性：CFG-Zero⋆可以应用于多种基于流匹配的生成模型，包括但不限于图像生成和视频生成任务。
低计算成本：CFG-Zero⋆在实现上述改进的同时，引入的计算成本极低，几乎不会增加额外的计算负担。

工作原理

CFG-Zero⋆的工作原理基于对传统CFG方法的改进。具体来说：

优化的尺度调整：CFG-Zero⋆通过优化一个标量参数 ( s^\star )，使得生成的速度场 ( \tilde{v}_\theta ) 更接近真实的速度场 ( v^* )。
零初始化：在生成过程的初始步骤中，CFG-Zero⋆将速度场置为零，避免在模型训练初期由于速度估计不准确而导致的错误轨迹。具体来说，CFG-Zero⋆在求解常微分方程（ODE）时，会跳过初始的几步，直接从后续步骤开始计算。