香港科技大学和快手的研究人员推出新型测试时扩展(Test-Time Scaling, TTS)框架Evolutionary Search (EvoSearch) ,通过在推理阶段分配额外计算资源来提升图像和视频生成模型的性能。EvoSearch 通过模拟生物进化过程中的选择和变异机制,优化扩散模型(diffusion models)和流模型(flow models)的去噪轨迹,从而生成更高质量的图像和视频内容。

主要功能
- 提升生成质量:通过在推理阶段分配更多计算资源,EvoSearch 能够显著提升图像和视频生成模型的输出质量。
- 通用性:适用于多种图像和视频生成任务,包括基于扩散模型和流模型的生成任务。
- 无需额外训练:无需对预训练模型进行额外训练或参数调整,即可在推理阶段实现性能提升。
主要特点
- 进化搜索机制:借鉴生物进化原理,通过选择和变异机制优化生成过程,有效探索高奖励区域。
- 动态计算分配:根据推理阶段的计算预算动态调整进化过程,提高计算效率。
- 多样性保持:在优化过程中保持样本多样性,避免因过度优化而导致的模式坍塌(mode collapse)。
工作原理
- 问题定义:将图像和视频生成任务的测试时扩展定义为从预训练分布中采样,同时优化奖励函数。
- 进化调度:定义进化时间表,指定在哪些去噪步骤上执行 EvoSearch,以平衡计算成本和性能提升。
- 种群初始化:从高斯噪声初始化种群,作为进化过程的起点。
- 适应度评估:使用预定义的奖励模型评估每个候选样本的质量。
- 选择机制:通过锦标赛选择(tournament selection)从当前种群中选择高质量的父代样本。
- 变异机制:对父代样本进行变异,生成新的子代样本,探索新的状态空间。
- 迭代进化:重复上述选择和变异过程,逐步提升样本质量。

测试结果
- 图像生成:在 DrawBench 数据集上,EvoSearch 在多个指标上优于现有的 Best-of-N 和 Particle Sampling 方法。例如,使用 Stable Diffusion 2.1 模型时,EvoSearch 在 100× 扩展计算预算下,能够生成更符合文本提示的高质量图像。
- 视频生成:在 VBench 和 VBench2.0 数据集上,EvoSearch 在 VideoReward 指标上显著优于基线方法。例如,对于 Wan 1.3B 模型,EvoSearch 在 5× 扩展计算预算下,能够生成与文本提示更匹配的高质量视频,甚至超越了其 10× 更大的模型 Wan 14B。
通过 EvoSearch,研究人员和开发者可以在不增加模型训练成本的情况下,显著提升图像和视频生成模型的性能,为各种应用场景提供更高质量的生成内容。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















