韩国科学技术院提出 ALG 方法:显著提升图生视频模型的动态性

视频模型5个月前发布 小马良
137 0

图像到视频(Image-to-Video, I2V)模型近年来取得了长足进展,能够根据一张静态图像和文本提示生成动态视频,实现更强的视觉控制。然而,研究发现,这类模型往往生成的视频过于静态,动态性远不如其文本到视频(T2V)版本。

韩国科学技术院(KAIST)的研究人员深入分析了这一问题,并提出了一种简单但有效的新方法自适应低通引导(Adaptive Low-Pass Guidance, ALG。该方法在不修改模型结构或重新训练的前提下,显著提升了视频的动态性,同时保持了图像质量和文本对齐。

问题:I2V 模型为何生成的视频太“静态”?

当前主流的 I2V 模型大多基于 T2V 架构适配而来。虽然这些模型在视觉控制方面表现优异,但它们生成的视频常常缺乏动态感,即使提示词中包含运动描述。

研究人员通过对比 T2V 和 I2V 模型的生成结果发现:

  • 动态度显著下降:例如在 Wan 2.1 模型中,I2V 的动态度下降了 18.6%。
  • 其他质量指标稳定:如图像质量、文本一致性等未受影响。

进一步分析表明,这种“动态抑制”主要来源于输入图像中过早暴露的高频细节(如纹理、边缘等),导致模型在生成早期就“锁定”静态特征,形成一种“捷径轨迹”,阻碍了后续的动态演变。

方法:自适应低通引导(ALG)

为解决这一问题,KAIST 提出了一种名为 ALG(Adaptive Low-Pass Guidance) 的采样策略:

  • 核心思想:在去噪过程的早期阶段对输入图像进行低通滤波,减少高频细节的干扰;
  • 逐步恢复:随着采样步骤推进,逐步降低滤波强度,恢复图像细节;
  • 目标:让模型在生成初期更关注整体结构和运动趋势,后期再还原精细纹理。

这种方法无需对模型进行任何修改或重新训练,是一种即插即用的增强方案。

示例对比

以一张静态的飞机图片和提示“飞机在天空中飞行”为例:

  • 传统 I2V 模型:生成的视频中飞机几乎静止。
  • 使用 ALG 后:生成的视频中飞机在天空中动态飞行,视觉效果更自然,同时仍与原始图像高度一致。

核心优势

✅ 增强动态性

  • 在多个 I2V 模型上测试,动态度平均提升 36%
    • CogVideoX:64.2% → 82.5%
    • Wan 2.1:28.9% → 41.5%
    • HunyuanVideo:88.2% → 92.7%
    • LTX-Video:12.6% → 21.1%

✅ 保持图像质量

  • 图像主体和背景一致性与原始方法相当。

✅ 保持文本对齐

  • 视频内容与提示词高度匹配,无语义偏移。

✅ 无需额外训练

  • ALG 是一种采样阶段的优化方法,适用于任何 I2V 模型,无需重新训练。

适用模型广泛

ALG 已在多个主流 I2V 模型上验证其效果,包括:

  • CogVideoX
  • Wan 2.1
  • HunyuanVideo
  • LTX-Video

这些模型在使用 ALG 后,均表现出显著的动态性提升,证明了该方法的广泛适用性

© 版权声明

相关文章

暂无评论

none
暂无评论...