韩国科学技术院提出 ALG 方法：显著提升图生视频模型的动态性

164 0

图像到视频（Image-to-Video, I2V）模型近年来取得了长足进展，能够根据一张静态图像和文本提示生成动态视频，实现更强的视觉控制。然而，研究发现，这类模型往往生成的视频过于静态，动态性远不如其文本到视频（T2V）版本。

项目主页：https://choi403.github.io/ALG
GitHub：https://github.com/choi403/ALG

韩国科学技术院（KAIST）的研究人员深入分析了这一问题，并提出了一种简单但有效的新方法：自适应低通引导（Adaptive Low-Pass Guidance, ALG）。该方法在不修改模型结构或重新训练的前提下，显著提升了视频的动态性，同时保持了图像质量和文本对齐。

问题：I2V 模型为何生成的视频太“静态”？

当前主流的 I2V 模型大多基于 T2V 架构适配而来。虽然这些模型在视觉控制方面表现优异，但它们生成的视频常常缺乏动态感，即使提示词中包含运动描述。

研究人员通过对比 T2V 和 I2V 模型的生成结果发现：

动态度显著下降：例如在 Wan 2.1 模型中，I2V 的动态度下降了 18.6%。
其他质量指标稳定：如图像质量、文本一致性等未受影响。

进一步分析表明，这种“动态抑制”主要来源于输入图像中过早暴露的高频细节（如纹理、边缘等），导致模型在生成早期就“锁定”静态特征，形成一种“捷径轨迹”，阻碍了后续的动态演变。

方法：自适应低通引导（ALG）

为解决这一问题，KAIST 提出了一种名为 ALG（Adaptive Low-Pass Guidance） 的采样策略：

核心思想：在去噪过程的早期阶段对输入图像进行低通滤波，减少高频细节的干扰；
逐步恢复：随着采样步骤推进，逐步降低滤波强度，恢复图像细节；
目标：让模型在生成初期更关注整体结构和运动趋势，后期再还原精细纹理。

这种方法无需对模型进行任何修改或重新训练，是一种即插即用的增强方案。

示例对比

以一张静态的飞机图片和提示“飞机在天空中飞行”为例：

传统 I2V 模型：生成的视频中飞机几乎静止。
使用 ALG 后：生成的视频中飞机在天空中动态飞行，视觉效果更自然，同时仍与原始图像高度一致。

核心优势

✅ 增强动态性

在多个 I2V 模型上测试，动态度平均提升 36%：
- CogVideoX：64.2% → 82.5%
- Wan 2.1：28.9% → 41.5%
- HunyuanVideo：88.2% → 92.7%
- LTX-Video：12.6% → 21.1%

✅ 保持图像质量

图像主体和背景一致性与原始方法相当。

✅ 保持文本对齐

视频内容与提示词高度匹配，无语义偏移。

✅ 无需额外训练

ALG 是一种采样阶段的优化方法，适用于任何 I2V 模型，无需重新训练。

适用模型广泛

ALG 已在多个主流 I2V 模型上验证其效果，包括：

CogVideoX
Wan 2.1
HunyuanVideo
LTX-Video

这些模型在使用 ALG 后，均表现出显著的动态性提升，证明了该方法的广泛适用性。

视频模型 # ALG # 图生视频

文章版权归作者所有，未经允许请勿转载。

字节跳动推出视频生成模型 Seedance 1.0，视频生成迈入“电影级”体验

视频模型 # Seedance 1.0 # 字节跳动 # 视频生成模型

9个月前

03020

MoLingo：通过语义对齐潜在空间实现高保真文本到动作生成

视频模型 # MoLingo # 动作生成

3个月前

0830

StreamDiT：实现实时流式文本到视频生成的新一代扩散模型

视频模型 # StreamDiT # 流式视频生成模型

8个月前

03590

Rhymes AI开源视频生成模型Allegro：从简单的文本提示生成高质量的 6 秒视频

视频模型 # Allegro # Rhymes AI # 视频生成模型

1年前

04410

暂无评论

暂无评论...

韩国科学技术院提出 ALG 方法：显著提升图生视频模型的动态性

问题：I2V 模型为何生成的视频太“静态”？

方法：自适应低通引导（ALG）

示例对比

核心优势

✅ 增强动态性

✅ 保持图像质量

✅ 保持文本对齐

✅ 无需额外训练

适用模型广泛

PUSA V1.0：以500 美元成本超越 WAN-I2V-14B 的高效视频生成模型

LightX2V：轻量级视频生成推理框架，统一支持多种模态输入

相关文章

字节跳动推出视频生成模型 Seedance 1.0，视频生成迈入“电影级”体验

MoLingo：通过语义对齐潜在空间实现高保真文本到动作生成

StreamDiT：实现实时流式文本到视频生成的新一代扩散模型

Rhymes AI开源视频生成模型Allegro：从简单的文本提示生成高质量的 6 秒视频

暂无评论

文章

谷歌 Gemini 新增 GitHub 集成：代码分析更轻松，但挑战犹存

ComfyUI 中使用 FLUX.1 Kontext Dev 进行图像编辑的原生工作流指南

ComfyUI-CRZnodes：为工作流打造简洁可控的仪表板节点

新型3D生成模型LN3Diff：快速生成高质量的3D对象

新型文生图框架SANA：能够高效地生成高达4096×4096分辨率的高清晰度图像

ComfyUI-Copilot：阿里开发的ComfyUI智能助手，让 ComfyUI 更强大！

S.H.I.T

新悟空

Meshy

新OpenMAIC

CutCut

Yihen-Drama

韩国科学技术院提出 ALG 方法：显著提升图生视频模型的动态性

问题：I2V 模型为何生成的视频太“静态”？

方法：自适应低通引导（ALG）

示例对比

核心优势

✅ 增强动态性

✅ 保持图像质量

✅ 保持文本对齐

✅ 无需额外训练

适用模型广泛

PUSA V1.0：以500 美元成本超越 WAN-I2V-14B 的高效视频生成模型

LightX2V：轻量级视频生成推理框架，统一支持多种模态输入

相关文章

文章

标签云

网址

S.H.I.T

新悟空

Meshy

新OpenMAIC

CutCut

Yihen-Drama