ltx-video-0.9-vae-finetune:基于 LTX Video 0.9 VAE 进行的微调VAE模型

ltx-video-0.9-vae-finetune 是由开发者 spacepxl 基于 LTX Video 0.9 VAE 进行的微调VAE模型,旨在解决该模型中常见的棋盘伪影问题。通过专注于解码器的微调,并对编码器进行有限的训练,spacepxl 成功减少了伪影的强度,尽管未能完全消除它们。此系列VAE不仅支持0.9版模型也支持0.91版模型。

微调策略

  1. 解码器微调:主要的微调工作集中在解码器上,以防止潜在空间发生变化。通过这种方式,可以在不改变潜在表示的情况下,改进生成图像的质量,特别是减少棋盘伪影。
  2. 编码器有限训练:在解码器微调完成后,对编码器进行了有限的训练,同时冻结了解码器。这一阶段的目的是进一步减少伪影,同时尽量减少对潜在空间的影响。由于编码器中使用了跨步卷积(strided convolutions),以及解码器中的像素洗牌上采样(pixel-shuffle upsampling),这些操作可能会引入或加剧伪影,因此需要谨慎处理。

模型版本

LTX Video 0.9 VAE微调模型提供了两个版本,用户可以根据需求选择:

  1. ltx-video-v0.9-vae_finetune_decoder.safetensors仅包含微调解码器和原始编码器。这个版本适合那些希望在保持原有编码器行为的同时,享受解码器微调带来的伪影减少效果的用户。
  2. ltx-video-v0.9-vae_finetune_all.safetensors同时包含微调解码器和微调编码器。更改编码器会略微改变使用 i2v(image-to-video)生成的视频结果,但仍与扩散模型兼容。这个版本适合那些愿意接受轻微变化的潜在空间,以获得更好的整体生成质量的用户。

微调效果

  • 伪影减少:微调部分成功地减少了棋盘伪影的强度,特别是在解码器微调后,生成图像的质量得到了显著提升。
  • 未完全消除:尽管取得了进展,但由于编码器和解码器中使用的特定架构(如跨步卷积和像素洗牌上采样),这些伪影仍然难以完全消除。更多关于伪影成因的详细解释可以参考相关文章。

许可证与未来更新

  • 许可证:该模型的许可证与原始 LTX Video 0.9 VAE 保持一致。目前,模型仍遵循非商业许可。
  • 未来更新:一旦 Lightricks 兑现其承诺,在商业许可下发布模型,开发者将更新许可证并公开训练代码。这将为社区提供更多的透明度和灵活性,便于其他研究者和开发者在此基础上进行进一步的改进。

使用建议

  • 选择合适的版本:根据您的具体需求选择合适的模型版本。如果您希望保持原有的编码器行为,建议使用 ltx-video-v0.9-vae_finetune_decoder.safetensors;如果您愿意接受轻微的潜在空间变化以获得更好的生成质量,可以选择 ltx-video-v0.9-vae_finetune_all.safetensors
  • 注意伪影问题:虽然微调减少了伪影,但并未完全消除。在使用过程中,您可能仍然会遇到一些残留的伪影,特别是在复杂场景或高分辨率生成中。
0

评论0

没有账号?注册  忘记密码?