Wan2.1_14B_FusionX

1,704 00

Wan2.1_14B_FusionX 是一款基于Wan2.1的融合模型,实现更快、更丰富的运动与细节,最少仅需8个步骤!它不仅提升了生成效率,还在细节表现、运动质量和风格多样性方面做了深度优化,是目前最接近“电影级 AI 视频”的开源模型之一。

作者
vrgamedevgirl
基础模型
Wan2.1
系列
Wan2.1_14B_FusionX

如果你正在寻找一款性能强劲、细节丰富且速度更快的视频生成模型模型,那么你一定不能错过这款新发布的融合模型

Wan2.1_14B_FusionX

这是在 WAN 2.1 基础上进一步优化的新版本,通过融合多个研究级模型,在运动质量、场景一致性、视觉细节等方面实现了显著提升,甚至可媲美部分闭源模型。

🔍 模型亮点一览

特性描述
✅ 高时间一致性支持标准提示词 + 负面提示词设置,确保画面连贯自然
✅ 快速渲染渲染速度比原版快达 50%,尤其在启用 SageAttn 时效果显著
✅ 电影级细节引入 MoviiGen1.1 提升光影表现,带来更真实的视觉体验
✅ 兼容性强完全兼容 VACE,特别适配 ComfyUI 及 Kaji Wan Wrapper
✅ 更低步骤数最少仅需 6 步即可生成视频,推荐 8–10 步以获得最佳质量

🧠 融合了哪些模型?

Wan2.1_14B_FusionX 并非单一模型,而是由多个高质量子模型融合而成,各组件分工明确:

  • CausVid:因果运动建模,提升动态流畅度和场景过渡;
  • AccVideo:增强时间对齐与真实感,加快处理速度;
  • MoviiGen1.1:电影级光影与动作优化,让画面更具“大片感”;
  • MPS Reward LoRA:专为运动细节与纹理锐化设计;
  • 自定义 LoRAs:强化面部细节、清晰度与整体质感。

这些模型协同工作,使得最终输出的视频不仅速度快,而且在细节表现和动作连贯性上远超原版 WAN 2.1。

⚙️ 使用建议:关键参数设置指南

📝 文本到视频(Text-to-Video)

  • CFG(无分类器引导):必须设为 1,高于此值会导致画质下降。
  • Shift 值
    • 1024x576 分辨率 → 推荐从 1 开始
    • 1080x720 分辨率 → 推荐从 2 开始
    • 真实感优先 → 使用较低 Shift(1-2)
    • 风格化需求高 → 尝试较高 Shift(3-9)
  • 调度器(Scheduler)
    • 推荐使用 Uni_pc  flowmatch_causvid,后者有助于提升细节表现。

🖼 图像到视频(Image-to-Video)

  • CFG:同样保持为 1
  • Shift:建议设为 2,可根据需求实验调整
  • 调度器:推荐使用 dmp++_sde/beta
  • 帧数与帧率建议
    • 设置 121 帧 / 24 FPS 可显著提升动态流畅度,减少慢动作感

🚀 性能与效率优化建议

  • 最低步骤数:6 步可用于草稿预览,速度极快
  • 最佳质量步数:8–10 步,兼顾质量与效率
  • SageAttn 加速:启用后可提升 30% 的生成速度(仅限 Kaji Wan Wrapper)
  • 显存优化策略
    • 启用 块交换(block swapping),初始建议设置为 5 块
    • 若显存不足,可选择 GGUF 模型,但注意其生成时间会略长于 FP16 模型

🧪 推荐工具链与插件

  • Kaji Wan Wrapper 自定义节点https://github.com/kijai/ComfyUI-WanVideoWrapper
    • 优化性能,支持 SageAttn,生成效率更高
  • ComfyUI 原生 WAN 工作流
    • 效果与 Wrapper 相当,但生成速度略慢
  • 其他 LoRAs 支持:可叠加风格类 LoRAs,进一步定制画面风格
  • 不建议重复添加:CausVid、AccVideo 和 MPS Reward LoRAs 已内置,重复加载可能导致异常结果

🧩 工作流说明与获取方式

目前已有以下工作流支持:

  • Phantom 工作流(即将发布):支持最多 4 张参考图像合成视频
  • I2V Phantom 模型:已发布,适用于图像驱动视频生成
  • GGUF 模型:提供多种选项,适合不同显存配置用户

👉 所有工作流文件可在此项目页面下载,并直接拖入 ComfyUI 中使用。

相关图书

Sigma Face Expression

Sigma Face Expression

Sigma Face Expression 是一个典型的“小而精”风格 LoRA,虽不具备广泛适用性,但在特定场景下能带来意想不到的趣味效果。
Aether Crash Zoom

Aether Crash Zoom

Aether Crash Zoom 是一个专为 Wan 2.2 5B (i2v) 模型设计的轻量适配 LoRA,旨在实现一种极具张力的视觉效果——从远距离构图中突然高速推进,聚焦于远处主体。
Flat Color - Style

Flat Color - Style

Flat Color - Style 是由作者 motimalu 开发的一系列LoRA模型,专为生成没有可见线稿、平面色彩且几乎没有深度感的图像而设计。
Studio Ghibli Style

Studio Ghibli Style

Studio Ghibli Style是一款吉卜力风Wan2.1-T2V-14B Lora,使用训练工具musubi-tuner ,使用 240 个剪辑和 120 张图像的混合数据集进行了 ~90 小时的训练而成。

暂无评论

none
暂无评论...