H1111:面向 Wan2.2 / FramePack / MultiTalk 的专业视频生成图形界面
H1111:面向 Wan2.2 / FramePack / MultiTalk 的专业视频生成图形界面

H1111:面向 Wan2.2 / FramePack / MultiTalk 的专业视频生成图形界面最新版

官方版无广告5

H1111 不是一个“一键生成”的玩具,而是一个面向专业用户的视频生成工作站。它将 musubi-tuner 的强大能力封装为图形界面,同时通过 RamTorch、FP8、Block Swapping 等技术,让高质量视频生成在消费级显卡上成为可能。

更新日期:
2025年12月8日
语言:
中文
平台:

0 人已下载 手机查看

H1111 是一个为 kohya-ss/musubi-tuner 推理脚本打造的图形化前端,专为高性能、高画质视频生成设计。它不仅支持主流视频模型,还集成了显存优化、LoRA 管理、多任务队列等实用功能,是当前最完整的本地视频生成工具之一。

H1111

支持的模型家族

H1111 当前支持以下视频模型的推理:

  • WanX 系列(T2V / I2V / V2V)
  • Hunyuan 系列(T2V / I2V / V2V)
  • FramePack(基于 Hunyuan I2V 的增强实现)
  • SkyReels-V2(Wan2.1 微调版)
  • MultiTalk(音频驱动多角色对话视频)

其中,Wan2.2 是目前开发最活跃的主线,推荐使用两个分支:

  • wan2.2b:最稳定,适合日常使用
  • lightx2v:功能最全,支持 4 步 LoRA 快速生成

切换分支只需执行:

git switch wan2.2b   # 或 lightx2v

核心特性

1. 极致显存优化

  • Block Swapping:默认开启,有效降低显存峰值
  • FP8 + FP8 Scaled:在 24GB 显卡(如 RTX 4090)上可显著提速,同时保留关键 FP16 信息
  • RamTorch 集成(ramtorch 分支):
    通过 CPU-GPU 混合参数加载,显存占用大幅降低,实测比 Block Swapping 更快。
    → 使用时请勾选界面底部 “Use Bouncing Linear (Max VRAM Savings)”
    (感谢 Lodestone / RamTorch

2. 多任务并行

  • 支持多标签页队列,可同时提交多个不同任务(如不同提示、不同 LoRA),共用同一模型实例,提升 GPU 利用率。

3. LoRA 兼容与转换

  • 自动识别 /lora 文件夹中的 LoRA
  • 非 musubi 训练的 LoRA 必须先转换:使用内置 “Convert LoRA” 标签页,输出将自动保存至 /lora
  • 已验证兼容 LoRA:
    Wan2.1_I2V_14B_FusionX_LoRA.safetensors

模型使用指南

FramePack(Hunyuan I2V 增强版)

模型文件要求(放入 H1111/hunyuan/):

  • FramePackI2V_HY_bf16.safetensors(或 FramePack_F1_I2V_HY_20250503.safetensors
  • clip_l.safetensors
  • llava_llama3_fp16.safetensors
  • model.safetensors
  • pytorch_model.pt

下载地址:maybleMyers/framepack_h1111

使用建议

  • 仅支持 UniPC 采样器
  • 推荐使用 musubi 训练的 LoRA,普通 Hunyuan LoRA 效果不佳
  • 支持 4 张分段控制图(参考 images/sectional.png
  • 支持分段提示(用 ;;; 分隔):
0:A blue penguin runs into McDonalds.;;;1:He jumps on a table and eats...;;;2:He flexes his muscles.

性能参考(RTX 4090):

  • 最高画质(FP16 + SDPA + Block Swapping):~1分17秒/秒视频
  • 极速模式(FP8 Scaled + 关闭部分 swap):~3秒/迭代

详细文档:FramePack 使用说明

MultiTalk(音频驱动多角色对话)

模型文件要求(放入 H1111/wan/):

  1. wan2.1_i2v_480p_14B_fp16.safetensors(必须精确命名)
  2. multitalk.safetensors(来自 MeiGen-AI)
  3. chinese-wav2vec2-base/(音频编码器)

模型来源:

安装依赖

pip install -r requirementsMulti.txt

使用提示

  • 目前仅在 Linux 充分测试,Windows 安装较复杂
  • 显存设置:24GB 卡建议 Low VRAM = 5,48GB 卡设为 20
  • 生成速度慢:RTX 4090 生成 25 秒视频约需 7 小时
  • 支持 BBoxes 交互控制:在图像上框选“person 1”、“person 2”匹配音频角色

论文:Let Them Talk (arXiv:2505.22647)

SkyReels-V2 与 WanX

  • SkyReels-V2 模型已上传至 maybleMyers/wan_files_for_h1111
    • SkyReels-V2-I2V-14B-720P-FP16.safetensors
    • SkyReels-V2-I2V-14B-540P-FP16.safetensors
      → 直接放入 wan/ 文件夹,在 WanX-i2v 标签页使用
  • WanX 全套依赖(I2V/T2V)需手动下载 T5、CLIP、VAE、DiT 权重(详见项目说明)

安装与环境(Windows 推荐)

系统要求

  • Windows 10/11
  • Python 3.10
  • CUDA 12.8(支持 Torch 2.7.0)

安装命令(PowerShell)

python -m venv env
env\Scripts\activate
pip install typing-extensions
pip install torch==2.7.0+cu128 torchvision==0.22.0+cu128 --index-url https://download.pytorch.org/whl/cu128
pip install -r requirementsTorch27.txt
pip install -U "triton-windows<3.4"
pip install .\sageattention-2.1.1+cu128torch2.7.0-cp310-cp310-win_amd64.whl

Sage Attention 在 Windows 上需预编译 wheel,项目已提供。

画质 vs 速度:如何取舍?

目标推荐配置
最高画质FP16 完整模型 + SDPA Attention + Block Swapping
平衡速度FP8 + FP8 Scaled + 适度 Block Swapping
极限提速FP8 Scaled + Sage Attention + CFG Skip(画质有损)

项目设计哲学:优先保证画质,速度优化为辅

相关软件

暂无评论

none
暂无评论...