VibeVoice-ComfyUI :将微软高质量TTS模型VibeVoice深度集成至 ComfyUI

插件2个月前更新 小马良
313 0

VibeVoice-ComfyUI 是一款文本转语音(TTS)插件,将微软最新的 VibeVoice 语音合成模型深度集成至 ComfyUI 工作流中。

它不仅支持自然流畅的单人语音生成,更实现了 多说话者对话合成、语音克隆、长文本分块处理 等关键功能,并原生支持 Apple Silicon GPU 加速与低显存量化模型,让高质量语音生成真正融入视觉创作流程。

无论你是制作播客、动画配音、AI角色对话,还是构建自动化叙事系统,现在都可以在一个统一的工作流中完成“文 → 图 → 声”的全链路生成。

VibeVoice-1.5B:微软开源TTS框架,可生成4人60分钟长对话音频

VibeVoice-ComfyUI :将微软高质量TTS模型VibeVoice深度集成至 ComfyUI

核心能力:不只是“朗读文字”

单人语音合成 + 可选语音克隆

输入一段文本,即可生成高度拟人化的语音输出。
支持从音频样本中提取声纹特征,实现个性化语音克隆(需30秒以上清晰语音)。

适用于:

  • 角色旁白
  • 教学录音
  • AI主播生成

多说话者对话合成(最多4人)

这是本插件最具实用价值的功能之一。
通过简单的标签语法 [1]:[2]:,即可定义不同角色发言:

[1]: 你看到最新的AI进展了吗?
[2]: 是的,非常令人印象深刻!
[1]: 我认为语音合成已经取得了很大进步。

每个角色可独立绑定语音样本,确保声音特征一致且易于区分。非常适合:

  • 动画对白
  • 虚拟会议模拟
  • 多角色故事叙述

推荐使用 VibeVoice-Large 模型以获得最佳多说话者表现

长文本自动分块 + 自定义暂停控制

传统TTS模型常受限于上下文长度,难以处理长脚本。VibeVoice-ComfyUI 提供两项关键优化:

✅ 自动文本分块:可配置每段最大字数(默认250词),无缝拼接输出
✅ 自定义静音标签:支持 [pause](1秒)和 [pause:ms](如 [pause:2000] 表示2秒)

⚠️ 注意:暂停会打断上下文连续性,建议在句尾或段落间使用

节点化工作流:与ComfyUI生态无缝协同

所有功能均以标准节点形式提供,支持:

  • 文本文件加载(.txt)
  • 多个 TTS 节点串联
  • 音频输出连接至保存、播放或其他处理模块

三种模型选择:速度、质量、资源自由平衡

模型显存需求特点适用场景
VibeVoice-1.5B~8GB快速推理,低资源占用快速原型、单人任务
VibeVoice-Large~17GB最高质量,最佳多说话者表现生产级输出
VibeVoice-Large-Quant-4Bit~7GB4位量化,质量损失小低显存设备部署

所有模型首次使用时自动下载并缓存至 ComfyUI/models/vibevoice/,后续运行无需重复下载。

性能与兼容性:跨平台高效运行

✅ 支持多种后端加速

  • CUDA(NVIDIA GPU)
  • MPS(Apple M1/M2/M3 芯片原生支持)
  • CPU(无GPU也可运行)

✅ 内存管理精细可控

  • 生成后自动清理显存(可关闭)
  • 提供专用 “释放内存”节点,用于复杂工作流中的手动资源回收

✅ 兼容主流环境

  • Python 3.8+ / PyTorch 2.0+
  • Transformers ≥ v4.51.3
  • Windows、Linux、macOS 全平台支持

安装与使用指南

安装步骤(推荐方式)

cd ComfyUI/custom_nodes
git clone https://github.com/Enemyx-net/VibeVoice-ComfyUI

重启 ComfyUI,首次使用时自动安装依赖包。

主要节点说明

节点名称功能
VibeVoice文本文件加载从 .txt 文件读取文本内容
VibeVoice单人语音单角色语音合成,支持语音克隆
VibeVoice多说话者支持最多4个角色的对话合成
VibeVoice释放内存手动卸载模型以释放资源

参数调优建议

  • 扩散步数(diffusion_steps):默认20,提升可改善音质但增加耗时
  • 引导尺度 cfg_scale:1.0–2.0,推荐1.3,控制语音表现力
  • 种子 seed:固定种子可复现相同语音结果,便于调试

⚠️ 当前限制

  • 多说话者最多支持4人
  • 中英文效果最佳,其他语言可能不稳定
  • 不支持背景音乐叠加或音效控制

更新历史

版本 1.6.0

重大变更:移除了从 HuggingFace 自动下载模型的功能

  • 模型现在必须手动下载并放置在 ComfyUI/models/vibevoice/ 目录下
  • 动态模型下拉菜单,每次浏览器刷新时都会扫描可用模型
  • 支持自定义文件夹名称和 HuggingFace 缓存结构
  • 从配置文件自动检测量化模型
  • 用户对模型管理有更好的控制权
  • 消除了私有 HuggingFace 仓库的认证问题

改进的日志系统:

  • 优化日志记录以减少控制台杂乱信息
  • 更清晰的输出,提供更好的用户体验

版本 1.5.0

  • 新增语音速度控制功能,用于调整语速
  • 在单说话人和多说话人节点中均新增 voice_speed_factor 参数
  • 对参考音频应用时间拉伸以影响输出语速
  • 范围:0.8 至 1.2,步长为 0.01
  • 推荐范围:0.95 至 1.05,以获得自然效果
  • 使用 20 秒以上的参考音频可获得最佳效果
© 版权声明

相关文章

暂无评论

none
暂无评论...