VibeVoice-ComfyUI ：将微软高质量TTS模型VibeVoice深度集成至 ComfyUI

插件6个月前更新小马良

486 0

VibeVoice-ComfyUI 是一款文本转语音（TTS）插件，将微软最新的 VibeVoice 语音合成模型深度集成至 ComfyUI 工作流中。

它不仅支持自然流畅的单人语音生成，更实现了 多说话者对话合成、语音克隆、长文本分块处理 等关键功能，并原生支持 Apple Silicon GPU 加速与低显存量化模型，让高质量语音生成真正融入视觉创作流程。

GitHub：https://github.com/Enemyx-net/VibeVoice-ComfyUI

无论你是制作播客、动画配音、AI角色对话，还是构建自动化叙事系统，现在都可以在一个统一的工作流中完成“文 → 图 → 声”的全链路生成。

VibeVoice-1.5B：微软开源TTS框架，可生成4人60分钟长对话音频

VibeVoice-ComfyUI ：将微软高质量TTS模型VibeVoice深度集成至 ComfyUI

核心能力：不只是“朗读文字”

单人语音合成 + 可选语音克隆

输入一段文本，即可生成高度拟人化的语音输出。
支持从音频样本中提取声纹特征，实现个性化语音克隆（需30秒以上清晰语音）。

适用于：

角色旁白
教学录音
AI主播生成

多说话者对话合成（最多4人）

这是本插件最具实用价值的功能之一。
通过简单的标签语法 [1]:、[2]:，即可定义不同角色发言：

[1]: 你看到最新的AI进展了吗？
[2]: 是的，非常令人印象深刻！
[1]: 我认为语音合成已经取得了很大进步。

每个角色可独立绑定语音样本，确保声音特征一致且易于区分。非常适合：

动画对白
虚拟会议模拟
多角色故事叙述

推荐使用 VibeVoice-Large 模型以获得最佳多说话者表现

长文本自动分块 + 自定义暂停控制

传统TTS模型常受限于上下文长度，难以处理长脚本。VibeVoice-ComfyUI 提供两项关键优化：

✅ 自动文本分块：可配置每段最大字数（默认250词），无缝拼接输出
✅ 自定义静音标签：支持 [pause]（1秒）和 [pause:ms]（如 [pause:2000] 表示2秒）

⚠️ 注意：暂停会打断上下文连续性，建议在句尾或段落间使用

节点化工作流：与ComfyUI生态无缝协同

所有功能均以标准节点形式提供，支持：

文本文件加载（.txt）
多个 TTS 节点串联
音频输出连接至保存、播放或其他处理模块

三种模型选择：速度、质量、资源自由平衡

模型	显存需求	特点	适用场景
VibeVoice-1.5B	~8GB	快速推理，低资源占用	快速原型、单人任务
VibeVoice-Large	~17GB	最高质量，最佳多说话者表现	生产级输出
VibeVoice-Large-Quant-4Bit	~7GB	4位量化，质量损失小	低显存设备部署

所有模型首次使用时自动下载并缓存至 ComfyUI/models/vibevoice/，后续运行无需重复下载。

性能与兼容性：跨平台高效运行

✅ 支持多种后端加速

CUDA（NVIDIA GPU）
MPS（Apple M1/M2/M3 芯片原生支持）
CPU（无GPU也可运行）

✅ 内存管理精细可控

生成后自动清理显存（可关闭）
提供专用 “释放内存”节点，用于复杂工作流中的手动资源回收

✅ 兼容主流环境

Python 3.8+ / PyTorch 2.0+
Transformers ≥ v4.51.3
Windows、Linux、macOS 全平台支持

安装与使用指南

安装步骤（推荐方式）

cd ComfyUI/custom_nodes
git clone https://github.com/Enemyx-net/VibeVoice-ComfyUI

重启 ComfyUI，首次使用时自动安装依赖包。

主要节点说明

节点名称	功能
`VibeVoice文本文件加载`	从 .txt 文件读取文本内容
`VibeVoice单人语音`	单角色语音合成，支持语音克隆
`VibeVoice多说话者`	支持最多4个角色的对话合成
`VibeVoice释放内存`	手动卸载模型以释放资源

参数调优建议

扩散步数（diffusion_steps）：默认20，提升可改善音质但增加耗时
引导尺度 cfg_scale：1.0–2.0，推荐1.3，控制语音表现力
种子 seed：固定种子可复现相同语音结果，便于调试

⚠️ 当前限制：

多说话者最多支持4人
中英文效果最佳，其他语言可能不稳定
不支持背景音乐叠加或音效控制

更新历史

版本 1.6.0

重大变更：移除了从 HuggingFace 自动下载模型的功能

模型现在必须手动下载并放置在 ComfyUI/models/vibevoice/ 目录下
动态模型下拉菜单，每次浏览器刷新时都会扫描可用模型
支持自定义文件夹名称和 HuggingFace 缓存结构
从配置文件自动检测量化模型
用户对模型管理有更好的控制权
消除了私有 HuggingFace 仓库的认证问题

改进的日志系统：

优化日志记录以减少控制台杂乱信息
更清晰的输出，提供更好的用户体验

版本 1.5.0

新增语音速度控制功能，用于调整语速
在单说话人和多说话人节点中均新增 voice_speed_factor 参数
对参考音频应用时间拉伸以影响输出语速
范围：0.8 至 1.2，步长为 0.01
推荐范围：0.95 至 1.05，以获得自然效果
使用 20 秒以上的参考音频可获得最佳效果

插件 # TTS # VibeVoice # 微软

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

微软测试 Copilot 学习模式：新导师“Mico”登场

微软测试 Copilot 学习模式：新导师“Mico”登场

早报 # Copilot # 学习模式 # 微软

5个月前

01140

在2025年年度Build大会上：微软推出50多种AI工具，打造“智能代理网络”

在2025年年度Build大会上：微软推出50多种AI工具，打造“智能代理网络”

早报 # AI工具 # 微软

10个月前

02080

ComfyUI-TwinFlow：加速Qwen-Image、Z-Image生成速度，兼容 LoRA 与 ControlNet

ComfyUI-TwinFlow：加速Qwen-Image、Z-Image生成速度，兼容 LoRA 与 ControlNet

插件 # ComfyUI-TwinFlow # Qwen-Image # Z-Image

3个月前

0510

ComfyUI-SAM3DObjects节点详解：单图生成3D模型，支持多格式导出与可视化

ComfyUI-SAM3DObjects节点详解：单图生成3D模型，支持多格式导出与可视化

插件 # ComfyUI-SAM3DObjects

4个月前

01740

暂无评论

none

暂无评论...