在 AI 音频生成领域,高质量的文本转语音(TTS)系统正从“能说”向“会表达”演进。近期,由 B站IndexTeam 推出的 IndexTTS-2 因其出色的语音克隆能力与细粒度情感控制机制受到关注。而现在,社区开发者已将其集成至 ComfyUI 生态,推出了轻量级封装插件 —— ComfyUI-IndexTTS2。
该节点不仅保留了原始仓库的完整行为,还实现了可视化工作流调用,支持语音克隆、多维情感调节、文本驱动情绪识别等功能,适用于角色配音、有声书制作、虚拟主播等场景。
安装步骤:两步部署,快速启用节点
ComfyUI-IndexTTS2的安装流程简洁明了,主要分为“部署节点文件”与“安装依赖”两步,操作前建议确保ComfyUI处于关闭状态,避免文件冲突:
步骤1:克隆仓库到指定目录
首先需将ComfyUI-IndexTTS2的仓库文件,部署到ComfyUI的自定义节点目录中:
打开终端或文件管理器,将目标仓库克隆至 ComfyUI/custom_nodes/ 路径下(若使用终端,可执行类似 git clone [仓库地址] ComfyUI/custom_nodes/ComfyUI-IndexTTS2 的命令,具体仓库地址需参考官方提供链接),确保文件夹结构完整。
步骤2:安装依赖库
节点运行需依赖特定版本的库文件,需在ComfyUI对应的Python环境中执行安装:
- 激活ComfyUI的Python环境(若为便携版,可通过ComfyUI自带的终端脚本启动环境;若为自定义安装,需手动激活虚拟环境);
- 进入
ComfyUI/custom_nodes/ComfyUI-IndexTTS2目录; - 执行命令
pip install -r requirements.txt,等待依赖安装完成。

重要注意事项
安装依赖时需特别留意:此节点的部分依赖库限定了特定版本,可能与你当前ComfyUI环境中已安装的依赖版本冲突(例如部分AI框架、音频处理库等)。若安装过程中出现“版本冲突”提示,建议优先查看官方文档是否有兼容方案,或考虑为该节点创建独立的Python环境,避免影响ComfyUI其他功能的正常使用。
模型(检查点)部署:按结构放置,确保节点正常调用
模型文件是节点实现语音克隆与情感控制的核心,需从指定地址下载并按原始结构放置,具体操作如下:
1. 下载模型文件
访问Hugging Face的IndexTTS-2官方仓库(地址:https://huggingface.co/IndexTeam/IndexTTS-2/tree/main),下载仓库内的**所有文件及子文件夹**,包括配置文件、权重文件等,不可遗漏关键组件。
2. 按指定结构放置
在 ComfyUI/custom_nodes/ComfyUI-IndexTTS2/ 目录下,手动创建 checkpoints/ 文件夹,然后将下载的所有模型文件及子文件夹,按原始仓库的结构完整放入 checkpoints/ 中。最终正确的文件夹布局如下:
ComfyUI/custom_nodes/ComfyUI-IndexTTS2/
nodes/ # 节点核心代码目录(默认自带)
checkpoints/ # 手动创建的模型存放目录
config.yaml # 模型配置文件
gpt.pth # GPT权重文件
s2mel.pth # 声码器相关权重文件
bpe.model # 分词模型文件
feat1.pt # 特征提取相关文件1
feat2.pt # 特征提取相关文件2
wav2vec2bert_stats.pt # 音频特征统计文件
qwen0.6bemo4-merge/ # 情感文本解析模型目录(仅“Text -> Emotion”节点需用到)
若模型文件放置路径或结构错误,节点将无法正常加载模型,导致语音生成失败,因此需仔细核对文件位置。
核心节点解析:3类节点覆盖语音生成全需求
ComfyUI-IndexTTS2提供了3个核心节点,分别对应“基础语音生成”“情感向量调节”“文本转情感向量”场景,可根据创作需求灵活组合使用:

1. IndexTTS2 Simple:基础语音生成与情感控制
该节点是实现“语音克隆+情感控制”的核心,支持多种输入方式调节情感,输出可直接用于预览或保存。
- 输入参数:
audio (speaker):用于克隆声线的参考音频(即“说话人音频”),决定生成语音的基础音色;text:需转换为语音的文本内容(支持段落输入);emotion_control_weight (0.0-1.0):情感控制权重,数值越高,情感调节效果越明显;emotion_audio (可选):用于提取情感的参考音频(若提供,将基于该音频的情感风格调节生成语音);emotion_vector (可选):情感向量(由其他情感节点生成,优先级最高)。
- 输出结果:
AUDIO:生成的语音音频流,可直接连接“Preview Audio”节点预览,或连接“Save Audio”节点保存为本地文件;STRING:情感来源消息(提示当前使用的情感输入方式,如“情感来自emotion_vector”“情感来自emotion_audio”等,便于排查问题)。
- 关键特性:
- 设备自动检测:可自动识别当前环境(CPU/CUDA),在CUDA环境下将以FP16精度运行,兼顾速度与质量;
- 段落暂停:段落之间默认添加200ms固定暂停,提升语音连贯性;
- 情感优先级:
emotion_vector>emotion_audio>audio (speaker)(即若同时提供多种情感输入,将优先按优先级高的方式调节情感)。
2. IndexTTS2 Emotion Vector:手动调节情感向量
该节点通过8个滑块手动控制情感维度,生成精准的情感向量,适用于需要精细调节情感风格的场景。
- 调节维度(共8项,取值范围均为0.0-1.4):
happy(开心)、angry(愤怒)、sad(悲伤)、afraid(恐惧)、disgusted(厌恶)、melancholic(忧郁)、surprised(惊讶)、calm(平静);
- 约束条件:8个滑块的数值总和必须 ≤ 1.5(节点无自动缩放功能,若超出限制,将无法正常生成情感向量);
- 输出结果:
EMOTION_VECTOR(可直接连接到IndexTTS2 Simple节点的emotion_vector输入口,用于控制语音情感)。
3. IndexTTS2 Emotion From Text:文本转情感向量
该节点支持通过“简短描述性文本”生成情感向量,无需手动调节滑块,适用于快速匹配文本描述情感的场景。
- 输入参数:
简短描述性文本(例如“兴奋地宣布好消息”“温柔地安慰他人”等,文本越具体,情感匹配越精准); - 依赖条件:需安装
modelscope库,并确保checkpoints/qwen0.6bemo4-merge/目录下的本地QwenEmotion模型文件完整(若缺少该模型,节点将无法运行); - 输出结果:
EMOTION_VECTOR(可连接到IndexTTS2 Simple节点的emotion_vector输入口);STRING 摘要(对输入文本的情感解析摘要,提示当前情感的核心倾向)。
实用示例:4类工作流组合,覆盖常见场景
根据不同需求,可将上述节点灵活组合为4类基础工作流,快速实现语音生成:
| 应用场景 | 工作流组合方式 | 核心优势 |
|---|---|---|
| 基础语音克隆 | Load Audio(加载说话人音频)→ IndexTTS2 Simple → Preview/Save Audio | 快速克隆声线,生成基础语音 |
| 基于音频的情感控制 | Load Audio(说话人) + Load Audio(情感参考)→ IndexTTS2 Simple → Save Audio | 复用现有音频情感,风格匹配快 |
| 手动精细情感调节 | IndexTTS2 Emotion Vector → IndexTTS2 Simple → Save Audio | 情感维度可控,调节精度高 |
| 文本驱动的情感生成 | IndexTTS2 Emotion From Text → IndexTTS2 Simple → Save Audio | 无需音频参考,文本直接控情感 |
故障排除:常见问题及解决方法
目前ComfyUI-IndexTTS2仅在Windows系统中测试验证,使用过程中若遇到以下问题,可按对应方法排查:
- 情感向量总和超过最大1.5:
问题表现:IndexTTS2 Emotion Vector节点无法生成向量,或提示“情感数值超限”。
解决方法:降低一个或多个情感滑块的数值,确保总和≤1.5;若使用IndexTTS2 Emotion From Text节点,可简化输入文本的情感描述,减少情感维度的叠加。 - BigVGAN内核相关提示:
问题表现:运行节点时出现“BigVGAN自定义CUDA内核禁用”提示。
解决方法:该提示为正常情况,节点将自动回退到PyTorch原生操作运行,不影响语音生成功能,无需额外处理。 - 模型加载失败:
问题表现:节点提示“找不到模型文件”或“模型结构错误”。
解决方法:核对checkpoints/文件夹的路径是否正确(需在ComfyUI-IndexTTS2目录下),且内部文件结构与官方仓库完全一致,若有缺失或路径错误,需重新下载并放置。 - 依赖版本冲突:
问题表现:安装依赖时提示“version conflict”,或运行节点时出现“模块版本不兼容”错误。
解决方法:查看requirements.txt中冲突库的指定版本,尝试在ComfyUI独立环境中安装该版本;若仍无法解决,可参考官方文档是否有兼容更新,或暂时停用与该节点冲突的其他ComfyUI扩展。
通过以上指南,即可完成ComfyUI-IndexTTS2的部署与使用,无论是基础语音克隆还是精细化情感控制,都能在ComfyUI工作流中高效实现,为AI语音生成场景提供更多可能性。















