ComfyUI-LongCat-AudioDiT-TTS：在节点流中实现广播级零样本语音克隆

ComfyUI-LongCat-AudioDiT-TTS 是将美团最新开源的 LongCat-AudioDiT 模型原生集成到 ComfyUI 的自定义节点插件。它利用基于扩散变换器（DiT）的架构和 ODE 欧拉求解器，让你能在 ComfyUI 工作流中直接生成广播级质量（24kHz）的语音。

GitHub：https://github.com/Saganaki22/ComfyUI-LongCat-AudioDIT-TTS

该插件的核心优势在于零样本语音克隆能力：只需提供一段 3-15 秒的参考音频，即可完美复刻说话人的音色、语调和情感，无需任何微调。此外，它还支持通过简单的标签语法生成多说话人对话，让 AI 配音和有声书制作变得前所未有的简单高效。

LongCat-AudioDiT：美团开源的端到端语音合成模型，直接在波形潜空间生成高保真语音

ComfyUI-LongCat-AudioDiT-TTS：在节点流中实现广播级零样本语音克隆

核心功能亮点

1. 零样本语音克隆 (Zero-Shot Voice Cloning)

即插即用：上传任意短音频（推荐 3-15 秒），模型即可提取声纹特征。
高保真复刻：精准还原原说话人的音色、呼吸感、停顿习惯甚至情绪色彩。
无需训练：完全基于预训练模型推理，秒级完成克隆。

2. 多说话人对话合成

剧本式输入：在文本中使用 [speaker_1]:, [speaker_2]: 等标签，即可自动生成多人对话。
独立音色控制：为每个标签分配不同的参考音频，模拟真实的访谈、广播剧或会议场景。
智能停顿：自动在说话人切换时插入自然停顿（可配置时长）。

3. 基于扩散的高质量生成

DiT 架构：采用 Diffusion Transformer 结合 ODE 欧拉求解器，生成的语音连贯性极强，无机械感。
自适应引导：支持 CFG (Classifier-Free Guidance) 和 APG (Adaptive Projected Guidance)，后者专为语音克隆优化，能有效减少伪影和破音。

4. 极致性能与兼容性

多精度支持：
- FP8 / BF16：大幅降低显存占用（3.5B 模型仅需 8-14GB 显存），适合消费级显卡。
- FP32：提供最高理论质量（需 20GB+ 显存）。
- FP16 混合模式：针对纯 TTS 任务优化，自动处理编码器溢出问题。
注意力加速：支持 SDPA, SageAttention, FlashAttention，显著提升推理速度。
智能缓存：支持模型驻留内存 (keep_model_loaded)，避免重复加载带来的延迟。

模型版本与显存需求

插件支持自动下载多种量化版本的模型，以适应不同硬件：

模型版本	参数量	显存占用 (估算)	特点	推荐场景
1B	1 Billion	~6-8 GB	最小最快，质量尚可	低显存卡，快速测试
3.5B-bf16	3.5 Billion	~10-14 GB	推荐，质量与速度平衡	大多数 RTX 30/40 系列
3.5B-fp8	3.5 Billion	~8-12 GB	下载小，加载时反量化为 BF16	显存紧张但想跑大模型
3.5B (FP32)	3.5 Billion	~20 GB+	原始精度，理论最佳	高端卡 (3090/4090)

注意：首次运行会自动从 HuggingFace 下载对应模型到 ComfyUI/models/audiodit/。

安装指南

方法一：ComfyUI Manager (推荐)

打开 ComfyUI Manager。
搜索 LongCat-AudioDiT。
点击 Install。
重启 ComfyUI。

方法二：手动安装

cd ComfyUI/custom_nodes
git clone https://github.com/saganaki22/ComfyUI-LongCat-AudioDIT-TTS.git
cd ComfyUI-LongCat-AudioDIT-TTS
pip install -r requirements.txt

插件启动时会自动检查并安装缺失的 Python 依赖。

节点详解与工作流

1. 基础 TTS (`LongCat AudioDiT TTS`)

适用于使用预设音色或不需要克隆特定人声的场景。

输入: text (文本), steps (步数), guidance_strength (引导强度)。
输出: audio (生成的语音)。

2. 语音克隆 (`LongCat AudioDiT Voice Clone TTS`)

核心节点。用于复刻特定说话人声音。

输入:
- prompt_audio: 参考音频 (3-15 秒效果最佳)。
- prompt_text: (可选) 参考音频的文本转录，提供后可显著提升克隆准确度。
- text: 想要合成的新文本。
- guidance_method: 建议选择 apg (自适应投影引导) 以获得更自然的克隆效果。
输出: audio (克隆后的语音)。

3. 多说话人对话 (`LongCat AudioDiT Multi-Speaker TTS`)

用于生成多人互动的音频。

输入:
- num_speakers: 说话人数量 (2-10)。
- speaker_N_audio: 每个说话人的参考音频。
- speaker_N_ref_text: 每个参考音频的转录文本。
- text: 包含标签的剧本。

文本格式示例:

[speaker_1]: 你好，今天天气真不错。
[speaker_2]: 是啊，很适合出去走走。
[speaker_1]: 那我们要不要去公园？

输出: audio (完整的对话音频)。

关键参数调优建议

参数	推荐设置	说明
steps	`16` (快) / `32` (优)	扩散步数。16 步已足够清晰，32 步细节更丰富。
guidance_strength	`4.0`	引导强度。过高可能导致声音僵硬，过低可能偏离文本。
guidance_method	`apg` (克隆) / `cfg` (TTS)	语音克隆务必使用 `apg`，能显著减少噪声和失真。
dtype	`auto` 或 `bf16`	除非显存极度紧张，否则不要用 FP16 跑克隆任务（会溢出）。
attention	`sage_attention`	如果安装了 SageAttention，选它速度最快。
pause_after_speaker	`0.4`	多说话人模式下，角色切换间的静音秒数。

⚠️ 重要提示：关于 FP16 的限制

纯 TTS：可以使用 FP16 加速。
语音克隆/多说话人：不支持 FP16。因为参考音频编码过程在 FP16 下会导致数值溢出 (NaN)，产生静音或噪音。
自动保护：如果你在克隆节点选择了 FP16，插件会自动将其升级为 BF16 并弹出警告。请确保你的显卡支持 BF16 (RTX 30 系及以上)。