ComfyUI-LongCat-AudioDiT-TTS:在节点流中实现广播级零样本语音克隆

插件5小时前发布 小马良
4 0

ComfyUI-LongCat-AudioDiT-TTS 是将美团最新开源的 LongCat-AudioDiT 模型原生集成到 ComfyUI 的自定义节点插件。它利用基于扩散变换器(DiT)的架构和 ODE 欧拉求解器,让你能在 ComfyUI 工作流中直接生成广播级质量(24kHz)的语音。

  • GitHub:https://github.com/Saganaki22/ComfyUI-LongCat-AudioDIT-TTS

该插件的核心优势在于零样本语音克隆能力:只需提供一段 3-15 秒的参考音频,即可完美复刻说话人的音色、语调和情感,无需任何微调。此外,它还支持通过简单的标签语法生成多说话人对话,让 AI 配音和有声书制作变得前所未有的简单高效。

LongCat-AudioDiT:美团开源的端到端语音合成模型,直接在波形潜空间生成高保真语音

ComfyUI-LongCat-AudioDiT-TTS:在节点流中实现广播级零样本语音克隆

核心功能亮点

1. 零样本语音克隆 (Zero-Shot Voice Cloning)

  • 即插即用:上传任意短音频(推荐 3-15 秒),模型即可提取声纹特征。
  • 高保真复刻:精准还原原说话人的音色、呼吸感、停顿习惯甚至情绪色彩。
  • 无需训练:完全基于预训练模型推理,秒级完成克隆。

2. 多说话人对话合成

  • 剧本式输入:在文本中使用 [speaker_1]:[speaker_2]: 等标签,即可自动生成多人对话。
  • 独立音色控制:为每个标签分配不同的参考音频,模拟真实的访谈、广播剧或会议场景。
  • 智能停顿:自动在说话人切换时插入自然停顿(可配置时长)。

3. 基于扩散的高质量生成

  • DiT 架构:采用 Diffusion Transformer 结合 ODE 欧拉求解器,生成的语音连贯性极强,无机械感。
  • 自适应引导:支持 CFG (Classifier-Free Guidance) 和 APG (Adaptive Projected Guidance),后者专为语音克隆优化,能有效减少伪影和破音。

4. 极致性能与兼容性

  • 多精度支持
    • FP8 / BF16:大幅降低显存占用(3.5B 模型仅需 8-14GB 显存),适合消费级显卡。
    • FP32:提供最高理论质量(需 20GB+ 显存)。
    • FP16 混合模式:针对纯 TTS 任务优化,自动处理编码器溢出问题。
  • 注意力加速:支持 SDPASageAttentionFlashAttention,显著提升推理速度。
  • 智能缓存:支持模型驻留内存 (keep_model_loaded),避免重复加载带来的延迟。

模型版本与显存需求

插件支持自动下载多种量化版本的模型,以适应不同硬件:

模型版本参数量显存占用 (估算)特点推荐场景
1B1 Billion~6-8 GB最小最快,质量尚可低显存卡,快速测试
3.5B-bf163.5 Billion~10-14 GB推荐,质量与速度平衡大多数 RTX 30/40 系列
3.5B-fp83.5 Billion~8-12 GB下载小,加载时反量化为 BF16显存紧张但想跑大模型
3.5B (FP32)3.5 Billion~20 GB+原始精度,理论最佳高端卡 (3090/4090)

注意:首次运行会自动从 HuggingFace 下载对应模型到 ComfyUI/models/audiodit/

安装指南

方法一:ComfyUI Manager (推荐)

  1. 打开 ComfyUI Manager。
  2. 搜索 LongCat-AudioDiT
  3. 点击 Install
  4. 重启 ComfyUI。

方法二:手动安装

cd ComfyUI/custom_nodes
git clone https://github.com/saganaki22/ComfyUI-LongCat-AudioDIT-TTS.git
cd ComfyUI-LongCat-AudioDIT-TTS
pip install -r requirements.txt

插件启动时会自动检查并安装缺失的 Python 依赖。

节点详解与工作流

1. 基础 TTS (LongCat AudioDiT TTS)

适用于使用预设音色或不需要克隆特定人声的场景。

  • 输入text (文本), steps (步数), guidance_strength (引导强度)。
  • 输出audio (生成的语音)。

2. 语音克隆 (LongCat AudioDiT Voice Clone TTS)

核心节点。用于复刻特定说话人声音。

  • 输入:
    • prompt_audio: 参考音频 (3-15 秒效果最佳)。
    • prompt_text: (可选) 参考音频的文本转录,提供后可显著提升克隆准确度。
    • text: 想要合成的新文本。
    • guidance_method: 建议选择 apg (自适应投影引导) 以获得更自然的克隆效果。
  • 输出audio (克隆后的语音)。

3. 多说话人对话 (LongCat AudioDiT Multi-Speaker TTS)

用于生成多人互动的音频。

  • 输入:
    • num_speakers: 说话人数量 (2-10)。
    • speaker_N_audio: 每个说话人的参考音频。
    • speaker_N_ref_text: 每个参考音频的转录文本。
    • text: 包含标签的剧本。
  • 文本格式示例:
    [speaker_1]: 你好,今天天气真不错。
    [speaker_2]: 是啊,很适合出去走走。
    [speaker_1]: 那我们要不要去公园?
    
  • 输出audio (完整的对话音频)。

关键参数调优建议

参数推荐设置说明
steps16 (快) / 32 (优)扩散步数。16 步已足够清晰,32 步细节更丰富。
guidance_strength4.0引导强度。过高可能导致声音僵硬,过低可能偏离文本。
guidance_methodapg (克隆) / cfg (TTS)语音克隆务必使用 apg,能显著减少噪声和失真。
dtypeauto 或 bf16除非显存极度紧张,否则不要用 FP16 跑克隆任务(会溢出)。
attentionsage_attention如果安装了 SageAttention,选它速度最快。
pause_after_speaker0.4多说话人模式下,角色切换间的静音秒数。

⚠️ 重要提示:关于 FP16 的限制

  • 纯 TTS:可以使用 FP16 加速。
  • 语音克隆/多说话人不支持 FP16。因为参考音频编码过程在 FP16 下会导致数值溢出 (NaN),产生静音或噪音。
  • 自动保护:如果你在克隆节点选择了 FP16,插件会自动将其升级为 BF16 并弹出警告。请确保你的显卡支持 BF16 (RTX 30 系及以上)。

应用场景

  • 🎧 有声书制作:为不同角色分配不同音色,一键生成长篇对话。
  • 📹 视频配音:克隆自己的声音或名人声音(需注意版权)进行视频解说。
  • 🎮 游戏 NPC:快速生成大量带有不同情绪和音色的 NPC 台词。
  • 📻 广播剧创作:单人模拟多人对话,低成本制作剧情音频。
  • 🔊 个性化助手:为本地 AI 助手定制独特的语音反馈。
© 版权声明

相关文章

暂无评论

none
暂无评论...