Canary-ComfyUI:在 ComfyUI 中集成英伟达Canary模型的语音识别与翻译能力

插件3个月前发布 小马良
95 0

英伟达推出的 Canary 是一款先进的端到端语音处理模型,支持自动语音识别(ASR)和语音翻译(AST),具备多语言识别、标点恢复和大小写规范化能力。通过社区开发的自定义节点 Canary-ComfyUI,用户现在可以在 ComfyUI 可视化流程中直接调用 Canary 模型,实现音频转录与跨语言翻译的一体化工作流。

该节点目前支持以下三个 Canary 模型:

  • canary-1b-v2(推荐)
  • canary-1b-flash
  • canary-180m-flash

其中,canary-1b-v2 是一个拥有 10 亿参数的高性能模型,专为欧洲多语种场景设计,在 ASR 和 AST 任务上表现优异。

Canary-ComfyUI:在 ComfyUI 中集成英伟达Canary模型的语音识别与翻译能力

🌍 支持功能与语言范围

核心能力

  • 语音转文字(ASR):将语音内容准确转换为带标点、正确大小写的文本。
  • 语音翻译(AST)
    • 英语 → 24 种目标语言
    • 24 种源语言 → 英语

支持语言列表(共 25 种)

语言编码
保加利亚语bg
克罗地亚语hr
捷克语cs
丹麦语da
荷兰语nl
英语en ✅(核心枢纽语言)
爱沙尼亚语et
芬兰语fi
法语fr
德语de
希腊语el
匈牙利语hu
意大利语it
拉脱维亚语lv
立陶宛语lt
马耳他语mt
波兰语pl
葡萄牙语pt
罗马尼亚语ro
斯洛伐克语sk
斯洛文尼亚语sl
西班牙语es
瑞典语sv
俄语ru
乌克兰语uk

注:所有非英语语言均可翻译至英语;仅英语可作为源语言翻译至其他 24 种语言。

⚙️ 安装步骤

请按顺序完成以下配置,确保节点正常运行。

1. 克隆仓库

进入 ComfyUI 的 custom_nodes 目录并克隆项目:

cd /path/to/ComfyUI/custom_nodes/
git clone https://github.com/Juste-Leo2/Canary-ComfyUI.git
cd Canary-ComfyUI

2. 安装依赖

由于 ComfyUI 内部 Python 环境较为特殊,建议使用其内置的 uv 工具安装依赖,以减少包冲突风险。(PS:此插件的依赖项都是限定版本的,不建议在你现在使用的ComfyUI 中安装,可以单独安装)

执行命令前注意:

  • 若使用 便携版 ComfyUI,Python 路径通常为:ComfyUI/python_embedded/python.exe
  • 若使用虚拟环境(venv),请先激活环境后执行 python

运行以下命令(从 Canary-ComfyUI 根目录执行):

/path/to/your/python.exe -m uv pip install -r requirements.txt \
  --no-deps --force-reinstall --index-strategy unsafe-best-match

此命令将安全安装 NeMo Toolkit,避免影响现有组件。

3. 下载模型文件

前往 Hugging Face 模型页面获取 .nemo 文件:

下载模型文件:
👉 canary-1b-v2.nemo

其他支持模型(如 flash 版本)也将陆续支持,请关注项目更新。

4. 放置模型文件

将下载的 .nemo 文件放置于 ComfyUI 的模型目录下:

ComfyUI/models/canary/canary-1b-v2.nemo

若 canary 文件夹不存在,请手动创建。

5. 重启 ComfyUI

完全关闭并重新启动 ComfyUI。
刷新节点面板后,在「添加节点」菜单中应出现 Canary-ComfyUI 类别,包含如下节点:

  • Load Canary Model
  • Canary Transcription
  • Canary Translate to English
  • Canary Translate from English

▶️ 使用方法

  1. 添加 Load Canary Model 节点,选择已放置的 canary-1b-v2.nemo 模型。
  2. 使用 Load Audio 节点加载音频文件(支持常见格式如 WAV、MP3)。
  3. 将 CANARY_MODEL 输出连接至以下任一任务节点:
    • Canary Transcription:语音转文字(ASR)
    • Canary Translate to English:非英语语音翻译成英文
    • Canary Translate from English:英语语音翻译成目标语言
  4. 在节点中选择对应的语言选项。
  5. 提交队列,等待处理完成,文本结果将以字符串形式输出,可用于后续流程或保存。

✅ 优势总结

特性说明
多语言支持覆盖东欧至西欧主流语言,适合跨国内容处理
高精度标点自动补全句号、逗号、引号等,提升可读性
流程可视化深度集成 ComfyUI,便于构建复杂音频处理流水线
易于扩展模块化设计,未来可接入更多 Canary 子模型

📝 注意事项

  • 当前版本主要验证了 canary-1b-v2 的兼容性,其余模型需进一步测试。
  • 推理性能依赖 GPU 显存,建议使用至少 8GB 显存设备运行 1b 级模型。
  • 如遇导入错误,请检查 Python 环境是否正确指向 ComfyUI 内嵌解释器。
  • 项目由社区维护,非英伟达官方出品,但模型权重来自官方发布。
© 版权声明

相关文章

暂无评论

none
暂无评论...