Canary-ComfyUI：在 ComfyUI 中集成英伟达Canary模型的语音识别与翻译能力

111 0

英伟达推出的 Canary 是一款先进的端到端语音处理模型，支持自动语音识别（ASR）和语音翻译（AST），具备多语言识别、标点恢复和大小写规范化能力。通过社区开发的自定义节点 Canary-ComfyUI，用户现在可以在 ComfyUI 可视化流程中直接调用 Canary 模型，实现音频转录与跨语言翻译的一体化工作流。

GitHub：https://github.com/Juste-Leo2/Canary-ComfyUI

该节点目前支持以下三个 Canary 模型：

canary-1b-v2（推荐）
canary-1b-flash
canary-180m-flash

其中，canary-1b-v2 是一个拥有 10 亿参数的高性能模型，专为欧洲多语种场景设计，在 ASR 和 AST 任务上表现优异。

Canary-ComfyUI：在 ComfyUI 中集成英伟达Canary模型的语音识别与翻译能力

🌍 支持功能与语言范围

核心能力

语音转文字（ASR）：将语音内容准确转换为带标点、正确大小写的文本。
语音翻译（AST）：
- 英语 → 24 种目标语言
- 24 种源语言 → 英语

支持语言列表（共 25 种）

语言	编码
保加利亚语	bg
克罗地亚语	hr
捷克语	cs
丹麦语	da
荷兰语	nl
英语	en ✅（核心枢纽语言）
爱沙尼亚语	et
芬兰语	fi
法语	fr
德语	de
希腊语	el
匈牙利语	hu
意大利语	it
拉脱维亚语	lv
立陶宛语	lt
马耳他语	mt
波兰语	pl
葡萄牙语	pt
罗马尼亚语	ro
斯洛伐克语	sk
斯洛文尼亚语	sl
西班牙语	es
瑞典语	sv
俄语	ru
乌克兰语	uk

注：所有非英语语言均可翻译至英语；仅英语可作为源语言翻译至其他 24 种语言。

⚙️ 安装步骤

请按顺序完成以下配置，确保节点正常运行。

1. 克隆仓库

进入 ComfyUI 的 custom_nodes 目录并克隆项目：

cd /path/to/ComfyUI/custom_nodes/
git clone https://github.com/Juste-Leo2/Canary-ComfyUI.git
cd Canary-ComfyUI

2. 安装依赖

由于 ComfyUI 内部 Python 环境较为特殊，建议使用其内置的 uv 工具安装依赖，以减少包冲突风险。（PS：此插件的依赖项都是限定版本的，不建议在你现在使用的ComfyUI 中安装，可以单独安装）

执行命令前注意：

若使用 便携版 ComfyUI，Python 路径通常为：ComfyUI/python_embedded/python.exe
若使用虚拟环境（venv），请先激活环境后执行 python

运行以下命令（从 Canary-ComfyUI 根目录执行）：

/path/to/your/python.exe -m uv pip install -r requirements.txt \
  --no-deps --force-reinstall --index-strategy unsafe-best-match

此命令将安全安装 NeMo Toolkit，避免影响现有组件。

3. 下载模型文件

前往 Hugging Face 模型页面获取 .nemo 文件：

https://huggingface.co/nvidia/canary-1b-v2

下载模型文件：
👉 canary-1b-v2.nemo

其他支持模型（如 flash 版本）也将陆续支持，请关注项目更新。

4. 放置模型文件

将下载的 .nemo 文件放置于 ComfyUI 的模型目录下：

ComfyUI/models/canary/canary-1b-v2.nemo

若 canary 文件夹不存在，请手动创建。

5. 重启 ComfyUI

完全关闭并重新启动 ComfyUI。
刷新节点面板后，在「添加节点」菜单中应出现 Canary-ComfyUI 类别，包含如下节点：

Load Canary Model
Canary Transcription
Canary Translate to English
Canary Translate from English

▶️ 使用方法

添加 Load Canary Model 节点，选择已放置的 canary-1b-v2.nemo 模型。
使用 Load Audio 节点加载音频文件（支持常见格式如 WAV、MP3）。
将 CANARY_MODEL 输出连接至以下任一任务节点：
- Canary Transcription：语音转文字（ASR）
- Canary Translate to English：非英语语音翻译成英文
- Canary Translate from English：英语语音翻译成目标语言
在节点中选择对应的语言选项。
提交队列，等待处理完成，文本结果将以字符串形式输出，可用于后续流程或保存。

✅ 优势总结

特性	说明
多语言支持	覆盖东欧至西欧主流语言，适合跨国内容处理
高精度标点	自动补全句号、逗号、引号等，提升可读性
流程可视化	深度集成 ComfyUI，便于构建复杂音频处理流水线
易于扩展	模块化设计，未来可接入更多 Canary 子模型