英伟达推出的 Canary 是一款先进的端到端语音处理模型,支持自动语音识别(ASR)和语音翻译(AST),具备多语言识别、标点恢复和大小写规范化能力。通过社区开发的自定义节点 Canary-ComfyUI,用户现在可以在 ComfyUI 可视化流程中直接调用 Canary 模型,实现音频转录与跨语言翻译的一体化工作流。
该节点目前支持以下三个 Canary 模型:
canary-1b-v2(推荐)canary-1b-flashcanary-180m-flash
其中,canary-1b-v2 是一个拥有 10 亿参数的高性能模型,专为欧洲多语种场景设计,在 ASR 和 AST 任务上表现优异。

🌍 支持功能与语言范围
核心能力
- 语音转文字(ASR):将语音内容准确转换为带标点、正确大小写的文本。
- 语音翻译(AST):
- 英语 → 24 种目标语言
- 24 种源语言 → 英语
支持语言列表(共 25 种)
| 语言 | 编码 |
|---|---|
| 保加利亚语 | bg |
| 克罗地亚语 | hr |
| 捷克语 | cs |
| 丹麦语 | da |
| 荷兰语 | nl |
| 英语 | en ✅(核心枢纽语言) |
| 爱沙尼亚语 | et |
| 芬兰语 | fi |
| 法语 | fr |
| 德语 | de |
| 希腊语 | el |
| 匈牙利语 | hu |
| 意大利语 | it |
| 拉脱维亚语 | lv |
| 立陶宛语 | lt |
| 马耳他语 | mt |
| 波兰语 | pl |
| 葡萄牙语 | pt |
| 罗马尼亚语 | ro |
| 斯洛伐克语 | sk |
| 斯洛文尼亚语 | sl |
| 西班牙语 | es |
| 瑞典语 | sv |
| 俄语 | ru |
| 乌克兰语 | uk |
注:所有非英语语言均可翻译至英语;仅英语可作为源语言翻译至其他 24 种语言。
⚙️ 安装步骤
请按顺序完成以下配置,确保节点正常运行。
1. 克隆仓库
进入 ComfyUI 的 custom_nodes 目录并克隆项目:
cd /path/to/ComfyUI/custom_nodes/
git clone https://github.com/Juste-Leo2/Canary-ComfyUI.git
cd Canary-ComfyUI
2. 安装依赖
由于 ComfyUI 内部 Python 环境较为特殊,建议使用其内置的 uv 工具安装依赖,以减少包冲突风险。(PS:此插件的依赖项都是限定版本的,不建议在你现在使用的ComfyUI 中安装,可以单独安装)
执行命令前注意:
- 若使用 便携版 ComfyUI,Python 路径通常为:
ComfyUI/python_embedded/python.exe - 若使用虚拟环境(venv),请先激活环境后执行
python
运行以下命令(从 Canary-ComfyUI 根目录执行):
/path/to/your/python.exe -m uv pip install -r requirements.txt \
--no-deps --force-reinstall --index-strategy unsafe-best-match
此命令将安全安装 NeMo Toolkit,避免影响现有组件。
3. 下载模型文件
前往 Hugging Face 模型页面获取 .nemo 文件:
下载模型文件:
👉 canary-1b-v2.nemo
其他支持模型(如 flash 版本)也将陆续支持,请关注项目更新。
4. 放置模型文件
将下载的 .nemo 文件放置于 ComfyUI 的模型目录下:
ComfyUI/models/canary/canary-1b-v2.nemo
若 canary 文件夹不存在,请手动创建。
5. 重启 ComfyUI
完全关闭并重新启动 ComfyUI。
刷新节点面板后,在「添加节点」菜单中应出现 Canary-ComfyUI 类别,包含如下节点:
- Load Canary Model
- Canary Transcription
- Canary Translate to English
- Canary Translate from English
▶️ 使用方法
- 添加 Load Canary Model 节点,选择已放置的
canary-1b-v2.nemo模型。 - 使用 Load Audio 节点加载音频文件(支持常见格式如 WAV、MP3)。
- 将
CANARY_MODEL输出连接至以下任一任务节点:- Canary Transcription:语音转文字(ASR)
- Canary Translate to English:非英语语音翻译成英文
- Canary Translate from English:英语语音翻译成目标语言
- 在节点中选择对应的语言选项。
- 提交队列,等待处理完成,文本结果将以字符串形式输出,可用于后续流程或保存。
✅ 优势总结
| 特性 | 说明 |
|---|---|
| 多语言支持 | 覆盖东欧至西欧主流语言,适合跨国内容处理 |
| 高精度标点 | 自动补全句号、逗号、引号等,提升可读性 |
| 流程可视化 | 深度集成 ComfyUI,便于构建复杂音频处理流水线 |
| 易于扩展 | 模块化设计,未来可接入更多 Canary 子模型 |
📝 注意事项
- 当前版本主要验证了
canary-1b-v2的兼容性,其余模型需进一步测试。 - 推理性能依赖 GPU 显存,建议使用至少 8GB 显存设备运行
1b级模型。 - 如遇导入错误,请检查 Python 环境是否正确指向 ComfyUI 内嵌解释器。
- 项目由社区维护,非英伟达官方出品,但模型权重来自官方发布。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















