ComfyUI VibeVoice ASR：高质量长时语音识别自定义节点，支持说话人分离与SRT导出

18 0

ComfyUI VibeVoice ASR是一款专为ComfyUI打造的自定义节点，核心价值在于将Microsoft VibeVoice ASR强大的语音识别能力集成到ComfyUI工作流中，让用户无需切换外部工具，直接在ComfyUI内完成高质量、长时程的语音转录任务，同时支持说话人分离、时间戳标注与标准SRT字幕导出，满足音频转文字、字幕制作、会议记录整理等多场景需求。

GitHub：https://github.com/kana112233/ComfyUI-kaola-VibeVoice-ASR

相较于传统语音识别工具，这款自定义节点无需复杂的命令行操作，完全适配ComfyUI的可视化工作流逻辑，拖拽节点即可完成配置与运行，降低了VibeVoice ASR模型的使用门槛，让ComfyUI用户（无论是创作者、开发者还是音频从业者）都能快速上手，实现语音数据的高效处理。

微软开源 VibeVoice-ASR：支持60分钟长音频的端到端语音转写模型

此外，该节点还支持上下文/热词补充，可提升专业术语、特殊姓名的识别准确性，同时输出SRT字符串与原始JSON数据，兼顾普通用户的便捷使用与高级用户的二次开发需求。

ComfyUI VibeVoice ASR：高质量长时语音识别自定义节点，支持说话人分离与SRT导出

核心功能特性：强大、全面、适配ComfyUI工作流

ComfyUI VibeVoice ASR的功能围绕“高质量语音转录”展开，完美继承了Microsoft VibeVoice ASR的核心优势，同时针对ComfyUI环境进行优化，核心特性如下：

长时语音识别支持：突破普通语音识别工具的时长限制，单次可处理长达60分钟的音频文件，无需分段切割，适合处理会议录音、播客、长篇有声书等长时程音频内容，提升处理效率。
自动生成标准SRT字幕：转录完成后，自动生成带精准时间戳的标准SRT格式字幕，无需手动校对时间轴，可直接用于视频剪辑、字幕投放等场景，节省后期制作时间。
智能说话人分离：能够自动识别音频中的不同说话者，并以“说话人0、说话人1”等格式进行标注区分，适合整理会议记录、访谈内容，快速区分不同发言者的表述，便于后续内容梳理。
上下文/热词优化：支持手动输入上下文信息（如专业术语、人名、地名、行业黑话等），帮助模型提升特殊内容的识别准确性，解决专业场景下语音识别误差过高的问题。
双格式丰富输出：同时提供两种输出格式，满足不同用户需求——srt_content为直接可用的字幕文本，适合普通用户；json_content为详细原始JSON数据，包含完整的转录信息、时间戳、说话人标签，适合高级用户进行二次处理与开发。
ComfyUI无缝集成：作为ComfyUI自定义节点，完全适配ComfyUI的可视化工作流，可与其他音频处理节点、文本处理节点联动，构建更复杂的自动化工作流，无需脱离ComfyUI环境。

安装步骤：三步完成部署，重启即可使用

该节点的安装流程简单清晰，核心分为“克隆仓库、安装依赖、重启ComfyUI”三步，前置要求是已安装并正常运行ComfyUI，且具备Python环境。

步骤1：克隆项目仓库到ComfyUI自定义节点目录

首先打开终端（Windows可使用CMD或PowerShell，Mac/Linux使用终端），切换到ComfyUI的custom_nodes目录，然后克隆项目源码：

# 切换到ComfyUI自定义节点目录（请替换为你的ComfyUI实际路径）
cd ComfyUI/custom_nodes/
# 克隆项目仓库
git clone https://github.com/kana112233/ComfyUI-kaola-VibeVoice-ASR.git
# 进入项目目录
cd ComfyUI-kaola-VibeVoice-ASR

步骤2：安装项目所需依赖

项目运行需要特定的Python依赖包，执行以下命令安装requirements.txt中列出的所有依赖：

# 安装依赖包
pip install -r requirements.txt

⚠️ 重要注意事项：
该节点要求transformers库版本≥4.51.3，若你的环境中该库版本过低，会导致节点运行失败，请执行pip install --upgrade transformers进行更新。
安装过程中若出现网络超时，可切换国内PyPI镜像源（如阿里云、清华源）加速安装。

步骤3：重启ComfyUI，验证节点是否生效

安装完成后，关闭当前运行的ComfyUI服务，然后重新启动ComfyUI。

重启成功后，在ComfyUI的节点列表中，找到VibeVoice类别，即可看到该节点的所有相关组件，说明安装成功，可开始配置使用。

详细使用指南：可视化配置，拖拽即可运行

该节点包含两个核心组件：VibeVoice 模型加载器（负责加载模型与配置运行环境）和VibeVoice 转录（负责执行具体的语音转录任务），以下是详细的使用说明与配置要点。

前置提醒：显存要求

该模型（约7B参数）对显卡显存要求较高，经实测，12G显存运行时会出现显存不足（爆显存）的问题，推荐使用16G及以上显存的GPU运行，若显存不足，可尝试降低精度模式（如从bf16切换为fp16），或使用CPU运行（CPU运行速度较慢，仅适合短音频测试）。

组件1：VibeVoice 模型加载器（核心配置）

该节点的作用是加载VibeVoice ASR模型，并配置运行精度与设备，核心配置项如下：

model_name（模型路径/名称）
- 自动下载（推荐，适合有网络连接的用户）：保持默认值microsoft/VibeVoice-ASR即可，首次运行时，模型会自动下载到HuggingFace缓存文件夹（默认路径：~/.cache/huggingface），后续运行可直接复用，无需重复下载。
- 手动指定（适合离线使用或网络不佳的用户）：先从HuggingFace官网下载microsoft/VibeVoice-ASR模型文件，将其放置在本地文件夹（建议路径：ComfyUI/models/vibevoice），然后在此配置项中粘贴该文件夹的绝对路径（示例：Windows路径D:\ComfyUI\models\vibevoice\VibeVoice-ASR，Linux/Mac路径/content/ComfyUI/models/vibevoice/VibeVoice-ASR）。
precision（运行精度）
- 推荐选项：bf16（适合现代高端GPU，显存占用相对合理，运行速度快，识别效果好）。
- 备选选项：fp16（适合中端GPU，显存占用略低于bf16，识别效果基本无损耗）、fp32（适合低端GPU或CPU，显存/内存占用最高，运行速度最慢，仅作为兜底选择）。
device（运行设备）
- 推荐选项：auto（自动检测当前环境的可用设备，优先选择GPU，无需手动配置，适合大多数用户）。
- 备选选项：cuda（强制使用NVIDIA GPU运行）、mps（适合Mac设备带Apple Silicon芯片）、cpu（强制使用CPU运行，仅适合测试）。

组件2：VibeVoice 转录（执行转录任务）

该节点的作用是接收音频输入，执行语音转录任务，并输出结果，核心配置项与输出说明如下：

核心输入项
- audio：连接ComfyUI的标准AUDIO输出节点（如LoadAudio节点，用于加载本地音频文件），支持常见音频格式（如MP3、WAV等）。
- context_info（可选，非必填）：输入上下文补充信息，如专业术语、人名、地名、项目名称等，帮助模型提升特殊内容的识别准确性，示例：“人工智能、ComfyUI、VibeVoice、语音识别”。
核心输出项
- srt_content：标准SRT格式的字幕文本，包含时间戳与转录内容，可直接复制保存为.srt文件，用于视频字幕制作。
- json_content：详细的原始JSON数据，包含完整的转录信息（每个语句的开始时间、结束时间、转录文本、说话人标签等），适合高级用户进行二次处理（如数据提取、格式转换等）。

快速上手：使用示例工作流

项目仓库中已提供现成的示例工作流文件examples/vibevoice_workflow_example.json，无需手动配置节点，步骤如下：

找到该JSON文件，将其保存到本地。
打开ComfyUI，直接将该JSON文件拖放到ComfyUI的工作流编辑区域。
替换工作流中的LoadAudio节点的音频文件路径（选择你自己的本地音频文件）。
按需调整VibeVoice 模型加载器的配置（如设备、精度）。
点击ComfyUI的“运行”按钮，即可开始执行语音转录任务，等待运行完成后，查看输出结果。

更新方法：更新核心VibeVoice库，保持功能最新

该节点将原始VibeVoice仓库作为子模块包含在VibeVoice_src目录中，若需要更新核心VibeVoice库（获取最新功能与Bug修复），执行以下命令即可：

# 切换到ComfyUI自定义节点的项目目录
cd ComfyUI/custom_nodes/ComfyUI-kaola-VibeVoice-ASR/VibeVoice_src
# 拉取最新代码，完成更新
git pull

更新完成后，无需重新安装依赖，直接重启ComfyUI即可生效，节点会使用更新后的核心库运行。

文章版权归作者所有，未经允许请勿转载。

ComfyUI-fixableflow：ComfyUI 插件实现分阶段可编辑插图生成

插件 # ComfyUI-fixableflow

2个月前

0430

多层 Web 画布工具Comfy-Canvas发布 Beta 0.1.1：轻量画布，直连 ComfyUI

插件 # Comfy-Canvas

6个月前

02580

ComfyUI GeminiOllama Extension：将大语言模型及多种图像处理工具集成到 ComfyUI 中

插件 # ComfyUI GeminiOllama Extension # 大语言模型

11个月前

06140

ComfyUI MiniMax-Remover：仅需 6 步的视频/图像对象移除节点

插件 # ComfyUI MiniMax-Remover # 对象移除

7个月前

05550

暂无评论

暂无评论...

ComfyUI VibeVoice ASR：高质量长时语音识别自定义节点，支持说话人分离与SRT导出

核心功能特性：强大、全面、适配ComfyUI工作流

安装步骤：三步完成部署，重启即可使用

步骤1：克隆项目仓库到ComfyUI自定义节点目录

步骤2：安装项目所需依赖

步骤3：重启ComfyUI，验证节点是否生效

详细使用指南：可视化配置，拖拽即可运行

前置提醒：显存要求

组件1：VibeVoice 模型加载器（核心配置）

组件2：VibeVoice 转录（执行转录任务）

快速上手：使用示例工作流

更新方法：更新核心VibeVoice库，保持功能最新

LTX-2 一月末更新：Gemma 编码节点优化 + 多模态引导器 + IC-LoRA 升级，强化视频工作流控制

ComfyUI-QwenASR：轻量可靠的语音转文本自定义节点，支持长音频处理与精准字幕生成

相关文章

ComfyUI-fixableflow：ComfyUI 插件实现分阶段可编辑插图生成

多层 Web 画布工具Comfy-Canvas发布 Beta 0.1.1：轻量画布，直连 ComfyUI

ComfyUI GeminiOllama Extension：将大语言模型及多种图像处理工具集成到 ComfyUI 中

ComfyUI MiniMax-Remover：仅需 6 步的视频/图像对象移除节点

暂无评论

文章

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

Obsidian 1.12 重磅更新：原生 CLI 命令行界面上线，解锁笔记自动化与 AI 工作流新玩法

新Qwen3.5 小模型系列重磅发布：0.8B 至 9B 全覆盖，原生多模态与强化学习赋能边缘智能

LiquidAI 发布 LFM2-24B-A2B：240 亿参数 MoE 模型，仅需 20 亿激活即可在 32GB 内存笔记本上流畅运行

美团 LongCat 团队发布 LongCat-Flash-Lite：685 亿参数 MoE 模型，用 N-gram 嵌入表突破推理效率瓶颈

Facebook 一口气推出三项AI新功能：动态头像、照片重塑、文本背景

新CoPaw

OpenClaw（Clawdbot/Moltbot）

YouMind

MaxClaw

新waoo

OpenClaw

ComfyUI VibeVoice ASR：高质量长时语音识别自定义节点，支持说话人分离与SRT导出

核心功能特性：强大、全面、适配ComfyUI工作流

安装步骤：三步完成部署，重启即可使用

步骤1：克隆项目仓库到ComfyUI自定义节点目录

步骤2：安装项目所需依赖

步骤3：重启ComfyUI，验证节点是否生效

详细使用指南：可视化配置，拖拽即可运行

前置提醒：显存要求

组件1：VibeVoice 模型加载器（核心配置）

组件2：VibeVoice 转录（执行转录任务）

快速上手：使用示例工作流

更新方法：更新核心VibeVoice库，保持功能最新

LTX-2 一月末更新：Gemma 编码节点优化 + 多模态引导器 + IC-LoRA 升级，强化视频工作流控制

ComfyUI-QwenASR：轻量可靠的语音转文本自定义节点，支持长音频处理与精准字幕生成

相关文章

文章

标签云

网址

新CoPaw

OpenClaw（Clawdbot/Moltbot）

YouMind

MaxClaw

新waoo

OpenClaw